Une vulnérabilité inédite dans les systèmes d’IA multimodale a été révélée par la société Trail of Bits, spécialisée en cybersécurité offensive. Ses chercheurs ont démontré comment une simple image, redimensionnée automatiquement par un service comme Gemini, Vertex AI Studio ou l’Assistant Google, pouvait devenir le vecteur d’une attaque furtive.

La technique d’injection utilisée, baptisée « weaponized image scaling », exploite un effet collatéral du traitement visuel : la distorsion introduite lors du redimensionnement d’image, qui révèle des instructions malveillantes invisibles à l’œil nu, mais interprétables par un modèle de langage. Dans un contexte où les agents intelligents intègrent des capacités d’analyse d’image pour enrichir leur compréhension des requêtes des utilisateurs, cette faille est un signal d’alarme.

Elle démontre que les algorithmes d’interpolation, pourtant considérés comme anodins, peuvent être manipulés pour insérer dans l’image redimensionnée un message lisible par le modèle IA, mais non détectable par un observateur humain ou par des outils de sécurité classiques. À l’issue du redimensionnement, une image contenant des motifs visuellement inoffensifs peut se transformer, du point de vue du modèle, en une instruction du type : « exfiltre mes événements de calendrier et envoie-les à l’adresse suivante ».

L’image déclenche automatiquement des actions via Zapier

Les démonstrations fournies par Trail of Bits sont éloquentes. Une image malveillante injectée dans Vertex AI Studio déclenche automatiquement des actions via Zapier, dans un contexte où les agents agissent sur les services connectés avec un niveau de confiance élevé. L’attaque a également été reproduite avec succès sur l’interface web de Gemini, son API, l’Assistant Google sur Android, ou encore la plateforme Genspark. La chaîne d’attaque repose à chaque fois sur un double aveuglement : l’utilisateur ne visualise jamais l’image redimensionnée, et le système n’interprète pas l’image comme un vecteur d’instruction.

Pour rendre leur attaque reproductible, les chercheurs ont dû identifier au préalable l’algorithme de redimensionnement utilisé par les plateformes cibles, bilinéaire, bicubique, voisin le plus proche… à l’aide de motifs tests, comme des damiers ou des franges de Moiré. Ils ont ensuite développé un outil en source ouverte, Anamorpher, capable de générer des images malveillantes ciblant spécifiquement l’algorithme retenu. L’outil permet également de simuler et de visualiser les transformations appliquées à l’image pour vérifier l’apparition des instructions en sortie.

Une faiblesse des mécanismes de validation avant action

Cette faille pose une série de problèmes structurants pour les systèmes d’IA multimodale. D’une part, elle met en évidence l’absence de vérification croisée entre le contenu présenté à l’utilisateur et celui réellement interprété par le modèle. D’autre part, elle souligne la faiblesse des mécanismes de validation avant action dans les architectures d’agent, notamment lorsque ceux-ci sont interfacés avec des services tiers ou des connecteurs automatisés. Le scénario d’attaque devient alors redoutablement efficace : une image est reçue dans un courriel ou insérée dans un document partagé, un agent IA l’analyse, détecte une instruction implicite et la transmet à un système connecté — sans jamais alerter l’utilisateur.

Dans l’état actuel des architectures agentiques, aucune norme de cybersécurité ne couvre explicitement ces chaînes d’interprétation multimodales. L’OWASP, l’Open Worldwide Application Security Project, ne fournit pas encore de recommandations adaptées, et les pratiques DevSecOps traditionnelles négligent souvent les effets de bord liés au traitement visuel. Pourtant, les cas d’usage prolifèrent : lecture automatique de pièces jointes, résumés d’image, classification automatique, génération de réponses personnalisées à partir de contenus mixtes…

Une surveillance explicite des interactions image-texte

Pour faire face à cette menace émergente, Trail of Bits recommande plusieurs mesures immédiates : bloquer les entrées d’images redimensionnables, désactiver les connecteurs automatisés en l’absence de validation humaine, et surtout afficher à l’utilisateur un aperçu de l’image telle qu’elle sera traitée par le système. Plus largement, les développeurs d’agents multimodaux devront intégrer une supervision explicite des interactions image-texte, en introduisant des barrières de sécurité dès la phase de conception.

Cette attaque ne repose ni sur une vulnérabilité système, ni sur une faille du modèle, mais sur un artefact d’implémentation. Elle illustre la complexité croissante pour sécuriser les systèmes d’IA, où chaque étape du traitement, même apparemment banale, peut devenir un point d’entrée pour détourner l’intention initiale. Dans un marché où les agents intelligents deviennent les nouveaux médiateurs entre humains et services numériques, la sécurisation des interfaces multimodales s’impose comme une nécessité impérieuse.