Parmi les attaques possibles sur l’IA, le LLMjacking représente une menace croissante pour les organisations utilisant des modèles de langage avancés. La compréhension des méthodes d’attaque et des motivations des attaquants est essentielle pour renforcer les défenses pour protéger les ressources
contre les abus.


La démocratisation des technologies d’intelligence artificielle constitue un nouveau champ de bataille de la cybersécurité dans les entreprises. L’accès élargi à des modèles d’IA sophistiqués ouvre la porte à de nouvelles menaces. Les cybercriminels exploitent de plus en plus les interfaces API des grands modèles de langage via des attaques telles que le LLMjacking ou l’empoisonnement de modèles.

Les cybermalfaiteurs disposent de plusieurs méthodes exploitant la pile technologique de l’IA. Ils ciblent les LLM, les algorithmes d’apprentissage automatique et les interfaces API pour des usages illicites. Une fois la compromission réussie, ils peuvent manipuler les sorties des IA pour des opérations malveillantes comme l’hameçonnage ou la désinformation, voler des ressources informatiques pour de la cryptomonnaie, ou exploiter des API pour lancer des attaques automatiques.

Le LLMjacking en voie de prolifération

D’après un rapport de l’équipe de recherche sur les cybermenaces de Sysdig (Threat Research Team, Sysdig TRT), le LLMjacking s’est répandu comme une mauvaise grippe. Sysdig TRT a observé l’évolution des attaques et des motivations des cyberattaquants. Celles-ci allant de l’utilisation personnelle « gratuite » de comptes LLM, à la vente d’accès à des personnes ayant été bloquées par leur service LLM, ou à des entités situées dans des pays sanctionnés par les plateformes d’intelligence artificielle en question.

Les LLM sont devenus des outils incontournables dans divers domaines, allant de l’assistance au développement de code, à la rédaction automatisée, en passant par la modélisation de dialogue. Leur coût élevé a suscité l’intérêt des attaquants pour les exploiter de manière abusive, une pratique connue sous le nom de LLMjacking. Celui-ci procède d’une technique d’attaque où des acteurs malveillants compromettent les interfaces API pour accéder au modèle et l’utiliser illégalement. Cette menace est particulièrement préoccupante dans le contexte de l’IA générative, où les modèles coûtent cher à opérer et sont souvent accessibles via des API.

Le second type d’attaque s’effectue par « empoisonnement de données d’entraînement ».
Il consiste à fausser les réponses du modèle en injectant des données biaisées, destinées à l’intoxiquer. Ce type d’attaque permet d’altérer les réponses et les décisions des algorithmes pour atteindre des objectifs précis, comme la désinformation et l’obtention de réponses et de décisions détournées. Ce risque est particulièrement dangereux dans des secteurs sensibles comme la finance ou la santé.

Leurrer les modèles avec des informations trompeuses

Les vulnérabilités des modèles d’IA peuvent également être exploitées par des attaquants qui introduisent des « exemples contradictoires », c’est-à-dire des entrées légèrement modifiées dans les systèmes. Ces modifications subtiles suffisent à tromper l’IA pour qu’elle génère des résultats incorrects. Cela peut compromettre la sécurité de systèmes critiques tels que ceux utilisés pour la détection des fraudes ou la reconnaissance d’images.

Une autre méthode d’attaque consiste en « l’extraction de modèles », où les cybercriminels envoient un grand nombre de requêtes pour analyser les réponses de l’IA. Cela leur permet de recréer ou de voler des modèles IA coûteux à développer. Ces modèles volés peuvent ensuite être revendus ou utilisés à des fins malveillantes.

Les principaux mésusages des IA compromises

Selon le rapport de Sysdig TRT, l’un des principaux mésusages des IA compromises est la génération automatisée de contenu malveillant. Les grands modèles de langage, tels que GPT, peuvent être utilisés pour générer des milliers de courriels d’hameçonnage, des scripts malveillants ou des campagnes de désinformation à grande échelle, augmentant ainsi l’efficacité et l’ampleur des attaques. Cela permet aux attaquants de créer des contenus adaptés et personnalisés qui trompent plus facilement les victimes, rendant les attaques plus difficiles à détecter.

Un autre usage concerne la manipulation des décisions automatisées dans les entreprises. Les modèles d’IA compromis peuvent influencer des processus critiques tels que le recrutement ou l’approbation de crédits. Par exemple, un modèle biaisé ou manipulé pourrait favoriser des décisions frauduleuses ou non éthiques, provoquant des conséquences significatives en matière de conformité réglementaire et de gestion des risques. Cela met en péril l’intégrité des processus décisionnels automatisés, créant des risques non seulement financiers, mais aussi juridiques pour les organisations touchées.

Enfin, les cybercriminels peuvent monétiser les ressources utilisées par l’IA en détournant les capacités informatiques sous-jacentes à ces systèmes, comme les GPU, pour mener des opérations intensives telles que le minage de cryptomonnaies. En utilisant les ressources informatiques d’une organisation sans autorisation, ils minimisent leurs coûts tout en augmentant leurs profits illégaux. Ces détournements de ressources peuvent également provoquer des ralentissements des systèmes légitimes, entraînant des pertes de productivité et des coûts supplémentaires pour les entreprises victimes.