Ils dorment dans le code, silencieux et compacts, jusqu’à ce qu’un appel vers un modèle de langage relance la logique malveillante. Les maliciels « LLM-enabled » comme MalTerminal ou LameHug illustrent une nouvelle classe de menaces, capables de déléguer la génération de leur charge utile à une IA distante. Une approche discrète, flexible, et difficile à tracer, mais pas impossible à traquer.

Le code ne contient plus le mal, il l’engendre à la demande. La logique malveillante d’un programme ne réside plus nécessairement dans ses lignes de code compilé. Depuis la démocratisation des grands modèles de langage accessibles par API, une nouvelle classe de maliciels émerge : des exécutables qui se contentent de transmettre un prompt, une clé API, et quelques paramètres d’environnement. Ce n’est qu’à l’exécution que l’IA génère la véritable charge utile, une commande PowerShell, une macro, un script Python obfusqué, adaptée au contexte local. Cette approche présente plusieurs avantages pour les attaquants : elle réduit la surface de détection statique, permet des ajustements dynamiques en fonction du système cible, et exploite des services d’IA tiers difficilement blacklistables, comme OpenAI ou Claude.

Ce changement de paradigme complique singulièrement la tâche des défenseurs. Comment analyser un binaire dont la charge utile n’est pas encore écrite ? Comment tracer des intentions malveillantes dans un prompt en apparence inoffensif ? Pour SentinelOne, dont les chercheurs ont étudié les maliciels, la réponse passe par une chasse orientée sur deux artefacts principaux : la présence de clés API intégrées (ou hardcodées) et la structure récurrente de certains prompts d’attaque. Leur analyse d’octobre 2025 montre que ces indices, croisés avec des métadonnées d’usage réseau ou de comportement, peuvent révéler une nouvelle génération de maliciels hybrides, entre agent conversationnel et outil offensif.

MalTerminal, l’interface factice qui génère son code à la volée

Le premier cas emblématique de tels comportaments est MalTerminal. Ce maliciel découvert dans des dépôts GitHub en apparence légitimes se présente comme un outil de terminal visuel, censé simplifier l’apprentissage de la ligne de commande. En réalité, il embarque une clé API OpenAI et un prompt codé en dur, conçu pour détourner l’usage du modèle vers des objectifs offensifs. Le prompt demande explicitement de générer des commandes malveillantes à partir d’actions simulées par l’utilisateur, en tenant compte du contexte système retourné par des appels shell.

Le fonctionnement est astucieux et bien escamoté, car l’interface graphique simule un terminal, l’utilisateur entre des commandes fictives, et le maliciel envoie ces interactions au LLM via une requête POST. Le modèle génère alors une commande d’exploitation adaptée, que le maliciel peut exécuter immédiatement ou enregistrer. Cette architecture modulaire, combinée à une obfuscation légère du prompt, rend MalTerminal difficile à détecter par les antivirus traditionnels. Mais elle dépend d’un maillon faible : la clé API intégrée. SentinelOne a pu identifier plusieurs variantes en rétrospective, simplement en chassant des motifs récurrents de prompts associés à des clés actives.

LameHug, entre hameçonnage, exfiltration et prompt inversé

L’autre exemple frappant est LameHug (ou PROMPTSTEAL), un maliciel plus discret mais plus pervers. Ici, le modèle de langage est utilisé pour générer dynamiquement des courriels de hameçonnage ultra-contextualisés à partir de documents exfiltrés ou de fragments de messagerie locale. Le prompt est construit de manière dynamique sur la machine cible, à partir de données collectées en amont, et injecté dans une requête à un modèle LLM tiers. Le message généré est ensuite intégré dans une campagne ciblée, ou utilisé pour piéger l’utilisateur dans une boucle de dialogue simulant un assistant ou un service support.

Ce qui distingue LameHug, c’est l’usage du modèle à rebours : non pas pour attaquer directement, mais pour créer une illusion de légitimité, une fausse interface, une réponse mimétique. Il ne s’agit pas d’un agent autonome, mais d’un générateur de contexte trompeur. SentinelOne a également identifié des variantes où le prompt contenait une logique d’exfiltration incrémentale, demandant au modèle de produire des instructions pour transférer des fichiers par lot, en évitant les détections réseau. Ici encore, la dépendance à une clé API fixe a permis d’isoler les familles connues, mais les futures versions pourraient recourir à des proxys anonymes ou à des modèles auto-hébergés.

Une évolution prévisible vers des charges plus autonomes

Les deux cas analysés dessinent une trajectoire évolutive claire. Pour l’instant, ces maliciels restent dépendants d’une infrastructure distante (API tierce, connectivité réseau, capacité à requêter des modèles publics). Mais plusieurs signes montrent que les futures générations pourraient embarquer des modèles localement, sous forme quantifiée ou compilée. Cela permettrait d’éviter le point de faiblesse que constitue la clé API, et d’augmenter la réactivité du maliciel. Les premières expérimentations en ce sens ont déjà été observées dans la sphère de la red team et du pentesting offensif, avec des modèles légers (comme Phi-2 ou TinyLLaMA) capables de générer des scripts ou de guider des attaques internes sans dépendance externe.

La tendance à l’agentification des menaces est aussi à surveiller. Un maliciel pourrait demain embarquer un agent LLM capable d’ajuster ses actions en fonction de la topologie réseau, des profils utilisateurs ou de l’activité récente. Cette logique d’adaptation stratégique ouvre la voie à des comportements persistants, mimétiques, et difficilement modélisables par les outils de détection classiques. L’exfiltration ne serait plus une fonction, mais une conséquence d’un dialogue prolongé avec la cible.

Détection comportementale, audit des prompts et gouvernance des API

Confrontées à ces menaces, les entreprises doivent élargir leur périmètre de surveillance au-delà des signatures classiques. L’identification de clés API suspectes, l’audit des appels sortants vers des modèles LLM, ou encore l’analyse comportementale des flux réseau deviennent des points de contrôle critiques. Plusieurs plateformes XDR ont déjà intégré des règles spécifiques visant les structures de prompt typiques utilisées dans les maliciels observés par SentinelOne. L’enjeu n’est pas seulement technique, mais aussi organisationnel, car les équipes SecOps doivent s’acculturer aux usages détournés des modèles de langage, et intégrer ces nouvelles modalités dans leurs playbooks de réponse.

Sur le plan réglementaire, la question de la responsabilité en cas d’abus via API reste floue. Les fournisseurs de modèles, en particulier OpenAI, doivent renforcer leurs politiques de détection d’abus (prompt injection, usage malveillant, exfiltration indirecte), sans pour autant compromettre la confidentialité ou la performance de leurs services. À terme, une gouvernance plus fine de l’usage des LLM en entreprise, incluant des politiques d’accès, de monitoring et d’audit, sera nécessaire pour éviter que ces outils deviennent des chevaliers noirs de la cybercriminalité augmentée.