Pour la première fois, un rançongiciel a été conçu, exécuté et piloté intégralement par une intelligence artificielle, sans opérateur humain à la manœuvre. Derrière ce prototype expérimental se dessine une nouvelle génération de menaces polymorphes, imprévisibles et silencieuses, capables de contourner les défenses classiques.

C'était écrit : l’intelligence artificielle a progressivement acquis un rôle actif dans les cyberattaques, générant du code malveillant à la demande ou accompagnant des scripts d’exploitation. Mais l’étude publiée fin août par l’université NYU Tandon franchit un cap historique : celui de l’attaque entièrement orchestrée par un modèle de langage, sans aucune intervention humaine après le déploiement initial. Baptisé « Ransomware 3.0 », ce prototype inaugure une nouvelle ère dans laquelle la planification, l’adaptation, l’exécution et même la personnalisation de la rançon sont assurées par l’IA.

L’architecture repose sur un binaire apparemment inoffensif, contenant uniquement des instructions en langage naturel. Une fois lancé, celui-ci se connecte à un modèle open source via une API locale ou distante, puis délègue l’ensemble des décisions à l’IA. L’attaque suit quatre phases : reconnaissance de l’environnement, ciblage des fichiers sensibles, génération du code malveillant, et notification à la victime. Chaque étape repose sur une série de requêtes contextuelles formulées en langage naturel, validées ou corrigées de façon autonome jusqu’à obtention d’un résultat exploitable.

Le rançongiciel n’intègre aucun binaire précompilé. Tout le code est synthétisé dynamiquement en fonction des systèmes rencontrés et des fichiers détectés, rendant chaque attaque unique. Cette polymorphie empêche les solutions classiques de détection fondées sur les signatures, et réduit considérablement la surface exploitable par les outils de rétro-ingénierie ou de sandboxing.

Des notes d’extorsion personnalisées

Une fois les charges utiles exécutées — exfiltration, chiffrement ou destruction selon les cas — le modèle génère de lui-même une note de rançon. Le message s’appuie sur les informations récoltées durant les phases précédentes : noms d’utilisateurs, types de fichiers compromis, niveaux de sensibilité. Cette personnalisation accroît la crédibilité du message et renforce la pression exercée sur la victime, tout en échappant aux modèles de détection sémantique des messages classiques.

Cette capacité à générer un message cohérent, adapté et contextualisé sans supervision représente une rupture majeure. Elle abolit la distinction entre l’outil malveillant et l’acteur humain, au profit d’un agent autonome, capable de négocier, d’adapter son discours et d’orchestrer un chantage en langage naturel.

Des attaques discrètes, presque invisibles pour les défenses classiques

Sur le plan comportemental, l’attaque laisse peu de traces. Les charges générées sont ciblées, exécutées en mémoire via un interpréteur Lua, et ne déclenchent ni pics d’usage processeur ni accès massifs aux disques. Aucun signe typique des rançongiciels traditionnels (appels cryptographiques répétés, usage de clés de chiffrement sur de larges volumes) n’est observable. L’étude montre qu’un seul fichier sensible peut suffire à justifier une attaque, et qu’un modèle de 20 milliards de paramètres peut la piloter à lui seul.

Le coût opérationnel est également réduit à l’extrême. Un adversaire disposant de crédits cloud ou d’un serveur local équipé de modèles open source peut lancer des campagnes à grande échelle sans infrastructure complexe. Cette économie de moyens rend la menace accessible à des acteurs isolés, et augmente le risque de prolifération rapide de ces techniques.

Vers de nouvelles stratégies défensives face aux agents autonomes

Face à une attaque dont le comportement, le code, le langage et la charge utile varient à chaque exécution, les défenseurs doivent adapter leurs priorités. Il devient urgent de surveiller les flux sortants vers les services LLM (y compris self-hostés), d’introduire des fichiers leurres dans les systèmes critiques, et d’intégrer des fonctions d’abstention dans les moteurs IA internes. Les politiques de sécurité doivent désormais considérer les modèles comme des entités opérationnelles à part entière, susceptibles d’agir de façon autonome et imprévisible.

En matière de gouvernance, cette étude alerte sur l’usage détourné des modèles open source, difficilement contrôlable. Elle souligne également l’importance de définir des standards de sécurité pour les API d’accès aux LLMs, incluant des mécanismes de traçabilité, de filtrage et de suspension proactive des requêtes suspectes.

Un scénario crédible aux implications majeures

Cette attaque expérimentale, menée en laboratoire, démontre la faisabilité technique d’un rançongiciel auto-orchestré. Son cycle complet, sa capacité d’adaptation, et son empreinte minimale posent de nouvelles contraintes à l’écosystème de la cybersécurité. L’analyse comportementale, la détection contextuelle, et l’introspection des appels API deviennent des leviers majeurs de la protection défensive.

Pour les RSSI, cette évolution impose de surveiller les usages internes de l’IA, de restreindre les canaux d’accès aux modèles, et de renforcer l’analytique des actions réseau même faibles. Ce scénario, bien que démonstratif, préfigure une vague d’attaques IA-native où l’autonomie devient un facteur d’efficience, de discrétion et d’échelle.