Avec Project Ire, un prototype présenté par Microsoft Research, l’intelligence artificielle franchit un nouveau cap : elle est à même d’identifier et de classer des maliciels sans contexte préalable. Conçu comme un agent autonome, ce système associe un grand modèle de langage à une chaîne d’outils spécialisés pour reproduire la démarche adaptative d’un expert humain.

Jusqu’à présent cantonnée au rôle de support automatisé pour l’analyse d’alertes, l’intelligence artificielle franchit un nouveau cap avec Project Ire, un prototype présenté par Microsoft Research capable d’identifier et de classer des maliciels sans contexte préalable. Microsoft cherche à exploiter une caractéristique clé de l’IA générative : sa capacité à adapter son cheminement en fonction des éléments qu’elle découvre. L’idée n’est plus de se reposer sur un moteur déterministe appliquant toujours les mêmes règles, mais de concevoir un agent capable de raisonner étape par étape, comme le ferait un analyste humain en pleine investigation.

Project Ire ne se contente donc pas d’ajouter un peu d’intelligence artificielle à un antivirus existant. Il s’agit d’un agent autonome qui orchestre différents outils spécialisés d’ingénierie inverse et d’analyse binaire via une interface lui permettant de choisir, en temps réel, la méthode la plus adaptée. En pratique, il commence par reconstituer la structure interne du programme à examiner, le « graphe de flux de contrôle », grâce à des outils comme angr et Ghidra.

Il combine ensuite des analyses statiques (sans exécution du code) et dynamiques (en observant le comportement du code dans un environnement sécurisé), et peut aller jusqu’à inspecter la mémoire vive grâce à Project Freta. À chaque étape, le modèle de langage décide quel outil employer, met à jour sa compréhension du fichier et consigne ses conclusions dans un journal d’analyse détaillée, consultable par les analystes humains.

Une ingénierie inverse complète et autonome

Cette méthode, qui part du code brut pour remonter jusqu’à l’interprétation du comportement, vise à reproduire intégralement le travail d’un expert en ingénierie inverse, mais de façon automatisée et reproductible. Dans ses tests, Microsoft indique avoir obtenu 0,98 de précision et 0,83 de rappel sur un jeu public de pilotes Windows, et 0,89 de précision avec 0,26 de rappel sur près de 4 000 fichiers particulièrement difficiles, avec seulement 4 % de faux positifs. L’entreprise prévoit d’intégrer ce système comme module « Binary Analyzer » dans Microsoft Defender, et de l’étendre à la détection directe de menaces en mémoire sur un parc revendiqué de plus d’un milliard d’appareils analysés chaque mois.

Pour bien comprendre l’originalité de Project Ire, il faut le comparer aux approches dominantes. La plupart des solutions de détection actuelles utilisent soit des modèles d’apprentissage automatique entraînés sur des caractéristiques extraites, soit des environnements de bac à sable et des règles expertes (signatures, YARA), éventuellement complétés par une analyse comportementale dans des solutions EDR/XDR. Les projets d’IA générative chez les grands éditeurs se concentrent surtout sur l’assistance à l’enquête et l’automatisation de tâches ponctuelles, sans conduire une ingénierie inverse complète de manière autonome.

Un agent capable de choisir ses outils

Chez Google, par exemple, l’écosystème autour de Sec-PaLM/Duet AI et Chronicle privilégie l’explication et la contextualisation d’incidents. Chez CrowdStrike, Charlotte AI joue un rôle d’analyste virtuel pour accélérer le tri des alertes et exécuter certaines réponses automatiques, mais ne revendique pas la capacité à orchestrer une rétroconception complète d’un binaire inconnu.

Project Ire, au contraire, intègre cette logique d’agent capable de choisir ses outils, d’alterner les modes d’analyse et de justifier chaque étape par une chaîne de preuves. Ce positionnement fait passer l’IA du statut de copilote conversationnel à celui d’« enquêteur procédural », potentiellement capable de traiter en autonomie des charges de
travail critiques.

En introduisant un agent qui sait mener une analyse technique complète, Microsoft ouvre la voie à une évolution de l’organisation des SOC. Dans sa forme actuelle, Project Ire reste limité par un rappel de 0,26 sur des cibles difficiles, ce qui impose de le coupler à d’autres détecteurs. Mais sa précision élevée et son faible taux de faux positifs en font un filtre hautement fiable pour produire des verdicts exploitables par des politiques de blocage automatisé. La capacité du système à fournir un dossier complet d’éléments de preuve permet de justifier et d’auditer les décisions.

Si cette approche est déployée à grande échelle dans Defender et étendue à la détection en mémoire, les cycles de remédiation pourraient s’accélérer sensiblement. Les quarantaines ou les confinements pourraient être déclenchés sur la base d’analyses déjà structurées par l’IA, avec un contrôle humain en second rideau. En pratique, cela transférerait des dizaines d’heures d’investigation par semaine depuis des analystes humains vers un agent spécialisé, tout en réduisant les délais de réaction et le risque opérationnel.

Une bifurcation technologique pour la cybersécurité ?

Cette évolution n’est pas à proprement parler une révolution, au mieux c’est une évolution attendue. Car, le véritable changement ne vient pas de l’outillage, Ghidra, angr ou les sandboxes sont déjà utilisés dans le secteur, mais de leur intégration dans une boucle décisionnelle autonome et générative. Ce modèle adaptatif, où l’IA choisit ses étapes en fonction des résultats intermédiaires, pourrait marquer le passage d’une cybersécurité centrée sur l’assistance humaine à une cybersécurité où l’IA mène l’enquête complète. Cela ne signifie pas la disparition des analystes, mais une reconfiguration de leurs missions : supervision, arbitrage, gouvernance et intervention sur les cas les plus complexes.

Si les performances en rappel progressent et que les mécanismes de justification par chaînes de preuves deviennent un standard, on pourrait voir émerger des SOC « multi-agents » où chaque agent spécialisé prend en charge une partie du cycle d’un incident, de la détection à la remédiation, en s’appuyant sur des journaux d’analyse auditables et interopérables. Project Ire en serait alors un jalon précurseur.

Pour les DSI et les responsables de SOC, ce type d’agent ouvre une perspective de rationalisation forte : moins de charge sur les équipes pour les analyses lourdes, plus de cohérence dans les décisions, et une capacité accrue à documenter et justifier les actions entreprises. Cela suppose toutefois d’adapter les indicateurs de performance aux capacités de ces nouveaux systèmes, en mesurant par exemple la part des décisions automatisées validées sans modification humaine. L’environnement cyber des entreprises, marqué par le manque de profils et une volumétrie en expansion et en diversification, rend cette bifurcation, vers des agents adaptatifs et autonomes, salutaire pour des entreprises débordées.