OpenAI et Paradigm publient EVMbench, un cadre d’évaluation qui mesure la capacité des agents d’intelligence artificielle à détecter, corriger et exploiter des vulnérabilités critiques dans des contrats intelligents réels. Construit sur 120 failles de sévérité élevée issues de 40 audits compétitifs Code4rena, le dispositif évalue les agents selon trois modes distincts, Détection, Correction, Exploitation, sur une instance Ethereum locale isolée.
Le cadre d’évaluation répond à un angle mort méthodologique dans l’évaluation des modèles de langage de grande taille les plus avancés, appliqués au risque cyber. Jusqu’à présent, les cadres d’évaluation publiés par OpenAI et d’autres laboratoires mesuraient principalement des compétences partielles — génération de code, résolution de problèmes, tests unitaires — sans disposer d’un protocole reproductible pour quantifier la capacité d’un agent à conduire une chaîne d’attaque de bout en bout, depuis l’identification d’une faille jusqu’au transfert effectif de valeur.
Or le cadre de préparation d’OpenAI identifie explicitement cette capacité opérationnelle comme un facteur de risque systémique. EVMbench comble ce manque en proposant un environnement fermé, instrumenté et noté de manière programmatique, où l’impact financier d’une exploitation peut être mesuré objectivement à partir de l’état inscrit sur la chaîne.
Plus de 100 Md$ d’actifs en contrats intelligents
Le choix des contrats intelligents n’est pas anodin. Ils offrent une surface d’attaque formalisée par du code Solidity public, des conséquences financières immédiates et irréversibles en cas d’exploitation, ainsi qu’un environnement d’exécution déterministe permettant une vérification sans interprétation humaine. Pour rappel, les « contrats intelligents » désignent des contrats effectivement déployés sur une chaîne de blocs publique ou privée et utilisés en production, par opposition à des exemples pédagogiques, des maquettes ou des codes synthétiques créés pour la recherche. La chaîne de blocs sert ici de terrain d’expérimentation pour mesurer une capacité plus large : la conduite d’opérations cyber de bout en bout — identification d’une vulnérabilité, développement d’un vecteur d’attaque, exploitation effective, persistance éventuelle.
Plus de 100 milliards de dollars d’actifs sont régulièrement déposés dans des contrats intelligents open source, et plus de 300 milliards dans des monnaies numériques stables, selon les données citées par OpenAI. En l’absence d’un banc d’essai de ce type, la progression des modèles est décrite de manière qualitative ou fragmentée. EVMbench introduit une métrique chiffrée, reproductible et directement corrélée à un transfert de valeur, ce qui transforme un risque théorique en capacité mesurable.
Le mode Exploitation constitue le cœur opérationnel d’EVMbench. L’agent reçoit un point d’accès RPC, une clé privée approvisionnée et les métadonnées des contrats déployés sur une chaîne Ethereum locale. Il doit réaliser l’exploitation complète de manière autonome : analyse de la chaîne, déploiement éventuel de contrats auxiliaires, construction et envoi des transactions. La notation repose exclusivement sur l’état inscrit sur la chaîne après exécution — variation de solde, événements émis — via un cadre de réexécution en Rust développé spécifiquement pour EVMbench. GPT-5.3-Codex, exécuté via l’interface en ligne de commande Codex au niveau de raisonnement maximal, atteint 72,2 % sur 24 vulnérabilités configurées, avec un intervalle de confiance à 95 % compris entre 56,9 % et 86,1 %.
siphonner le solde d’un coffre vers son propre portefeuille
La progression entre générations de modèles est réelle : GPT-5 atteignait 31,9 % en mode Exploitation. Claude Opus 4.6, exécuté via Claude Code, monte à 61,1 %. GPT-5.2 au niveau de raisonnement maximal atteint 62,5 %. GPT-5.3-Codex dépasse l’ensemble des agents évalués avec 72,2 %, tout en restant le plus économe en jetons de sortie. Ce gain de performance ne découle pas uniquement de la puissance des modèles : l’infrastructure d’orchestration joue un rôle déterminant. GPT-5.2 exécuté via OpenCode — une boucle ReAct élémentaire — obtient 51,4 % en mode Exploitation, contre 62,5 % lorsqu’il est exécuté via Codex CLI avec le même niveau de raisonnement. L’outillage et le flux de travail de l’agent modifient significativement les scores, indépendamment des capacités intrinsèques du modèle.
Un cas documenté illustre la nature de ces exploitations. Dans une tâche, GPT-5.2 identifie une absence de contrôle d’accès dans le pipeline BalancerFlashLoan du système NOYA, encode une séquence de deux appels dans le champ userData d’un prêt flash afin de siphonner le solde d’un coffre vers son propre portefeuille, puis vérifie le transfert en consultant les soldes inscrits sur la chaîne. La transaction est exécutée avec succès, le connecteur victime est vidé et le portefeuille de l’agent détient les jetons détournés. L’ensemble du processus — identification, construction de l’exploitation, vérification — est réalisé sans intervention humaine.
Les mécanismes d’indication font passer le taux de correction de 39 % à 93,9 % pour GPT-5.2
EVMbench introduit un protocole d’indications à trois niveaux afin d’isoler les goulots d’étranglement de performance. Le niveau bas indique un fichier ou un contrat à examiner. Le niveau intermédiaire ajoute une description du mécanisme vulnérable. Le niveau élevé révèle la logique de notation. GPT-5.2 au niveau de raisonnement maximal sans indication obtient 39,3 % en mode Correction. Avec une indication intermédiaire décrivant le mécanisme défaillant, le même modèle atteint 93,9 %. Cet écart de 54 points de pourcentage montre que la difficulté du mode Correction réside principalement dans la phase de découverte au sein de dépôts volumineux, et non dans l’incapacité à corriger du code Solidity une fois la faille identifiée.
Cette dissociation entre capacité de découverte et capacité de remédiation a des implications directes pour les équipes de sécurité qui envisagent d’intégrer des agents d’intelligence artificielle dans leurs flux d’audit. Un agent capable d’atteindre 93,9 % en Correction lorsqu’on lui fournit le mécanisme vulnérable constitue un outil de remédiation efficace en complément d’un auditeur humain ayant déjà identifié la faille. En revanche, l’utiliser comme filtre autonome initial sur un dépôt inconnu reste risqué : le taux de détection sans indication de Claude Opus 4.6 — meilleur modèle en mode Détection avec 45,6 % — signifie que plus de la moitié des vulnérabilités de sévérité élevée évaluées ne sont pas identifiées. En termes financiers, Claude Opus 4.6 obtient la récompense d’audit simulée la plus élevée avec 37 824 dollars en moyenne, sur un maximum atteignable de 218 434 dollars.
Un cadre complémentaire urgent aux audits statiques
OpenAI souligne explicitement la dimension duale d’EVMbench : les mêmes capacités permettant à un agent de détecter et corriger des vulnérabilités permettent également de les exploiter. Le document note que, même avec une couverture imparfaite en Détection, les meilleurs agents peuvent exécuter des exploitations de bout en bout contre une fraction significative des contrats vulnérables, ces opérations se traduisant directement en valeur transférable. Cette observation rejoint les scénarios de risque décrits dans le cadre de préparation d’OpenAI, où des acteurs malveillants étatiques ont déjà utilisé des piratages de cryptomonnaies à grande échelle pour se financer.
Le dispositif technique d’EVMbench intègre plusieurs mécanismes de durcissement afin de prévenir toute tricherie en mode Exploitation. Un proxy JSON-RPC nommé veto filtre les méthodes Anvil indisponibles en production, afin d’empêcher les agents de contourner les vulnérabilités en manipulant directement la chaîne plutôt qu’en les exploitant réellement. La phrase mnémonique des comptes préfinancés par défaut est remplacée par une valeur non documentée pour éviter l’usage de clés privées connues. Le code, les tâches et l’outillage sont publiés en open source sur le dépôt GitHub d’OpenAI, accompagnés d’une chaîne canari intégrée dans les scripts et fichiers d’indication afin de permettre aux équipes de recherche d’exclure les données d’EVMbench de leurs corpus d’entraînement futurs.
Les résultats documentés par EVMbench, doublement du taux d’exploitation en six mois, découverte autonome de vecteurs d’attaque complexes impliquant des prêts flash multi-étapes, performance se rapprochant de celle d’auditeurs humains compétitifs sur certaines tâches, établit une mesure de référence dans un domaine où la progression rapide des modèles exerce une pression directe sur la sécurité d’actifs chiffrés en centaines de milliards de dollars. La publication d’EVMbench transforme ainsi une tendance qualitative en donnée mesurable et reproductible.























