Anthropic a analysé des millions d'interactions homme-agent sur Claude Code et son API publique pour mesurer comment l'autonomie des agents IA évolue en conditions réelles : la durée des sessions autonomes les plus longues a presque doublé en trois mois, les utilisateurs expérimentés approuvent automatiquement deux fois plus d'actions qu'en début d'usage, et 50% de l'activité agentique reste concentrée sur le développement logiciel.
La recherche publiée par Anthropic présente la particularité d’être produite par l'un des plus grands fournisseurs de modèles publics sur ses propres données d'usage, ce qui lui confère une visibilité empirique inaccessible aux observateurs externes, mais aussi un biais de périmètre assumé — les conclusions portent sur Claude Code et l'API Anthropic, pas sur l'écosystème agentique dans son ensemble. Dans un marché où GitHub Copilot, Amazon Q Developer, Google Gemini et les agents de codage prolifèrent sans que leurs fournisseurs publient de données d'usage comparables, cette transparence constitue en elle-même un signal : Anthropic choisit de rendre mesurable ce que ses concurrents laissent opaque, dans un contexte réglementaire où la question de la supervision des agents IA devient une priorité pour les autorités européennes et américaines.
Le premier résultat notable de l'étude porte sur la durée des sessions autonomes dans Claude Code. Anthropic surveille en particulier les sessions les plus longues — les cas d'usage les plus ambitieux, ceux où l'agent travaille sans interruption sur des tâches complexes. Ces sessions extrêmes ont vu leur durée presque doubler en trois mois, passant de moins de 25 minutes à plus de 45 minutes. Ce qui rend cette progression significative, c'est qu'elle est régulière et sans stimulants. Elle ne présente aucune variation coïncidant avec la sortie d'une nouvelle version de modèle. Si cette autonomie croissante n'était que le reflet de modèles plus capables, on observerait des bonds à chaque nouvelle version.
« Deployment overhang », un potentiel d'autonomie latent
L'absence de ces fluctuations suggère autre chose : les modèles actuels sont déjà capables de davantage d'autonomie que ce que les utilisateurs leur accordent. Anthropic nomme ce phénomène « deployment overhang », un potentiel d'autonomie latent que la confiance croissante des utilisateurs et la maturation des pratiques libèrent progressivement, indépendamment des évolutions des modèles eux-mêmes.
Pour les utilisateurs, cette observation a une implication directe, car les garde-fous à concevoir aujourd'hui ne doivent pas être calibrés sur ce que les agents font en moyenne, mais sur ce qu'ils peuvent faire quand les utilisateurs leur accordent une plus grande autonomie. La session typique dure toujours environ 45 secondes et les usages courants n'ont pas radicalement changé. Mais les sessions les plus longues, celles qui concentrent les cas d'usage à enjeu, s'allongent rapidement. C'est là que se jouent les risques opérationnels que les organisations doivent anticiper.
La comparaison avec les évaluations externes de capacités est instructive. METR, organisme d’évaluation indépendant, estime que Claude Opus 4.5 peut accomplir avec un taux de succès de 50 % des tâches qui prendraient près de cinq heures à un humain. Le percentile 99,9 des sessions Claude Code observées en production atteint 42 minutes. L’écart ne représente pas une contradiction, car les évaluations METR mesurent ce qu’un modèle peut faire en conditions idéales sans interaction humaine, là où les données de production mesurent ce que les utilisateurs laissent effectivement faire au modèle, avec des interruptions, des questions de clarification et des contraintes de contexte. Les deux mesures ensemble dessinent les contours d’un espace d’autonomie potentielle dont l’exploration est encore largement devant nous.
Les utilisateurs expérimentés supervisent moins
Le deuxième résultat majeur concerne l’évolution de la stratégie de supervision à mesure que les utilisateurs acquièrent de l’expérience. Parmi les nouveaux utilisateurs, 20 % des sessions sont conduites en mode validation automatique (auto-approve) intégral — sans validation action par action. Ce taux monte à plus de 40 % chez les utilisateurs ayant accumulé 750 sessions ou plus. Parallèlement, le taux d’interruption en cours de session augmente lui aussi avec l’expérience : les nouveaux utilisateurs interrompent Claude dans 5 % des tours, les utilisateurs expérimentés dans environ 9 %.
Cette apparente contradiction — plus de validation automatique et plus d’interruptions simultanément — reflète un changement qualitatif dans la posture de supervision. Les utilisateurs novices valident chaque action avant qu’elle soit exécutée, ce qui leur évite d’avoir à interrompre en cours de route. Les utilisateurs expérimentés laissent l’agent travailler de manière continue, mais maintiennent une surveillance active et interviennent dès que quelque chose dévie. Ce passage d’une supervision séquentielle action par action à une supervision par exception représente un modèle de gouvernance des agents que les organisations doivent anticiper : les outils de monitoring en temps réel et les mécanismes d’interruption simple deviennent aussi importants que les systèmes d’approbation préalable.
On retrouve un schéma analogue sur l’API publique : 87 % des appels d’outils sur les tâches de faible complexité impliquent une forme de supervision humaine, contre seulement 67 % sur les tâches de haute complexité. Ici encore, la lecture contre-intuitive est la bonne : ce n’est pas que les tâches complexes sont moins supervisées parce qu’elles sont jugées moins risquées, c’est que la supervision action par action devient structurellement impraticable quand le nombre d’étapes augmente, et que les utilisateurs qui confient des tâches complexes à l’agent sont précisément ceux qui ont développé une confiance suffisante pour adopter une supervision par exception.
L’agent initie plus d’interruptions que les humains
Un résultat que l’étude présente comme potentiellement sous-estimé par le marché concerne la capacité des modèles à reconnaître leur propre incertitude et à solliciter une clarification humaine. Sur les tâches les plus complexes, Claude Code s’arrête pour demander une clarification plus de deux fois plus souvent que sur les tâches simples, et plus souvent que les humains ne l’interrompent eux-mêmes. L’agent initie donc davantage d’interactions de supervision qu’il n’en reçoit sur les tâches à enjeu élevé.
Cette observation a des implications pour la conception des systèmes de gouvernance agentique. Les cadres réglementaires en cours d’élaboration, dont l’AI Act européen, tendent à focaliser les exigences de supervision sur les mécanismes d’approbation humaine. Les données d’Anthropic suggèrent qu’une partie significative de la supervision se joue côté modèle, par des mécanismes d’autolimitation que le modèle active lui-même lorsqu’il détecte une ambiguïté ou un risque. Former les modèles à reconnaître leur propre incertitude et à en avertir l’utilisateur constitue, selon Anthropic, une propriété de sécurité à part entière, complémentaire des garde-fous externes, non substituable à eux.
L’analyse des raisons d’arrêt est révélatrice des situations où cette autolimitation est la plus fréquente : présenter à l’utilisateur un choix entre plusieurs approches proposées (35 % des arrêts initiés par l’agent), collecter des résultats de diagnostic ou de tests (21 %), clarifier des demandes vagues ou incomplètes (13 %), demander des accès ou des tokens manquants (12 %), obtenir une approbation avant d’agir (11 %). Du côté des interruptions humaines, les raisons dominantes sont la fourniture de contexte technique manquant ou de corrections (32 %), la lenteur ou le blocage de l’agent (17 %), et la décision de l’utilisateur de prendre en main la prochaine étape lui-même (7 %).
50 % de l’activité agentique est du développement
La distribution sectorielle de l’activité agentique sur l’API publique d’Anthropic confirme que nous sommes dans la phase d’adoption précoce : le développement logiciel représente près de 50 % des appels d’outils, loin devant l’intelligence économique, le service client, les ventes, la finance et le e-commerce — aucun de ces secteurs ne dépassant quelques points de pourcentage. Cette concentration n’est pas accidentelle : le code est un domaine où les sorties de l’agent sont vérifiables de manière relativement simple, ce qui facilite la construction de confiance et rend la supervision par exception plus praticable qu’en médecine, en droit ou en finance, où valider une sortie peut nécessiter autant d’expertise que la produire.
L’analyse en termes de risque et d’autonomie des catégories d’actions identifiés sur l’API révèle un quadrant haut risque/haute autonomie peu dense mais non vide. Parmi les actions à risque élevé observées figurent la manipulation de données médicales de patients, le déploiement de correctifs sur des applications en production, et — ce qu’Anthropic soupçonne être majoritairement des évaluations de sécurité — des actions d’exfiltration de données ou d’exploitation de vulnérabilités.
Les transactions automatisées en cryptomonnaies, majoritaires
Parmi les actions à haute autonomie figurent l’exécution automatisée de transactions de cryptomonnaies, la surveillance de messagerie et l’envoi automatique de rappels de réunion. 80 % des appels d’outils proviennent d’agents disposant d’au moins un type de garde-fou, 73 % impliquent une présence humaine dans la boucle, et 0,8 % des actions sont irréversibles — comme l’envoi d’un e-mail à un client.
Pour les entreprises des secteurs émergents, la courbe d’adoption du développement logiciel a précédé celle des autres secteurs, et rien n’indique que la dynamique sera fondamentalement différente en finance ou en santé, si ce n’est que le coût d’une erreur agentique non supervisée y est structurellement plus élevé. Anthropic formule explicitement la recommandation aux développeurs de produits d’investir dans des outils donnant aux utilisateurs une visibilité fiable sur ce que font les agents en temps réel, ainsi que des mécanismes d’interruption simples permettant de les réorienter quand quelque chose dévie. La leçon à retenir de cette recherche est que l’autonomie exercée par un agent en production est une co-construction par le modèle, l’utilisateur et le produit, et qu’aucune évaluation pré-déploiement ne peut se substituer à la mesure en conditions d’utilisation.























