Anthropic lance Claude Sonnet 4.6, une mise à niveau complète de son modèle intermédiaire qui réduit significativement l'écart de performance avec les modèles Opus, au même tarif que son prédécesseur : 3 dollars par million de jetons en entrée, 15 dollars en sortie. Le modèle est proposé par défaut sur claude.ai pour les plans Free et Pro, et intègre une fenêtre de contexte d'un million de jetons en version bêta.
La portée de cette mise à jour dépasse le simple ajustement incrémental, c’est plutôt une montée en gamme. Anthropic positionne explicitement Sonnet 4.6 comme capable de traiter des charges de travail qui nécessitaient jusqu'ici le recours à Opus, son modèle de premier rang. Cette montée augmentation concerne notamment le codage autonome, l'utilisation du poste de travail informatique, le raisonnement sur contexte long et la planification d'agents. Dans les tests internes sur Claude Code, les utilisateurs ont préféré Sonnet 4.6 à Sonnet 4.5 dans 70 % des cas, et à Claude Opus 4.5 dans 59 % des cas — un résultat notable pour un modèle positionné un cran en dessous dans la hiérarchie tarifaire.
Depuis l'introduction du premier modèle généraliste capable d'utiliser un ordinateur par Anthropic en octobre 2024, les scores sur OSWorld — le benchmark de référence pour l'usage de l'ordinateur par des IA, couvrant des tâches réelles sous Chrome, LibreOffice, VS Code et d'autres environnements sans API dédiée — ont progressé de façon continue sur seize mois. Sonnet 4.6 marque une rupture de tendance sur ce segment : des clients signalent des performances au niveau humain sur des tâches comme la navigation dans des tableurs complexes ou le remplissage de formulaires multi-étapes sur plusieurs onglets.
Une fenêtre de contexte d'un million de jetons
La résistance aux attaques par injection de prompt constitue l'autre volet de cette amélioration. Les agents opérant en computer use exposent le modèle à des instructions malveillantes dissimulées dans les pages web visitées. Les évaluations de sécurité publiées par Anthropic indiquent que Sonnet 4.6 représente une amélioration majeure par rapport à Sonnet 4.5 sur ce critère, et atteint un niveau comparable à Opus 4.6 — ce qui réduit l'un des vecteurs de risque les plus critiques pour les déploiements en environnement ouvert.
La fenêtre de contexte d'un million de jetons, disponible en bêta, n'est pas qu'un indicateur de capacité brute. Sa valeur repose sur la capacité du modèle à raisonner de manière cohérente sur l'ensemble de ce contexte, et non à le stocker passivement. Anthropic illustre ce point avec le benchmark Vending-Bench Arena, qui évalue la capacité d'un modèle à piloter une entreprise simulée sur la durée, en situation de concurrence directe avec d'autres modèles. Sonnet 4.6 y a développé une stratégie inédite : investissement massif en capacité sur les dix premiers mois simulés, suivi d'un pivot brutal vers la rentabilité, avec un timing qui lui a permis de terminer en tête.
Dans les cas d'usage documentaires, les résultats sont également mesurables. Box rapporte que Sonnet 4.6 surpasse Sonnet 4.5 de 15 points de pourcentage sur les tâches de raisonnement lourd appliquées à des documents d'entreprise réels. Ces résultats ont une implication directe pour les DSI qui déploient des agents sur des bases documentaires volumineuses : la dégradation de la qualité de raisonnement à mesure que le contexte s'étend — phénomène documenté sur les générations précédentes — semble significativement réduite, ce qui ouvre la voie à des architectures sans fragmentation artificielle des documents en entrée.
Enrichir les capacités des agents en production
Le codage agentic — où le modèle exécute des séquences d'actions sur un dépôt sans supervision pas-à-pas — constitue l'un des domaines où la distinction entre modèles s'exprimait le plus nettement. Les retours d'usage sur Claude Code révèlent que Sonnet 4.6 corrige plusieurs des défauts comportementaux qui freinaient son adoption sur des sessions longues : tendance à la sur-ingénierie, duplication de logique partagée, fausses déclarations de succès, et manque de suivi sur les tâches multi-étapes. Les utilisateurs rapportent moins d'hallucinations et un meilleur suivi des instructions que sur Opus 4.5.
Anthropic accompagne le lancement de Sonnet 4.6 d'un ensemble de mises à jour de la plateforme développeur qui modifient les conditions de déploiement en production. La compaction de contexte — désormais disponible en bêta — résume automatiquement les échanges anciens lorsque la conversation approche les limites de la fenêtre, allongeant effectivement la durée des sessions sans intervention manuelle. Les outils de recherche web et de fetch intègrent désormais une exécution de code automatique pour filtrer et traiter les résultats, limitant le contenu non pertinent dans le contexte et améliorant l'efficacité en jetons.
Plusieurs outils passent de la bêta à la disponibilité générale : l'exécution de code, la mémoire, l'appel d'outils programmatique, la recherche d'outils et les exemples d'utilisation d'outils. Pour les utilisateurs de Claude in Excel, l'add-in supporte désormais les connecteurs MCP, permettant à Claude d'interroger des sources externes sans quitter le tableur, avec synchronisation automatique des connecteurs déjà configurés dans claude.ai. Ces évolutions infrastructure réduisent la complexité d'intégration pour les équipes qui déploient des agents sur des workflows multisources en environnement financier ou analytique.
Sonnet 4.6 consolide une dynamique observable depuis plusieurs trimestres dans la courbe de performance des modèles intermédiaires : le seuil à partir duquel un cas d'usage justifie le recours à un modèle frontier recule à chaque génération. Pour les équipes IT qui arbitrent entre le coût d'inférence, la qualité de traitement et la complexité de supervision, ce repositionnement tarifaire représente un gain net mesurable, à condition d'évaluer rigoureusement les benchmarks sectoriels pertinents plutôt que les classements génériques.
TAGS Claude Anthropic LLM IA générative modèles de langage computer use codage agentic Claude Code fenêtre de contexte tokens RAG traitement documentaire agents IA MCP API infrastructure IA DSI RSSI benchmark OSWorld performance modèle coût d'inférence automatisation services financiers assurance























