Google lance Gemini 3.1 Pro en preview sur Vertex AI et Gemini Enterprise, positionnant ce modèle comme son système le plus avancé pour les tâches complexes. Conçu comme une itération directe de Gemini 3 Pro, il cible explicitement les workflows agentiques à plusieurs étapes, le raisonnement sur données hétérogènes et la génération de code en environnement de production — trois vecteurs sur lesquels Google entend reprendre l'initiative face à Anthropic et OpenAI dans la bataille pour l'adoption enterprise.

En l'espace de six semaines, OpenAI a sorti GPT-5.2, Anthropic a mis à jour Claude Opus 4.6, et Google lance aujourd'hui Gemini 3.1 Pro en preview sur Vertex AI et Gemini Enterprise : la cadence de publication des modèles frontier s'est accélérée. Ce contexte de compression des cycles de mise sur le marché modifie l'équation d'évaluation — les benchmarks publiés simultanément par les trois acteurs constituent désormais le premier terrain de comparaison public sur lequel les décisions d'adoption enterprise se forment.

La disponibilité de Gemini 3.1est immédiate en preview via Vertex AI, Google AI Studio, Android Studio, Google Antigravity et Gemini CLI. Les paramètres techniques publiés dans la documentation officielle de l'API fixent la fenêtre de contexte à 1 048 576 jetons en entrée et la limite de sortie à 65 536 jetons. Le modèle prend en charge texte, image, vidéo, audio et PDF en entrée, et produit exclusivement du texte en sortie.

Il domine les tests de raisonnement et de codage

La model card publiée par Google DeepMind ournit un tableau de benchmark comparatif face aux modèles concurrents d'Anthropic et d'OpenAI. Sur ARC-AGI-2, qui mesure la capacité de raisonnement abstrait sur des puzzles visuels, l'un des tests les plus résistants aux méthodes de mémorisation, Gemini 3.1 Pro en mode Thinking (High) obtient 77,1 %, contre 68,8 % pour Claude Opus 4.6 (Anthropic), 58,3 % pour Claude Sonnet 4.6 et 52,9 % pour GPT-5.2 (OpenAI). L'écart de 8,3 points sur Opus 4.6 et de 24,2 points sur GPT-5.2 est substantiel sur un test conçu pour résister précisément à l'entraînement ciblé. Sur Humanity's Last Exam, qui évalue le raisonnement académique sur l'ensemble du corpus textuel et multimodal sans outils, Gemini 3.1 Pro atteint 44,4 %, devant Opus 4.6 à 40,0 % et GPT-5.2 à 34,5 %.

Sur Terminal-Bench 2.0, qui mesure la capacité à exécuter des tâches de codage agentique dans un environnement terminal réel, Gemini 3.1 Pro obtient 68,5 % contre 65,4 % pour Opus 4.6, 59,1 % pour Sonnet 4.6 et 54,0 % pour GPT-5.2. LiveCodeBench Pro, qui classe les modèles sur des problèmes compétitifs issus de Codeforces, ICPC et IOI via un système Elo, positionne Gemini 3.1 Pro à 2887, soit un écart de 448 points sur Gemini 3 Pro (2439) et une avance notable sur GPT-5.2 (2393). Pour une DSI déployant des agents de génération de code sur des environnements contraints, ces résultats indiquent une capacité accrue à résoudre des cas limites sans intervention humaine.

Il progresse sur workflows agentiques multiétapes

Le benchmark τ2-bench évalue la capacité des modèles à accomplir des tâches agentiques impliquant des appels d'outils, la navigation et les décisions séquentielles dans des environnements simulés. Sur le segment Retail, Gemini 3.1 Pro obtient 90,8 %, à comparer à 91,9 % pour Opus 4.6 et 91,7 % pour Sonnet 4.6 — OpenAI GPT-5.2 étant à 82,0 %. Sur le segment Telecom, Gemini 3.1 Pro atteint 99,3 %, à égalité avec Opus 4.6 et devant Sonnet 4.6 (97,9 %) et GPT-5.2 (98,7 %). Ces résultats indiquent une parité compétitive avec Anthropic sur les tâches agentiques structurées, avec un avantage marqué sur OpenAI dans les deux segments.

MCP Atlas, qui mesure l'exécution de workflows multiétapes via le protocole MCP (Model Context Protocol), place Gemini 3.1 Pro à 69,2 % — contre 54,1 % pour Gemini 3 Pro, 61,3 % pour Sonnet 4.6 et 60,6 % pour GPT-5.2. L'écart de 15,1 points par rapport à la génération précédente sur ce benchmark est directement imputable à l'amélioration de la précision d'invocation des outils et de la fiabilité d'exécution en plusieurs étapes, deux axes explicitement ciblés par Google dans la documentation de conception. Pour un architecte SI évaluant un modèle en vue d'automatisation de processus métier complexes, ce gain représente une réduction des taux d'échec silencieux sur les chaînes d'agents longues.

Gemini 3.1 Pro comme point d'intégration de Vertex AI

La distribution de Gemini 3.1 Pro suit une logique de capillarité : Vertex AI, Gemini Enterprise, Google AI Studio, Gemini API, Google Antigravity, NotebookLM et Gemini CLI sont tous des points d'accès opérationnels dès le lancement en preview. Pour une DSI dont le cloud principal est Google Cloud Platform, cette intégration native dans Vertex AI évite toute couche d'abstraction supplémentaire et permet de bénéficier des mécanismes existants de gouvernance IAM, de logging et de provisionnement de débit. Google précise que le modèle est compatible avec l'API Batch, la mise en cache de contexte, l'exécution de code, la recherche de fichiers, l'appel de fonction, les sorties structurées, l'ancrage de recherche et les contextes d'URL — soit l'ensemble des fonctionnalités requises pour des architectures d'agents de niveau production.

La variante Gemini-3.1-pro-preview-customtools, distribuée via un point de terminaison distinct, répond à un besoin précis des équipes d'ingénierie : dans les pipelines agentiques qui combinent outils natifs Bash et outils personnalisés, la priorisation des outils par le modèle conditionne directement la fiabilité d'exécution. Google documente explicitement que ce comportement peut s'accompagner de fluctuations de qualité sur les cas d'usage qui ne bénéficient pas de ces outils, ce qui impose une évaluation préalable sur le périmètre de déploiement envisagé.

Ces performances, combiné à la disponibilité immédiate sur Vertex AI et à l'intégration native dans l'écosystème Google Cloud, positionne Gemini 3.1 Pro comme un candidat crédible pour les DSI qui évaluent un modèle frontier en vue d'automatisation de tâches métier complexes nécessitant planification, multi-étapes et contexte long.

La mise en production de Gemini 3.1 Pro en preview marque une inflexion mesurable dans la compétition entre Google, Anthropic et OpenAI sur le segment enterprise. Les benchmarks publiés indiquent des avantages réels sur le raisonnement abstrait, le codage compétitif et les workflows agentiques multiétapes, avec une parité compétitive sur les tâches outillées où Anthropic restait jusqu'ici en position de force. Pour les entreprises en phase d'évaluation de modèles frontier, la combinaison d'un cadre de sécurité documenté, d'une intégration Vertex AI native et de performances agentiques en progression constitue un ensemble de signaux suffisamment concrets pour des cas d'usage de production.

publicité