« Ce nouveau modèle est conçu pour l’ère “agentique”, explique-t-il, et multiplie ses capacités pour être utilisé par les fameux agents IA dont nous entendons de plus en plus parler ces derniers temps. Gemini 2.0 servira ainsi de base multimodale pour permettre à Google de déployer ses projets en cours ». Il s’agit des projets Astra, Mariner et Jules.
Le projet Astra a pour objectif l’amélioration de la compréhension dans des langues différentes, de la recherche Google Lentille et Maps, ainsi qu’une mémoire prolongée et une réduction significative de la latence en conversation audio. Le projet Mariner explore la navigation autonome sur l’ordinateur de l’utilisateur à l’aide d’un plugin pour Google Chrome. Enfin, Jules est un projet d’agents personnalisés à destination des développeurs dans le milieu informatique.
Une compréhension contextuelle approfondie
Comparé à Gemini 1.5 Pro, Gemini 2,0 Flash est deux fois plus rapide en vitesse de traitement et bénéficie d’une amélioration significative de ses résultats sur différents référentiels de performance. Multimodal, le modèle gère nativement des entrées variées (images, vidéos, données audio), génère des images de manière autonome, produit une synthèse vocale multilingue et s’interface directement avec des outils externes, tels que le moteur de recherche Google ou l’exécution de code. Cette approche multimodale reflète une tendance déjà observée sur le marché : selon une étude du cabinet IDC (2023), plus de 70 % des entreprises interrogées déclarent investir dans des solutions combinant le traitement du langage, la reconnaissance d’images et la génération de contenu visuel.L’architecture de Gemini 2.0 Flash introduit également des nouveautés dans la manière de raisonner, de comprendre et d’interagir avec l’information. Ses capacités de suivi d’instructions complexes, de planification dynamique et d’utilisation simultanée d’outils
— le tout soutenu par une mémoire contextuelle plus étendue — ouvrent la voie à des expériences plus riches. Par exemple, l’assistance à la planification d’un voyage peut désormais combiner l’analyse linguistique d’une requête, la recherche d’images de lieux, l’intégration de données cartographiques issues de Google Maps, ou encore la navigation assistée sur le Web.
Des déclinaisons en plusieurs prototypes
Google présente plusieurs prototypes de recherche pour démontrer le saut qualitatif de Gemini 2.0 Flash. Le projet Astra permet de démontrer les capacités multitâche du modèle sous la forme d’un assistant multilingue. Il est capable de tenir une conversation tout en utilisant plusieurs outils (moteur de recherche Google, Google Lens pour l’analyse d’images, Google Maps pour la géolocalisation) pour enrichir la conversation ou trouver des réponses. Il peut conserver une mémoire contextuelle jusqu’à 10 minutes, ce qui se rapproche de l’interaction humaine en continu.Un autre prototype, baptisé Mariner, explore la capacité d’interaction avec des navigateurs Web. Il comprend, analyse et raisonne sur des éléments d’une page, et a déjà atteint
83,5 % de réussite sur le référentiel WebVoyager, une mesure interne de performance sur des tâches de navigation complexe (source : Google AI Blog, septembre 2023). Cet agent virtuel intègre une approche sécurisée, exigeant une confirmation explicite avant toute action sensible.
Pour sa part, le projet Jule est destiné à développer un agent conçu pour les développeurs et intégré à la plateforme GitHub. Il les assiste dans l’analyse des problèmes et la génération de plans d’action. Sur un marché où, selon GitHub (2022), 35 % du code serait déjà produit avec une assistance IA, ce type d’outil montre comment Gemini 2,0 Flash pourrait accélérer le cycle de développement logiciel, sous supervision humaine.
Une transition stratégique vers l’« agentification »
Sundar Pichai insiste sur le changement de paradigme : « Si Gemini 1.0 était focalisé sur l’organisation et la compréhension de l’information, Gemini 2.0 vise à la rendre beaucoup plus utile. » Au-delà du simple traitement de données, l’objectif est clair : faire émerger des modèles plus agentiques, capables de s’adapter à leur environnement, de prévoir plusieurs étapes, et d’agir en connaissance de cause, tout en maintenant l’humain aux commandes. Cette vision s’inscrit dans une stratégie de long terme, alignée sur l’évolutiondu marché global de l’IA.
D’un point de vue fonctionnel, le modèle se distingue par sa capacité à traiter nativement des données multimodales (images, vidéos, son) et à générer du contenu visuel, vocal ou textuel, tout en s’intégrant directement avec des outils externes (recherche Google, exécution de code, etc.). Cette combinaison permet de dépasser les approches plus cloisonnées qui se limitent le plus souvent à du texte ou à une seule modalité.
L’autre apport majeur réside dans les capacités agentiques de Gemini 2.0 Flash. Au-delà de la simple analyse de l’information, le modèle peut comprendre le contexte, exécuter des tâches planifiées sur plusieurs étapes et interagir avec des sources externes. Ces facultés de raisonnement et d’utilisation simultanée d’outils (robot habilis) est cruciale à l’heure où la demande des entreprises se déplace vers des systèmes capables d’agir et non plus seulement d’informer. Dans ce paysage, Gemini 2,0 Flash anticipe une évolution vers des assistants capables de piloter des outils tiers et de prendre des décisions éclairées, sous la supervision humaine.
Gemini 2,0 Flash est actuellement accessible via l’interface de programmation d’applications (API) de Google dans Google IA Studio et Vertex IA. Une disponibilité plus large est prévue dès janvier, incluant différentes tailles de modèles pour répondre aux besoins de diverses organisations. Cette évolution traduit la volonté de Google de rendre ses solutions accessibles à un large éventail d’acteurs, du développeur indépendant à l’entreprise multinationale.