Après avoir renommé l’éphémère Bard en Gemini et révélé son modèle le plus lourd, Gemini 1.0 (540 milliards de paramètres), Google continue sur sa lancée : il dévoile Gemini 1.5 et annonce l’ouverture de Gemini 1.0 aux utilisateurs d’AI Studio et de Vertex AI. « La semaine dernière, nous avons lancé notre modèle le plus avancé, Gemini 1.0 Ultra, marquant un pas important vers une amélioration de l'utilité des produits Google, en commençant par Gemini Advanced. Dès aujourd'hui, les développeurs et les clients du Cloud peuvent également commencer à utiliser le 1.0 Ultra, grâce à notre API Gemini dans AI Studio et Vertex AI », indiquait Sundar Pichai, PDG de Google et d’Alphabet.

Gemini 1.5 est un modèle plus petit et présente des améliorations significatives sur plusieurs aspects. La version 1.5 Pro (137 milliards de paramètres) est plus accessible et nécessite moins de ressources informatiques pour fonctionner. Cette nouvelle génération marque par ailleurs une amélioration dans la compréhension de contextes longs. Les ingénieurs de Google ont réussi à augmenter la quantité d'informations que ce modèle peut traiter, gérant jusqu'à 1 million de jetons de manière constante, « ce qui représente la fenêtre de contexte la plus longue pour un modèle de base à grande échelle à ce jour ».  

Une architecture à Mélange d'Experts (MoE)

« Les fenêtres de contexte plus longues ouvrent la voie à de nouvelles possibilités. Elles permettront de développer de nouvelles capacités et aideront les développeurs à créer des modèles et des applications beaucoup plus utiles. Nous sommes ravis de proposer un aperçu limité de cette fonctionnalité expérimentale aux développeurs et aux clients d'entreprise. Demis vous en dira plus sur les capacités, la sécurité et la disponibilité
ci-dessous »
, ajoute Sundar Pichai.

Gemini 1.5 marque une avancée significative dans le domaine de l’IA générative, grâce à sa performance nettement améliorée et à une architecture à Mélange d'Experts (MoE) plus efficace. Les architectures MoE, permettent une spécialisation accrue et une efficacité optimisée. Les modèles MoE sont en effet divisés en réseaux neuronaux "experts" plus petits, un peu comme les zones spécialisées du cerveau. Ils activent sélectivement les voies les plus pertinentes selon le type d'entrée, ce qui donne plus de précision et de vitesse aux inférences.

Le premier modèle dévoilé de cette série, Gemini 1.5 Pro, se positionne comme un modèle multimodal de taille moyenne, conçu pour s'adapter à un large éventail de tâches. Selon Google, sa performance est comparable à celle de Gemini 1.0 Ultra, le modèle le plus large développé par Google à ce jour. Une des innovations clés de Gemini 1.5 Pro réside dans sa capacité à comprendre des contextes longs, une fonctionnalité expérimentale qui pourrait révolutionner le traitement de l'information.  

Un modèle capable d'exécuter jusqu'à 1 million de jetons en production

À travers une série d'innovations en apprentissage automatique, Google a augmenté la capacité de la fenêtre de contexte de Gemini 1.5 Pro bien au-delà des 32 000 jetons initiaux pour Gemini 1.0. Le modèle est désormais capable d'exécuter jusqu'à un million de jetons en production, permettant ainsi de traiter d'énormes quantités d'informations en une seule fois. Cette capacité élargie signifie que Gemini 1.5 Pro peut analyser, classifier et résumer de grandes quantités de contenu de manière fluide. Que ce soit pour interpréter les transcriptions de 402 pages de la mission Apollo 11 sur la lune, analyser divers points de l'intrigue d'un film muet de Buster Keaton de 44 minutes, ou encore effectuer des tâches de résolution de problèmes sur des blocs de code de plus de 100 000 lignes.

Lorsqu'il est soumis à un panel complet d'évaluations de texte, de code, d'image, d'audio et de vidéo, Gemini 1.5 Pro surpasse le 1.0 Pro sur 87 % des benchmarks utilisés pour le développement des modèles de langage à grande échelle (LLM) de Google. Même lorsqu'il est comparé au 1.0 Ultra sur les mêmes benchmarks, il offre une performance largement similaire, maintenant des niveaux élevés de performance même lorsque sa fenêtre de contexte est agrandie. Dans l'évaluation Needle In A Haystack (NIAH), où un petit morceau de texte contenant un fait ou une déclaration particulière est volontairement placé dans un long bloc de texte, Gemini 1.5 Pro trouve le texte intégré 99 % du temps, même dans des blocs de données aussi longs que 1 million de jetons.

En outre, Gemini 1.5 Pro démontre des compétences améliorées d'apprentissage en contexte, c'est-à-dire la capacité d'apprendre une nouvelle compétence à partir des informations fournies dans une longue invite, sans nécessiter de réglages additionnels. Cette compétence a été testée sur le benchmark de Machine Translation from One Book (MTOB), qui évalue la capacité du modèle à apprendre à partir d'informations qu'il n'a jamais vues auparavant. Lorsqu'on lui présente un manuel de grammaire pour le Kalamang, une langue parlée par moins de 200 personnes dans le monde, Gemini 1.5 Pro apprend à traduire de l'anglais vers le Kalamang à un niveau similaire à celui d'une personne apprenant à partir du même contenu.