Disponible en trois versions distinctes, Ultra, Pro et Nano, cette évolution permet à google d’adresser divers besoins avec des versions pouvant fonctionner sur un large éventail de matériel, des grands centres de données aux dispositifs mobiles portables. Cette polyvalence est un différenciateur clé sur le marché de l’IA, car elle offre un large spectre de possibilités d’application. L’approche de DeepMind dans le développement de Gemini et l’amélioration de Bard met l’accent sur la sécurité et la responsabilité. L’équipe a intégré des fonctionnalités comme le bouton « Google it » de Bard pour la vérification des réponses. Les retours continus des utilisateurs et les vérifications de sécurité rigoureuses démontrent les précautions de Google pour le développement éthique de son IA.
Gemini Ultra : analyse de données complexes et résolution de problèmes
Gemini Ultra est le modèle le plus grand et le plus performant de la série. Il est conçu pour des tâches très complexes et s’est distingué dans divers tests de référence académiques. Outre les résultats sur différents benchmarks (texte, raisonnement, compréhension d’images…), il est le premier modèle à atteindre une performance d’expert humain sur MMLU (Hendrycks et al., 2021a) avec un score supérieur à 90 %, une référence importante testant les connaissances et le raisonnement.Gemini Ultra est la version pour la compréhension d’images, de sons et de vidéos, ainsi que dans le raisonnement mathématique. Il surpasse les experts humains dans la compréhension du langage multitâche massif (MMLU). Ces capacités en font un outil polyvalent pour la recherche et le développement en matière d’IA, en particulier dans les domaines nécessitant une analyse de données complexes et la résolution de problèmes.
Gemini Pro, pour s’adapter à un large éventail de tâches
Gemini Pro est la version optimisée pour s’adapter à un large éventail de tâches, étant multimodale, il est à même de comprendre et d’exploiter différents types d’informations tels que le texte, le code, l’audio, l’image et la vidéo. Il est conçu pour être nativement multimodal dès le départ, préentraîné sur différentes modalités, puis affiné avec des données multimodales supplémentaires. Cela lui permet de comprendre et de raisonner sur différentes entrées plus efficacement. Les capacités de Gemini Pro le rendent apte à extraire des connaissances de vastes données, à comprendre et à expliquer des sujets complexes, et à coder.Ces benchmarks évaluent la compétence du modèle dans la compréhension de la langue et le raisonnement mathématique au niveau scolaire, respectivement. Les capacités améliorées de Gemini Pro, spécifiquement dans des domaines comme la programmation, la planification et la synthèse, en font un concurrent redoutable dans le paysage de l’IA. Comparé à GPT-3.5, Gemini Pro présente des performances supérieures dans plusieurs benchmarks standards de l’industrie, tels que le MMLU et le GSM8K. Concernant GPT-4, l’avance n’est plus assez décisive pour inciter les utilisateurs de ChatGPT à changer de fournisseur.
Mais Google entend exploiter tous les moyens pour populariser son IA, comme l’intégration de celle-ci dans ses produits, tels que le chatbot Bard et le smartphone Pixel 8 Pro. Une stratégie visant à tirer parti de son écosystème de produits existant pour promouvoir l’adoption de sa technologie. Cependant, le paysage est très compétitif, avec d’autres acteurs majeurs comme AWS et Microsoft réalisant également des avancées significatives dans le développement de l’IA. Concernant les développeurs, Google ne dispose pas d’écosystème tel que GitHub ou d’un environnement de développement intégré (IDE) auquel il pourrait l’intégrer. De fait, la capacité de Gemini à concurrencer efficacement les technologies et plateformes d’IA existantes reste à prouver.