Cette initiative marque une étape clé dans la stratégie de Google dans un marché où la concurrence entre hyperscalers est vive pour capter la croissance de ce marché. L’essor des modèles de langage et de la pile technologique de l’intelligence artificielle permet de répondre à une gamme toujours plus large de cas d’usage et de besoins. Cette compétition s’intensifie dans un contexte de croissance rapide du marché, poussée par des avancées technologiques significatives et une demande croissante pour des applications d’IA plus sophistiquées.
Google vise ainsi à démocratiser l’accès à des outils d’IA avancés pour les développeurs via Google Cloud. Les utilisateurs de Google Cloud peuvent dès à présent commencer à personnaliser et développer leurs propres modèles Gemma à travers Vertex AI, et les déployer sur Google Kubernetes Engine (GKE). Grâce à son héritage partagé avec les modèles Gemini en termes de performances et d’infrastructure, Gemma est proposé en deux versions : Gemma 2B et Gemma 7B. Selon Google, ces modèles se distinguent par leurs performances élevées pour leur catégorie, renforcées par des options de préentraînement et d’adaptation facilitant la recherche et le développement.
Exploiter Gemma sur Vertex AI
Les développeurs apprécieront la compatibilité de Gemma avec des outils et frameworks populaires tels que Colab, Kaggle, JAX, PyTorch, Keras 3.0 et Hugging Face Transformers, permettant une intégration et une mise en œuvre simplifiée sur diverses plateformes, autres que Google Cloud. Cette ouverture s’accompagne d’une collaboration avec Nvidia pour optimiser les performances de Gemma sur ses GPU.Gemma rejoint plus de 130 modèles disponibles dans la bibliothèque de Vertex AI, y compris l’accès récemment élargi aux modèles Gemini. Cette intégration permet aux développeurs de bénéficier d’une expérience complète d’apprentissage automatique, depuis le réglage jusqu’à la surveillance des modèles, simplifiant ainsi la gestion et optimisant les coûts opérationnels. Grâce à Vertex AI, il est possible de développer des applications d’IA générative pour des applications légères comme la génération de texte, le résumé automatique et les systèmes de questions-réponses. Il aussi possible de soutenir la recherche et le développement avec des modèles personnalisés pour l’exploration et l’expérimentation. Et enfin, de proposer des solutions pour l’IA générative en temps réel aux cas d’usage nécessitant une faible latence.