Contrairement aux licences copyleft (comme la GNU GPL), qui exigent que les œuvres dérivées soient également distribuées sous la même licence, les licences permissives permettent une grande liberté aux développeurs et aux entreprises, y compris la possibilité d’incorporer le code dans des projets propriétaires ou fermés.
La gamme Granite 3.0 comprend plusieurs modèles spécialisés. Des modèles de langage et à usage général (Granite 3,0 8B-Instruct, 2B-Instruct, 8B Base, 2B Base), des modèles axés sur la sécurité (Granite Guardian 3.0 8B, 2B), et des modèles « Mixture-of-Experts » (Granite 3.0 3B-A800M Instruct, 1B-A400M Instruct, 3B-A800M Base, 1B-A400M Base). Un modèle Mixture-of-Experts (MoE) est une architecture d’intelligence artificielle conçue pour optimiser l’efficacité et les performances des modèles en répartissant les calculs entre plusieurs sous-modèles ou « experts », plutôt que de solliciter l’ensemble du modèle pour chaque tâche. Cela permet d’augmenter la taille des modèles tout en maintenant des coûts d’inférence et de formation plus faibles.
Les résultats des grands modèles pour une fraction du coût
Les modèles 8B et 2B de Granite 3.0 sont conçus pour des tâches comme la génération augmentée par la recherche (RAG), la classification, la synthèse, l’extraction d’entités et l’utilisation d’outils. IBM affirme que, grâce à l’association de ses modèles compacts et de données spécifiques à l’entreprise, ainsi qu’à la technologie d’alignement InstructLab développée avec RedHat, il est possible d’obtenir des résultats comparables à ceux des modèles de grande taille pour une fraction du coût (de 3 à 23 fois moins,selon des POC préliminaires).
IBM, avec RedHat, a développé la technologie d’alignement InstructLab, qui permet d’adapter finement les modèles Granite aux besoins des entreprises. L’alignement des modèles est une étape cruciale pour optimiser l’utilisation des modèles de langage sur des tâches particulières, en ajustant leurs paramètres pour qu’ils répondent mieux aux attentes de performance et de pertinence dans un contexte donné. Combinée à la génération augmentée par la recherche (RAG), elle permet au modèle d’accéder à des bases de connaissances ou à des documents spécifiques pour enrichir les réponses. Cela est particulièrement utile dans les entreprises, où les modèles doivent fournir des réponses précises en fonction des données internes, spécifiques à l’entreprise.
Des modèles « réduits » pour les tâches sensibles au temps
Dans ces versions de troisième génération, IBM met en avant la transparence, la sécurité et la confiance. Il a publié un rapport technique détaillant les ensembles de données utilisés, les méthodes de filtrage et les performances des modèles sur des benchmarks. IBM propose en outre une indemnisation liée à la propriété intellectuelle pour l’utilisation des modèles Granite sur watsonx.ai. L’objectif est de proposer les garanties renforçant la confiance des entreprises qui intègrent leurs propres données.IBM propose également des modèles Granite plus petits, comme le Granite 3.0 1B-A400M et 3B-A800M, adaptés à des applications nécessitant une faible latence et pouvant être déployés sur des unités centrales. De plus, IBM annonce que ses modèles Granite Time Series, mis à jour avec trois fois plus de données. IBM indique qu’ils surpassent des modèles 10 fois plus grands, tels que ceux de Google et d’Alibaba sur les benchmarks des séries temporelles.
Un modèle spécialisé en sécurité
Parallèlement, IBM lance Granite Guardian 3.0, une nouvelle génération de modèles axés sur la sécurité, capables de détecter divers risques dans les interactions avec les modèles de langage. Granite Guardian 3.0 8B et 2B se distinguent par leurs capacités à détecter les biais, la haine, la violence et d’autres risques, surpassant les modèles de Meta sur 19 benchmarks de sécurité.Les modèles Granite 3.0, disponibles sous licence Apache 2.0, peuvent être téléchargés sur Hugging Face et utilisés commercialement via watsonx. Ils seront également accessibles sur des plateformes comme NVIDIA NIM et Google Cloud via Vertex AI Model Garden, ainsi que sur Ollama et Replicate pour les déploiements locaux. IBM collabore par ailleurs avec des partenaires comme AWS, Docker, Salesforce et SAP pour intégrer ces modèles dans leurs solutions, offrant ainsi un large éventail de choix aux entreprises.
L’une des affirmations les plus marquantes d’IBM concerne la réduction des coûts de l’inférence et de l’entraînement des modèles Granite 3.0 par rapport aux grands modèles dits « frontier » ou de pointe. IBM indique que les entreprises peuvent obtenir des résultats comparables à ceux de grands modèles de langage tout en réduisant les coûts. Cette réduction est principalement due à la nature compacte des modèles Granite, qui sont spécifiquement optimisés pour les tâches d’entreprise tout en étant formés sur des volumes de données ciblées et pertinentes pour chaque client.
Sécurité et personnalisation
Cela représente une proposition intéressante pour les entreprises qui cherchent à adopter l’IA de manière plus intensive tout en minimisant les coûts d’infrastructure, de calcul et d’énergie associés à l’entraînement de grands modèles. La mise en avant de modèles compacts, performants, sécurisés et open source répond aux principales attentes du marché : flexibilité, optimisation des coûts, sécurité et transparence. Face à une concurrence qui tend souvent à pousser des solutions plus grandes et plus coûteuses, IBM se distingue par une approche plus pragmatique et ciblée, en accord avec les besoins des entreprises qui cherchent à tirer parti de l’IA tout en minimisantles risques et les dépenses.
Avec des modèles tels que Granite Guardian et la technologie InstructLab, IBM s’inscrit dans une dynamique de sécurité et de personnalisation, deux aspects cruciaux pour les entreprises confrontées à des environnements complexes de plus en plus
réglementés et compétitifs.