Mistral-NeMo-Minitron-8B-Base est une version réduite du modèle ouvert Mistral NeMo 12B, lancé par Nvidia et Mistral AI en juillet dernier. Il a été réduit en utilisant des techniques d’élagage et de distillation. L’élagage consiste à supprimer les poids redondants ou non essentiels dans le modèle, réduisant ainsi sa taille sans compromettre ses performances.
La distillation, quant à elle, permet de transférer les capacités d’un modèle plus grand et complexe à un modèle plus petit, qui capture ainsi la richesse de son prédécesseur tout en étant plus léger. Grâce à ces processus, Mistral-NeMo-Minitron-8B-Base nécessite des capacités de calcul moindres, ce qui le prédispose aux cas d’usage comme les chatbots, les assistants virtuels, les générateurs de contenu, et les outils éducatifs.
De 12 milliards de paramètres à 8 milliards
« Nous avons combiné deux méthodes d’optimisation de l’IA : l’élagage, pour réduire les 12 milliards de paramètres de Mistral NeMo à 8 milliards, et la distillation, pour améliorer la précision, a déclaré Bryan Catanzaro, vice-président de la recherche sur l’apprentissage profond appliqué chez Nvidia. Grâce à cela, Mistral-NeMo-Minitron 8B offre une précision comparable au modèle original avec un coût computationnel réduit. »Selon Nvidia, « contrairement à leurs homologues plus grands, les petits modèles de langage peuvent fonctionner en temps réel sur des stations de travail et des ordinateurs portables. Cela facilite le déploiement des capacités d’IA générative pour les organisations disposant de ressources limitées, tout en optimisant les coûts, l’efficacité opérationnelle et la consommation d’énergie. De plus, exécuter des modèles de langage localement sur des appareils Edge offre des avantages en matière de sécurité, car les données n’ont pas besoin d’être transmises à un serveur depuis un appareil Edge ».
Le modèle est accessible via Nvidia NIM
Le modèle est accessible aux développeurs via la plateforme Nvidia NIM en tant que microservice accessible via une API, ainsi que sur Hugging Face. Les développeurs peuvent également personnaliser Mistral-NeMo-Minitron-8B-Base en utilisant les outils Nvidia AI Foundry et NeMo, permettant ainsi une adaptation précise du modèle à des besoins spécifiques. Un Nvidia NIM téléchargeable, qui peut être déployé sur tout système accéléré par GPU, sera bientôt disponible, annonce Nvidia.NVIDIA a également annoncé cette semaine le Nemotron-Mini-4B-Instruct, un autre petit modèle de langage optimisé pour une faible utilisation de la mémoire et des temps de réponse plus rapides sur les PC IA et les ordinateurs portables équipés de NVIDIA
GeForce RTX.
Le modèle est disponible sous forme de microservice NVIDIA NIM pour un déploiement dans le cloud ou sur appareil, et fait partie de NVIDIA ACE, une suite de technologies d’humains numériques qui fournissent parole, intelligence et animation alimentées par l’IA générative.
L’annonce de Mistral-NeMo-Minitron-8B-Base arrive à un moment crucial où le marché de l’inférence sur des PC dits « IA » est en pleine expansion. Les PC IA, dotés de puissantes capacités de traitement graphique et de processeurs spécialisés, deviennent de plus en plus courants dans les environnements de travail professionnels.
Ces ordinateurs, équipés de GPU Nvidia RTX ou équivalents, permettent de traiter localement des tâches d’inférence qui, auparavant, nécessitaient des infrastructures cloud coûteuses et des latences élevées.
Réduire les coûts sans réduire l’efficacité du modèle
De plus, les entreprises recherchent des moyens de traiter les données et d’exécuter des modèles de langage en temps réel sans dépendre des services cloud. De fait, l’efficacité énergétique et les coûts opérationnels associés à l’exécution locale des modèles sont des avantages significatifs dans des environnements où les ressources sont limitées.Dans ce contexte, les petits modèles de langage comme Mistral-NeMo-Minitron-8B-Base jouent un rôle crucial. Leur taille réduite et leur sobriété computationnelle et énergétique les rendent parfaitement adaptés à une exécution sur des PC IA, qui, bien qu’équipés de GPU et de processeurs spécialisés, n’ont pas les mêmes capacités qu’une
infrastructure cloud.
Ces modèles permettent de réaliser des inférences rapides et précises, tout en minimisant les coûts liés à l’énergie et à la maintenance des serveurs. Par exemple, l’utilisation de petits modèles dans des environnements de travail décentralisés ou dans des industries où la confidentialité des données est primordiale (comme la finance ou la santé) est particulièrement avantageuse.
En traitant les données localement sur un PC IA, les entreprises peuvent garantir que les informations sensibles ne quittent jamais leur réseau, tout en bénéficiant des avancées de l’intelligence artificielle.