Tech & Innovation Tech & Innovation - Actualités Red Hat rachète Neural Magic pour son expertise de l’optimisation de l’inférence...

Red Hat rachète Neural Magic pour son expertise de l’optimisation de l’inférence sur CPU

Par

Mourad Krim

15/11/2024

Red Hat annonce la signature d’un accord définitif portant sur l’acquisition de Neural Magic, une entreprise américaine spécialisée dans l’optimisation logicielle des modèles d’intelligence artificielle pour les exécuter efficacement sur des microprocesseurs (CPU), sans recourir à des accélérateurs matériels spécialisés tels que les GPU ou des processeurs spécialisés.

Fondée en 2018 par le professeur Nir Shavit et le chercheur Alex Matveev du Massachusetts Institute of Technology (MIT), la société s’est positionnée sur un segment de marché visant à rendre l’IA plus accessible et rentable en exploitant les ressources matérielles existantes.

Parmi ses contributions notables figure la bibliothèque open source vLLM, conçue pour optimiser le déploiement de grands modèles de langage (LLM) en réduisant les besoins en mémoire et en améliorant le débit. Red Hat peut ainsi s’appuyer sur l’expertise en ingénierie des performances de l’inférence appliquée au modèle open source. Une vision alignée avec sa stratégie sur le marché de l’IA : « fournir des workloads d’IA très performantes qui sont directement en phase avec les cas d’utilisation et les données propres aux clients, d’un bout à l’autre des environnements de cloud hybride ». En somme, il s’agit de permettre aux entreprises d’utiliser les environnements hérités pour l’inférence.

Des techniques d’optimisation avancées

Pour ce faire, Red Hat entend utiliser l’approche de Neural Magic qui repose sur des algorithmes avancés et des techniques d’optimisation comme la parcimonie structurelle (structured sparsity) et la quantification pour réduire les besoins en mémoire et en puissance de calcul des modèles d’IA. Ces approches permettent aux entreprises d’exécuter des charges d’inférence directement sur des CPU, sans nécessiter de matériel coûteux ou énergivore comme les GPU ou TPU.

Red Hat entend relever ces défis en permettant à un plus grand nombre d’entreprises d’accéder aux avantages de l’IA générative grâce à un écosystème ouvert et aux bibliothèques vLLM (virtual Large Language Model). Développé par l’université de Berkeley en Californie, le référentiel vLLM est un projet mené par la communauté open source en faveur du déploiement (serving) de modèles ouverts, avec prise en charge de toutes les familles de modèles clés, de la recherche avancée de l’accélération des inférences et de divers outils matériels, tels que les processeurs graphiques d’AMD, le kit de développement logiciel (SDK) AWS Neuron, les accélérateurs Google TPU et Intel Gaudi, les processeurs graphiques signés Nvidia et les processeurs de la famille x86.

Combiné au portefeuille de technologies d’IA de Red Hat pour les environnements de cloud hybrides, le rachat de Neural Magic permet à l’éditeur de proposer des solutions cloud répondant aux besoins croissants en matière d’IA. Ce marché concerne aussi bien les PME, que les établissements académiques et l’éducation, ainsi que les marchés émergents. De nombreux pays émergents connaissent une transformation numérique accélérée. Ils recherchent des technologies abordables et adaptables pour soutenir leur croissance. Des solutions telles que celle de Neural Magic permettent de réduire les coûts initiaux liés aux infrastructures matérielles et offrent une évolutivité adaptée aux besoins changeants des entreprises.

Des techniques d’optimisation avancées

Derniers Articles de fond

Dernières Actualités

Dernières Expériences