Fondée en 2018 par le professeur Nir Shavit et le chercheur Alex Matveev du Massachusetts Institute of Technology (MIT), la société s’est positionnée sur un segment de marché visant à rendre l’IA plus accessible et rentable en exploitant les ressources matérielles existantes.
Parmi ses contributions notables figure la bibliothèque open source vLLM, conçue pour optimiser le déploiement de grands modèles de langage (LLM) en réduisant les besoins en mémoire et en améliorant le débit. Red Hat peut ainsi s’appuyer sur l’expertise en ingénierie des performances de l’inférence appliquée au modèle open source. Une vision alignée avec sa stratégie sur le marché de l’IA : « fournir des workloads d’IA très performantes qui sont directement en phase avec les cas d’utilisation et les données propres aux clients, d’un bout à l’autre des environnements de cloud hybride ». En somme, il s’agit de permettre aux entreprises d’utiliser les environnements hérités pour l’inférence.
Des techniques d’optimisation avancées
Pour ce faire, Red Hat entend utiliser l’approche de Neural Magic qui repose sur des algorithmes avancés et des techniques d’optimisation comme la parcimonie structurelle (structured sparsity) et la quantification pour réduire les besoins en mémoire et en puissance de calcul des modèles d’IA. Ces approches permettent aux entreprises d’exécuter des charges d’inférence directement sur des CPU, sans nécessiter de matériel coûteux ou énergivore comme les GPU ou TPU.Red Hat entend relever ces défis en permettant à un plus grand nombre d’entreprises d’accéder aux avantages de l’IA générative grâce à un écosystème ouvert et aux bibliothèques vLLM (virtual Large Language Model). Développé par l’université de Berkeley en Californie, le référentiel vLLM est un projet mené par la communauté open source en faveur du déploiement (serving) de modèles ouverts, avec prise en charge de toutes les familles de modèles clés, de la recherche avancée de l’accélération des inférences et de divers outils matériels, tels que les processeurs graphiques d’AMD, le kit de développement logiciel (SDK) AWS Neuron, les accélérateurs Google TPU et Intel Gaudi, les processeurs graphiques signés Nvidia et les processeurs de la famille x86.
Combiné au portefeuille de technologies d’IA de Red Hat pour les environnements de cloud hybrides, le rachat de Neural Magic permet à l’éditeur de proposer des solutions cloud répondant aux besoins croissants en matière d’IA. Ce marché concerne aussi bien les PME, que les établissements académiques et l’éducation, ainsi que les marchés émergents. De nombreux pays émergents connaissent une transformation numérique accélérée. Ils recherchent des technologies abordables et adaptables pour soutenir leur croissance. Des solutions telles que celle de Neural Magic permettent de réduire les coûts initiaux liés aux infrastructures matérielles et offrent une évolutivité adaptée aux besoins changeants des entreprises.