Lors de conférence clients et partenaires, Intel Vision 2024, le fondeur a présenté l’accélérateur Intel Gaudi 3, et a dévoilé une série de nouveaux systèmes évolutifs, de produits de nouvelle génération et des collaborations stratégiques pour mettre sur pied un écosystème matériel et logiciel favorisant la diffusion des technologies cognitives.

Selon Intel, « avec seulement 10 % des entreprises qui ont réussi à mettre en production des projets GenAI l’année dernière, les dernières offres d’Intel répondent aux défis auxquels les entreprises sont confrontées pour développer leurs initiatives en matière d’IA ».

Les entreprises cherchent à étendre l’IA générative (GenAI) du stade expérimental à la production. Pour ce faire, elles ont besoin d’un portefeuille de solutions matérielles et logicielles « immédiatement disponibles, construites sur des processeurs performants, économiques et économes en énergie, comme l’accélérateur IA Intel Gaudi 3, qui répondent également aux exigences de complexité, de fragmentation, de sécurité des données et de conformité ».  

Gaudi 3 pour l’entraînement et l’inférence

L’accélérateur IA Intel Gaudi 3 est destiné à équiper les systèmes IA jusqu’à des dizaines de milliers d’accélérateurs connectés via d’Ethernet. Son moteur de calcul dédié à l’IA a été spécifiquement conçu pour un calcul GenAI de haute performance et de haute efficacité. Il est fabriqué avec un processus de cinq nanomètres et comprend des avancées significatives par rapport à son prédécesseur.

Par exemple, il est conçu pour permettre l’activation de tous les moteurs en parallèle
— avec le Moteur de Multiplication Matricielle (MME), les tensor core (TPC) et les Cartes d’Interface Réseau, permettant l’accélération nécessaire pour un calcul d’apprentissage profond à grande échelle.

Chaque accélérateur présente un moteur de calcul composé de 64 TPC programmables pour l’IA et de huit MME. Cette caractéristique permet d’obtenir des performances optimisées pour une large gamme d’applications IA, depuis l’analyse de données jusqu’à l’interprétation du langage naturel et la reconnaissance visuelle, rendant ces accélérateurs particulièrement adaptés à l’ère de l’IA générative (GenAI) à grande échelle.

Chaque MME est capable d’effectuer un total de 64 000 opérations parallèles, permettant une meilleure efficacité computationnelle. Cela leur donne la capacité de gérer des opérations matricielles complexes, un type de calcul fondamental pour les algorithmes d’apprentissage profond. Cette conception accélère la vitesse et l’efficacité des opérations parallèles en IA et prend en charge plusieurs types de données, y compris FP8 et BF16.  

Une mémoire d’éléphant

Gaudi 3 bénéficie en outre d’une augmentation de la mémoire pour les exigences capacitaires des modèles de langage : 128 gigaoctets de capacité de mémoire HBMe2,
3,7 téraoctets de bande passante mémoire et 96 mégaoctets de mémoire statique à accès aléatoire (SRAM) embarquée offrent un espace mémoire assez vaste pour traiter de grands ensembles de données GenAI sur un nombre réduit d’accélérateurs Gaudi 3.

Ceci est particulièrement utile pour servir de grands modèles de langage et multimodaux. Intel met en avant l’augmentation de la performance et de l’efficacité des coûts du centre de données.

Pour ses échanges, chaque processeur Gaudi 3 dispose de vingt-quatre ports Ethernet de 200 gigabits, fournissant une mise en réseau conforme aux besoins de l’apprentissage et de l’inférence. Ils permettent une mise à l’échelle efficace pour soutenir de grands clusters de calcul et éliminent le verrouillage par les fabricants à partir de tissus de réseau propriétaires.

L’accélérateur Intel Gaudi 3 est conçu pour s’étendre efficacement d’un seul nœud à des milliers de nœuds pour répondre aux exigences expansives des modèles GenAI. Pour la partie logicielle, Intel Gaudi intègre le cadre PyTorch et fournit des modèles issus des développements de la communauté Hugging Face.

Nouveauté dans la gamme de produits d’accompagnement, la carte d’extension Gaudi 3 PCIe est conçue pour offrir une haute efficacité en nécessitant une faible puissance, cette nouvelle forme est idéale pour des charges de travail telles que le réglage fin, l’inférence et la génération augmentée par la récupération (RAG). Elle est équipée comme un format pleine hauteur à 600 watts, avec une capacité de mémoire de 128 Go et une bande passante de 3,7 To/s.