Annoncé en novembre dernier, le supercalculateur Eos de Nvidia a été dévoilé récemment. Il s’agit d’un système de calcul conçu pour propulser l’innovation en matière d’IA et répondre aux besoins croissants en puissance de calcul pour les applications d’IA les plus exigeantes. Cette architecture est conçue pour fournir aux domaines de l’IA et du calcul des systèmes intégrés à pile complète, capables de calculer à une grande échelle.

Eos est une preuve de concept à l’échelle du centre de données, pour Nvidia, son architecture et sa pile logicielle constituent un modèle pour la création d’un écosystème autour de l’IA. À l’aube d’une révolution stimulée par les technologies cognitives, et qui devrait influencer l’évolution des architectures des centres de données dans les années à venir, Nvidia entend peser sur cette évolution en créant un écosystème complet autour de sa pile technologique, matérielle et logicielle, dédiée à l’IA. L'objectif est de prendre ses concurrents de vitesse, dans un environnement où, en plus d'Intel, d'AMD, des entreprises établies, comme Qualcomm ou récemment Softbank, et des startups, lorgnent goulument sur le marché des centres de données et de l'IA as a service.  

Une « usine » d’IA pour la nouvelle ère

En proposant un aperçu des technologies qui propulsent les usines d’IA version Nvidia, Nvidia veut affirmer sa domination en tant que leader incontesté du marché des GPU pour l’IA, en s’imposant comme le pionnier de l’IA exascale, devant ses concurrents, tels qu’AMD et Intel. Une initiative censée lui assurer une position de force dans ce marché en pleine expansion. La performance d’Eos lui permet en outre de renforce cette image et la confiance des clients potentiels et de créer la demande pour son architecture dans les centres de données.

« Eos arrive à point nommé, Affirme Nvidia. Les gens changent le monde avec l’IA générative, de la découverte de médicaments aux chatbots en passant par les machines autonomes et bien plus encore. Pour réaliser ces percées, ils ont besoin de plus que de l’expertise en IA et des compétences de développement. Ils ont besoin d’une usine d’IA
— un moteur d’IA spécialement conçu, toujours disponible, et pouvant les aider à augmenter leur capacité à construire des modèles d’IA à grande échelle. 
»  

18,4 exaflops en IA FP8

Composé de 576 systèmes DGX H100, Eos atteint une performance de 18,4 exaflops en IA FP8. L’IA FP8, ou IA en virgule flottante 8 bits, est un type de calcul d’IA qui utilise des nombres à virgule flottante de 8 bits pour représenter les données. Chaque système DGX H100 d’Eos est équipé de huit GPU H100 Tensor Core, pour un total de 4 608 GPU. Cette puissance permet à Eos de gérer les charges de travail d’IA les plus exigeantes, comme l’entraînement de modèles de langage, de systèmes de recommandation et de simulations quantiques.

D’après ses performances, Eos se classe à la neuvième place dans le TOP500 des supercalculateurs les plus rapides du monde. Il intègre le calcul et le réseautage accéléré de NVIDIA, ainsi que des logiciels tels que Base Command et AI Enterprise, des logiciels qui permettent aux entreprises et aux chercheurs de déployer et de gérer des applications d’IA à grande échelle. L’architecture d’Eos est optimisée pour les charges de travail d’IA exigeant une interconnexion à très faible latence et à haut débit.

Si le cœur d’Eos est constitué par les pods DGX SuperPOD alimentés par les systèmes DGX H100, son architecture réseau est basée sur Quantum-2 InfiniBand avec la technologie
In-Network Computing. Il est ainsi capable d’atteindre une bande passante de transfert de données allant jusqu’à 400 Gb/s.