AWS et Nvidia collaborent depuis plus de dix ans pour proposer aux clients des solutions GPU qui vont du cloud, avec les instances Amazon EC2, à la périphérie, avec des services tels qu'AWS IoT Greengrass déployés avec des modules Nvidia Jetson Nano. Les deux entités entendent mettre en commun les technologies et les services nécessaires pour répondre à la demande de puissance de computation pour les algorithmes d’apprentissage profond. Entraîner de grands modèles de langage nécessite une puissance de calcul et une infrastructure de stockage aux caractéristiques bien précises.
Certes, les exigences exactes en matière d'infrastructure dépendent de l'architecture spécifique du modèle et de la taille de l'ensemble de données utilisé pour la formation, toutefois la chaîne de traitement devra être optimisée de bout en bout pour fournir la puissance et la fluidité nécessaires pour déplacer de grosses quantités de données.
Des grappes de calcul haute performance
Pour ce faire, le recours à des grappes de calcul haute performance, composées de nœuds interconnectés dotés de CPU, de GPU ou de TPU est indispensable. De plus, la formation d'un LLM nécessite l'accès à de grandes quantités de données, qui doivent être stockées de manière à permettre un accès et un traitement efficaces. Pour ce faire, il est possible d'utiliser des systèmes de stockage distribués à grande échelle ou des systèmes de fichiers distribués. Il en va de même pour les communications inter nœuds : les nœuds d'une grappe doivent pouvoir communiquer entre eux sans latence. Cela nécessite une infrastructure réseau performante, telle que InfiniBand ou 100 gigabits Ethernet.En ce qui concerne le partenariat AWS/Nvidia autour de l’IA générative et la formation de LLM, l’offre sera basée sur les instances P5 d'Amazon Elastic Compute Cloud (Amazon EC2) de nouvelle génération, équipées de GPU NVIDIA H100 Tensor Core et d’un équipement d’interconnexion réseau pouvant fournir jusqu'à 20 exaFLOPS de performances de calcul pour « bâtir et entraîner les plus grands modèles d'apprentissage profond ». Les instances P5 constituent la cinquième génération de l'offre AWS basées sur les GPU Nvidia et arrivent près de 13 ans après le déploiement initial des GPU Nvidia, à commencer par les instances CG1.
Les instances P5 seront les premières basées sur le GPU à tirer parti du réseau Elastic Fabric Adapter (EFA) de deuxième génération d'AWS, qui fournit 3 200 Gbps de débit réseau à faible latence et à large bande passante, permettant aux clients de faire évoluer jusqu'à 20 000 GPU H100 dans des UltraClusters EC2 pour un accès à la demande à des performances de classe supercalculateur.
16 pétaflops de performances en précision mixte
Dans le détail, la configuration des instances P5 qu’AWS entend louer aux entreprises et aux jeunes pousses désirant développer leur IA générative repose sur huit GPU NVIDIA H100 capables d'atteindre 16 petaFLOPs de performances en précision mixte, de 640 Go de mémoire à large bande passante et d'une connectivité réseau de 3 200 Gbps (8 fois plus que la génération précédente) dans une seule et même instance EC2.Selon AWS, la plateforme telle que définie « accélère jusqu'à 6 fois le temps d'entraînement des modèles d'apprentissage machine (réduisant le temps d'entraînement de quelques jours à quelques heures), et la mémoire GPU supplémentaire aide les clients à entraîner des modèles plus grands et plus complexes ». Elle devrait permettre de réduire le coût d'entraînement des modèles d'apprentissage machine jusqu'à 40 % par rapport à la génération précédente.