Google Cloud dévoile le plus grand hub ML public du monde avec Cloud TPU v4 et une énergie à 90 % décarbonée

Par

12/05/2022

Le PDG de Google et d'Alphabet, Sundar Pichai, a donné hier le coup d'envoi de la première journée de Google I/O, la conférence annuelle des développeurs. Parmi plusieurs annonces, il a mis en évidence une nouvelle offre, encore en preview, de son cluster dédié à l’apprentissage automatique. Google va mettre sur le marché une infrastructure d'apprentissage automatique supposément « le plus grand hub de ML au monde en termes de puissance de calcul agrégée ».

Alimentés par les pods Cloud TPU (Tensor Processing Units ) v4, des Asic accélérateurs d'apprentissage automatique personnalisés, le cluster ML Google Cloud permet d'entraîner les modèles les plus sophistiqués pour accélérer des charges de travail telles que le traitement du langage naturel (NLP), les systèmes de recommandation et les algorithmes de vision par ordinateur. Google utilise déjà ce type d’infrastructure pour les recommandations dans Search et Youtube. Par exemple, le modèle LaMDA de Google est capable d'engager une conversation fluide avec les utilisateurs sur une grande variété de sujets. LaMDA est un modèle de langage pour les applications de dialogue ouvert, ce qui signifie qu'il est conçu pour converser sur n'importe quel sujet.

Des outils pour l'exploitation de grands modèles.

Google a été très actif sur le front de l’IA et le ML en prévision de la demande des clients en matière de capacité, de performance et d'échelle d'apprentissage automatique qui continue d'augmenter à un rythme sans précédent. Les communautés de chercheurs et les développeurs de produits d'apprentissage automatique ont besoin d’outils pour l'exploitation de grands modèles. « Avec 9 exaflops de performance globale de pointe, nous pensons que notre cluster de Cloud TPU v4 Pods est le plus grand hub ML public au monde en termes de puissance de calcul cumulée, tout en fonctionnant avec une énergie à 90 % sans carbone », estime Google dans son Blog.

En termes de performances brutes, Chaque pod Cloud TPU v4 se compose de 4 096 puces connectées entre elles via un réseau d'interconnexion performant, avec l'équivalent d'une bande passante par hôte de 6 To/s. Chacune de ces puces Cloud TPU v4 dispose d'environ 2,2 fois plus de FLOP de pointe que Cloud TPU v3, soit environ 1,4 fois plus de FLOP de pointe par dollar. Cloud TPU v4 atteint également une exploitation optimum de ces FLOPs pour l'entraînement de modèles ML à l'échelle de milliers de puces. Alors que les benchmarks actuels mesurent les pics de FLOP comme base de comparaison des systèmes, Google préfère mettre en avant les FLOPs atteints à l'échelle, qui déterminent l'efficacité de l'entraînement des modèles.

Une bande passante élevée et un compilateur optimisé

Il pointe ainsi l'utilisation élevée des FLOPs du Cloud TPU v4, « nettement supérieure à celle d'autres systèmes grâce à une bande passante réseau élevée et à des optimisations du compilateur ». Ceci afin de réduire le temps d'entraînement et à améliorer la rentabilité. Cloud TPU v4 permet en outre d'accéder à un espace de mémoire de 32 Go à partir d'un seul dispositif, contre 16 Go dans TPU v3, et offre une accélération de l'intégration « deux fois plus rapide » pour l'entraînement de modèles de recommandation à grande échelle.

En pratique, Les Pods Cloud TPU v4 sont disponibles dans des configurations allant de quatre puces (représentant un TPU VM) à des milliers de puces. Alors que les tranches de TPU de la génération précédente, plus petites qu'un Pod complet, ne disposaient pas de liens toriques (connexions enveloppantes), toutes les tranches de Pod Cloud TPU v4 d'au moins 64 puces disposent de liens toriques dans les trois dimensions, ce qui offre une bande passante supérieure pour les opérations de communication collective. En attendant leur commercialisation, l'accès aux pods de Cloud TPU v4 est pour l’heure disponible dans les options d'évaluation (à la demande), de préemption et de remise pour utilisation engagée (CUD).

Des outils pour l'exploitation de grands modèles.

Une bande passante élevée et un compilateur optimisé

Derniers Articles de fond

Dernières Actualités

Dernières Expériences