En alignant des composants performants, aux capacités spécifiques au traitements intensifs, Microsoft entend proposer de puissantes capacités de calcul et une bande passante mémoire importante pour les charges de travail exigeantes, telles que l'intelligence artificielle, l'apprentissage automatique, l'analyse de données et les simulations scientifiques. Nvidia H100 est basé sur l'architecture Volta, qui comprend un Tensor Core pour l'apprentissage profond et un multiprocesseur de streaming pour le calcul parallèle.
Il peut fournir jusqu'à 125 téraflops de performances d'apprentissage profond et jusqu'à 10 téraflops de performances en double précision. Il dispose également d'une bande passante mémoire pouvant atteindre 1,6 téraoctet par seconde. Ce GPU de dernière génération est équipé de 16 Go de mémoire à large bande passante (HBM2), conçue pour le traitement de données à grande échelle et l'apprentissage profond. Le Nvidia H100 peut également être utilisé dans des configurations multi-GPU pour augmenter encore les performances globales de la plateforme.
Des connexions performantes et un réseau Fat-tree non bloquant
Côté processeur, l’Intel Xeon Scalable est conçu pour l'évolutivité, avec une prise en charge allant jusqu'à 28 cœurs par processeur et jusqu'à 8 sockets par système. Supportant jusqu'à 48 voies PCIe par processeur, ils proposent des connexions performantes au stockage à grande vitesse, à un réseau et ou à d'autres périphériques. Le Xeon Scalable prend en charge jusqu'à 6 canaux de mémoire par processeur, avec une capacité de mémoire maximale de 3 téraoctets par système.Cela permet de disposer d'une bande passante et d'une capacité de mémoire élevées pour les charges de travail à forte intensité de données. Pour le traitements intenses, il comporte les instructions AVX-512, qui accélèrent les performances pour les charges de travail intensives en calcul, telles que l'IA et l'apprentissage automatique.
La configuration de base des VM ND H100 v5 sera constituée des composants suivants :
- 8x GPU NVIDIA H100 Tensor Core interconnectés via la nouvelle génération de NVSwitch et NVLink 4.0 ;
- 400 Gb/s NVIDIA Quantum-2 CX7 InfiniBand par GPU avec 3,2 To/s par VM dans un réseau de topologie Fat-tree non bloquant ;
- NVSwitch et NVLink 4.0 avec une bande passante bisectionnelle (entre deux sections de réseau)de 3,6 To/s entre 8 GPU locaux dans chaque VM ;
- Processeurs Intel Xeon Scalable de 4ème génération ;
- Interconnexion hôte-GPU PCIE Gen5 avec une bande passante de 64 Go/s par GPU ;
- 16 canaux de DIMM DDR5 à 4800 MHz.