Dans un marché qui s’oriente vers des systèmes de calcul accéléré, Nvidia estime que « la création d’infrastructures de centres de données à grande échelle devient une nécessité impérieuse pour les entreprises souhaitant déployer des charges de travail d’IA. Ce besoin se fait d’autant plus sentir que les bonnes pratiques dans ce domaine sont encore loin d’être stabilisées en raison des évolutions continues des modèles d’IA
et des frameworks logiciels ».
Pour répondre à ces enjeux, Nvidia présente ses « Enterprise Reference Architectures » (Enterprise RAs). Ces nouvelles architectures de référence s’adressent aux partenaires de Nvidia ainsi qu’aux clients communs, en offrant des plans détaillés de construction de ce que Nvidia appelle des fabriques d’IA. Ces centres de données sont conçus pour allier performance, évolutivité et sécurité.
Des plans clés en main pour créer des fabriques d’IA
Les architectures de référence d’entreprise (Enterprise RAs) de Nvidia se veulent des outils pour aider les organisations à éviter les erreurs dans la conception de leurs usines d’IA. Elles comprennent des recommandations concernant le matériel, le logiciel, ainsi qu’une assistance sur la configuration optimale des serveurs, des clusters et des réseaux pour les charges de travail d’IA. Selon le fabricant « cela permet de réduire le temps et le coût d’implémentation des solutions d’infrastructure d’IA en simplifiant la mise en place d’infrastructures accélérées, flexibles et économiques, tout en assurant leur compatibilité et leur interopérabilité ».Les Enterprise RAs proposent des configurations de serveurs certifiées par NVIDIA, intégrant les derniers processeurs graphiques (GPU), unités centrales (CPU) et technologies réseau de l’entreprise. Ces configurations sont testées et validées pour offrir des performances à grande échelle, garantissant ainsi une compatibilité et une interopérabilité optimales. Cette approche permet aux entreprises de déployer des solutions d’IA plus rapidement, réduisant ainsi le temps nécessaire pour atteindre la valeur commerciale.
Des réseaux optimisés par NVIDIA Spectrum-X et BlueField-3
Pour répondre aux exigences croissantes des charges de travail d’IA, NVIDIA introduit la plateforme Ethernet Spectrum-X, combinée aux unités de traitement des données (DPU) BlueField-3. Cette combinaison offre des performances réseau optimales, avec des débits pouvant atteindre 400 Gbit/s grâce à la technologie RoCE (RDMA over Converged Ethernet). Cette solution est conçue pour les opérations de calcul massivement parallèles et intensives en ressources réseau.Les Enterprise RAs intègrent également la plateforme logicielle Nvidia AI Enterprise, qui comprend des microservices tels que Nvidia NeMo et NIM. Ces outils facilitent la création et le déploiement d’applications d’IA, tout en proposant des fonctionnalités pour la gestion des infrastructures, la gestion des charges de travail et la surveillance des ressources. Cette suite logicielle est conçue pour assurer une performance optimale des charges de travail d’IA, tout en garantissant la sécurité grâce à une approche zéro trust
et au calcul confidentiel.