Centres de données
L’évolution des technologies de l’IA a profondément modifié les exigences en termes de densité et de dissipation thermique dans les centres de données. Le Big Data et l’analytique d’abord, ensuite l’entraînement des modèles d’IA, nécessitent de la puissance de traitement, ce qui a entraîné le développement de processeurs spécialisés proposant plus de puissance de calcul dans des facteurs de forme plus réduits.

Cependant, les besoins en énergie des centre de données, des serveurs et des systèmes de stockage augmentent régulièrement, de même que la dissipation thermique qui les accompagne, ce qui pousse les opérateurs de centres de données et les entreprises à explorer de nouvelles stratégies de refroidissement pour s’adapter à de plus grandes densités d’énergie.

Ces processeurs modernes nécessitent des systèmes de refroidissement plus avancés. C’est dans ce contexte d’évolution architecturale des centres de données que Dell, Equinix et Intel ont présenté une solution de Liquid Cooling déployée dans le centre de données PA10 d’Equinix, en région parisienne.

Ce POC du refroidissement liquide vise à valider plusieurs aspects critiques de cette technologie, incluant l’efficacité énergétique, la densité de puissance, les coûts opérationnels, la durabilité, la fiabilité, la compatibilité et l’impact sur les performances des équipements.

Analyser les coûts opérationnels et de maintenance

Un autre objectif est d’analyser les coûts opérationnels et de maintenance associés au refroidissement liquide par rapport aux systèmes traditionnels. Cela inclut l’évaluation des économies potentielles sur les coûts énergétiques et les besoins de maintenance. En démontrant ces avantages, les partenaires espèrent faciliter l’adoption de leur modèle de refroidissement liquide par les opérateurs de centres de données et les entreprises.

Les centres de données traditionnels avant l’essor de l’IA utilisaient principalement des CPU pour la plupart des tâches de calcul. Alors que la densité oscillait entre 5 et 10 kW par rack, la dissipation thermique de chaque CPU allait entre 85 et 150 watts. Avec l’introduction des processeurs spécialisés, la densité par rack culmine entre 20 et 35 kW. Un GPU Nvidia A100 par exemple dissipe un TDP d’environ 400 watts, Gaudi 3 peut aller jusqu’à 300 watts de TDP, et 250 watts pour un NPU (Neural Processing Unit).

Les méthodes traditionnelles de refroidissement par air s’avèrent insuffisantes, et les centres de données adoptent de plus en plus des technologies telles que le refroidissement par liquide et le refroidissement par immersion. Dans le cas du PA10, le refroidissement par liquide permet de dissiper jusqu’à 80 kW par rack.

« En mode Air Cooling, on est à peu près entre 10 et 15 kW de dissipation thermique, et environ 30 kW en mode air plus supplemental. Mais on voit bien que le besoin de performances va exiger de faire beaucoup plus. Ce qui nous amène au DLC (Direct Liquid Cooling) qui dissipe jusqu’à 80 kW par rack et par heure. Et c’est ce que nous allons montrer aujourd’hui », explique Maliky Camara, Server Brand manager chez Dell Technologies.

De 30 % à 40 % d’économies d’énergie en cinq ans 

Quant à Jean-Laurent Philippe, CTO d’Intel EMEA, il a insisté sur la nécessité de concevoir des solutions durables et économes en énergie, tout en offrant des performances optimales. Il a mis en avant l’engagement d’Intel envers la durabilité et la réduction de la consommation énergétique.

Toutefois, cette évolution implique une transformation des infrastructures de centres de données, nécessitant des solutions de refroidissement plus efficaces et une gestion énergétique optimisée. La mise en place de systèmes de refroidissement par liquide nécessite souvent des modifications substantielles de la conception des racks et des serveurs. Ceux-ci doivent être modifiés ou conçus spécifiquement pour être compatibles avec les systèmes de refroidissement par liquide, ce qui peut limiter les choix de matériel et augmenter les coûts. De plus, la gestion des liquides et la prévention des fuites ajoutent une couche de complexité à cette architecture.

De fait, l’investissement initial peut être important pour l’installation des infrastructures nécessaires, telles que les circuits de distribution de liquide, les pompes, les réservoirs et les systèmes de traitement de l’eau ou des liquides diélectriques. « Ce n’est pas beaucoup plus cher, objecte Maliky Camara, peut-être un petit surcoût de 10 % à 20 %, mais le point de ROI est, dans 90 % des cas, atteint en moins de deux ans. Le TCO global sur la solution est de l’ordre de 30 % à 40 % d’économies d’énergie en cinq ans », affirme-t-il.

L’absence de standards peut compliquer l’adoption

Par ailleurs, les normes et les certifications actuelles pour les centres de données sont principalement basées sur les systèmes de refroidissement par air. L’absence de normes claires et universelles pour les systèmes de refroidissement par liquide peut compliquer leur adoption. Les trois partenaires de notre POC comptent bien proposer leurs intégrations aux organismes de normalisation, l’OCP (Open Compute Project) en l’occurrence.

Le fait que les partenaires s’efforcent de standardiser et d’interopérer avec d’autres acteurs de l’industrie pour éviter le verrouillage fournisseur (vendor locking) démontre que le chemin vers des normes est encore long. En attendant, pour peupler les armoires à refroidissement liquide du PA10, Dell s’est appuyé sur un design hybride, mêlant des éléments OCP, dont Dell fait partie, et des éléments pris dans le design classique des armoires pour le HPC.

« Nous sommes prêts depuis trois générations. Nous avons atteint la qualité industrielle », affirme Maliky Camara, citant l’exemple du PowerEdge XE9640, le serveur HPC et IA du fabricant équipé de 4 cartes GPU H100. Ceci en attendant la commercialisation cet été du PowerEdge 9680L, équipé des accélérateurs Gaudi 3 d’Intel.

En somme, ce POC permet à Dell, Intel et Equinix de valider plusieurs aspects critiques de la technologie de refroidissement liquide, incluant l’efficacité énergétique, la densité de puissance, les coûts opérationnels, la durabilité, la fiabilité, la compatibilité et l’impact sur les performances des équipements. Il a pour vertu de vérifier comment le refroidissement liquide peut être intégré dans des infrastructures de centres de données existantes sans nécessiter des modifications majeures. Cela inclut la compatibilité avec les racks, les serveurs et les équipements de gestion thermique actuels. Ils proposent une base de travail concrète pour la normalisation et une démonstration de faisabilité.