Mirantis publie les résultats de validation de k0rdent AI sur l'infrastructure bare-metal de Supermicro, avec des accélérateurs AMD Instinct MI325X. La validation couvre l'ensemble de la chaîne d'approvisionnement d'un cluster GPU — du provisionnement automatisé des serveurs physiques jusqu'à l'exécution de modèles d'inférence LLM — selon une architecture que Mirantis nomme Metal-to-Model.
Déployer un cluster GPU pour l'IA en entreprise suppose de résoudre deux problèmes intriqués : composer une chaîne de traitement performante, et la rendre opérationnelle rapidement sans complexité de configuration. C'est précisément ce que Mirantis documente dans son rapport de validation, qui détaille l'intégration de k0rdent AI sur des serveurs bare-metal Supermicro équipés d'accélérateurs AMD Instinct MI325X.
La validation couvre l'ensemble de la chaîne constituée par les produits de trois acteurs : Mirantis pour le plan de contrôle et l'orchestration, Supermicro pour les serveurs bare-metal, AMD pour les accélérateurs GPU et les cartes réseau haute performance. Le banc de test retenu comprenait deux nœuds GPU AS-8126GS-TNMR équipés chacun de deux processeurs AMD EPYC 9965 à 192 cœurs et de huit accélérateurs AMD MI325X, un nœud contrôleur AS-2124BT-HNTR, et un nœud de gestion k0rdent, le tout interconnecté via des cartes AMD Pensando Pollara 400 en 400 GbE. La couche de virtualisation reposait sur KubeVirt HCO v1.7.0, et le plan de contrôle sur k0rdent Enterprise v1.2.2.
L'enjeu du rapport dépasse la validation matérielle. Les organisations qui déploient des clusters GPU pour l'IA souveraine ou les clouds GPU hybrides cherchent à réduire le temps entre réception du matériel et mise en production des charges de travail. k0rdent AI est le plan de contrôle qui automatise ce continuum, de la configuration du BIOS jusqu'au déploiement des opérateurs GPU.
Provisionnement bare-metal automatisé
Le k0rdent Bare Metal Operator, qui s'appuie sur les projets open source Metal3 et Ironic, prend en charge l'intégralité du cycle de vie des nœuds physiques Supermicro via le protocole Redfish connecté au contrôleur BMC. La validation démontre l'automatisation complète de la configuration BIOS, des mises à jour de firmware et de l'orchestration RAID sans intervention manuelle. Les nœuds Supermicro sont découverts comme objets BareMetalHost dans l'API Kubernetes — ce qui permet de les traiter de manière déclarative, au même titre que n'importe quelle autre ressource cloud native.
Le processus de démarrage PXE-less automatisé déploie un système d'exploitation durci et la distribution Kubernetes k0s sur l'ensemble du parc. Cette approche élimine la surcharge liée à l'hyperviseur traditionnellement interposé entre le matériel et Kubernetes, et garantit un modèle de déploiement reproductible conforme aux standards Cluster API (CAPI). Pour les équipes qui gèrent des parcs de serveurs GPU destinés à l'IA, cette reproductibilité réduit mécaniquement les risques d'inconsistances entre environnements et les délais de remise en production après incident.
La validation confirme par ailleurs la compatibilité entre le plan de contrôle k0rdent et l'architecture modulaire de Supermicro, un prérequis pour les organisations qui souhaitent déployer des clusters GPU à grande échelle sans dépendance à un hyperscaler, notamment dans les contextes d'IA souveraine où la localisation des données et le contrôle de l'infrastructure sont des contraintes réglementaires.
Déploiement automatisé des opérateurs AMD GPU et réseau
L'AMD GPU Operator est déployé via le catalogue k0rdent sous forme de ServiceTemplate prêt à l'emploi. Il injecte automatiquement la pile ROCm 7.0 et configure le moteur de conteneurs pour l'accès aux ressources GPU. La validation utilise la ROCm Validation Suite pour confirmer la bande passante peer-to-peer et le débit mémoire entre les huit GPU interconnectés via l'Infinity Fabric d'AMD — architecture qui conditionne les performances de calcul distribué pour les workloads d'entraînement et d'inférence à grande échelle.
L'AMD Network Operator v1.0.0 automatise l'installation des pilotes pour les cartes AMD Pensando Pollara 400 en 400 GbE, qui assurent la communication GPU-to-GPU à haut débit au sein du cluster. La présence de cartes réseau dédiées à 400 GbE est un prérequis pour maintenir l'efficacité des échanges inter-GPU dans les configurations à forte densité — un goulot d'étranglement fréquent dans les clusters GPU mal dimensionnés sur le plan réseau.
La combinaison des deux opérateurs — GPU et réseau — déployés depuis le même catalogue k0rdent garantit la cohérence de la configuration sur l'ensemble du parc, sans scripts d'installation ad hoc ni dérive de configuration entre nœuds. Pour les architectes MLOps, cette uniformité réduit la surface de diagnostic lors de problèmes de performance en production.
Résultat : 160,6 TFLOP en FP64 tenseur
Les benchmarks de performance GPU sont conduits selon la méthodologie officielle AMD, dans un conteneur vLLM optimisé ROCm, sur une configuration à GPU unique. Le modèle de test retenu est amd/Llama-3.1-8B-Instruct-FP8-KV, exécuté via un script PyTorch personnalisé mesurant le débit de calcul brut en précisions FP64 tenseur et FP64 vecteur.
Les résultats obtenus atteignent 160,6 TFLOP en FP64 Tensor/Matrix pour une valeur de référence AMD de 163,4 TFLOP, soit un écart de 1,7 %. En FP64 Vector, les résultats mesurent 82,4 TFLOP pour une référence de 81,7 TFLOP — légèrement au-dessus des spécifications constructeur. Ces chiffres valident l'absence de dégradation de performance liée à la couche d'orchestration k0rdent, et confirment que le matériel opère dans les plages nominales définies par AMD pour ce modèle d'accélérateur.
Pour les DSI qui évaluent des alternatives aux GPU Nvidia pour leurs infrastructures IA souveraines, ces résultats constituent une référence mesurable sur du matériel certifié en configuration de production. La disponibilité de données de performance publiées sur une pile complète — matériel Supermicro, accélérateurs AMD, orchestration k0rdent — réduit l'incertitude technique des projets d'infrastructure GPU hors hyperscaler et hors écosystème Nvidia.























