Nvidia fait promptement évoluer ses architectures graphiques vers des accélérateurs spécialisés dans l’intelligence artificielle. Chaque génération a repoussé une limite : la densité de calcul, l’efficacité énergétique, la mémoire. Avec Blackwell Ultra, l’entreprise franchit un nouveau seuil en combinant deux dies dans une seule puce logique, afin de répondre aux besoins croissants des usines d’IA.
Le cœur de Blackwell Ultra repose sur une conception à double réticule, combinant deux dies GB100 produits par TSMC en 4NP, reliés par l’interconnexion NV-HBI offrant 10 To/s de bande passante. Là où Hopper GH100 comptait 80 milliards de transistors sur un seul die, Blackwell pousse ce chiffre à 104 milliards, et jusqu’à 208 milliards en configuration double. L’innovation réside dans le fait que l’ensemble est présenté comme une puce unique et compatible Cuda, évitant aux développeurs la complexité des architectures multi-GPU classiques.
La mémoire constitue un autre axe de différenciation : Blackwell Ultra intègre de la HBM3E à plus haute capacité, avec une augmentation de 50 % par rapport à Hopper. HBM3E est une technologie de mémoire empilée en 3D, reliée au processeur par des interconnexions TSV (Through-Silicon Vias). Cette évolution répond directement à un problème rencontré lors des entraînements de grands modèles sur GH100, où la fragmentation et la communication inter-GPU réduisaient l’efficacité. En pratique, un modèle Llama 2 70B peut désormais être hébergé sur un seul GPU Blackwell, limitant les goulets d’étranglement liés aux échanges de données.
Performances démultipliées pour l’entraînement et l’inférence
Sur le plan des performances, Nvidia annonce des gains de 1,5 à 5 fois selon les usages. Les cœurs Tensor de cinquième génération (640 par puce Ultra) exploitent un nouveau format de précision, le NVFP4, qui améliore l’efficacité des calculs en inférence. Selon MLCommons, le consortium mondial qui publie le standard MLPerf, Blackwell a divisé par trois le nombre de GPU nécessaires pour entraîner Llama 3.1 405B par rapport à Hopper, réduisant le temps d’entraînement à 27 minutes avec 2 496 cartes, contre plus de 7 000 minutes pour la génération précédente. Les charges de calcul scientifique ne sont pas en reste : les opérations FP32/FP64 affichent un gain mesuré de l’ordre de 30 %.Au-delà des puces elles-mêmes, Nvidia conçoit désormais des systèmes complets pour industrialiser l’IA. Le rack GB300 NVL72 incarne cette approche intégrée : il réunit 72 GPU Blackwell Ultra et 36 processeurs Grace, refroidis par liquide, pour délivrer 1,1 exaFlop en inférence FP4. Par rapport à Hopper, les métriques de performance par watt et par utilisateur progressent respectivement de 5 et 10 fois. « Nous entrons dans l’ère des usines d’IA. Comme l’électricité au XXe siècle, ces infrastructures transformeront l’économie », avait déclaré Jensen Huang, fondateur et PDG de Nvidia, lors du GTC 2025.
Une branche dédiée à l’IA, centrée sur les usines d’inférence
Avec Blackwell, Nvidia trace une voie qui s’éloigne de ses racines graphiques pour se concentrer sur l’intelligence artificielle et le calcul intensif. Là où l’architecture Ada Lovelace (RTX 40) avait marqué le grand public par l’augmentation des performances graphiques et du ray-tracing, Blackwell se distingue par une orientation quasi exclusive vers l’IA. En termes de rasterisation, les gains sont marginaux (+1 % d’IPC), mais la progression est spectaculaire sur la bande passante mémoire, qui passe de 1 TB/s en GDDR6X à 1,8 TB/s en GDDR7 pour les cartes GeForce basées sur GB202. La consommation grimpe cependant, atteignant 575 W pour la RTX 5090 contre 450 W pour la 4090.L’annonce de Blackwell s’inscrit aussi dans la trajectoire que Jensen Huang martèle depuis plusieurs trimestres : l’avenir réside dans les « AI factories », c’est-à-dire des infrastructures capables de transformer des volumes colossaux de données en modèles, en services et en agents numériques. En poussant l’intégration technologique jusqu’au rack complet (GB300 NVL72), Nvidia ne vend plus seulement des GPU, mais une plateforme de production d’IA. Ce positionnement verrouille davantage encore l’écosystème Cuda et crée des barrières à l’entrée pour les concurrents.
Un bond en avant de l'efficacité
CoreWeave, qui exploite déjà des centaines de racks Blackwell, parle d’un bond en efficacité : « Chaque rack NVL72 nous apporte environ 50 % d’amélioration en performance par rapport à Hopper, ce qui nous permet de proposer à nos clients des services IA à coûts maîtrisés », a déclaré Michael Intrator, son PDG. De son côté, Foxconn a annoncé l’ouverture d’une « AI factory » à Taïwan en partenariat avec Nvidia, confirmant la volonté de la firme de pénétrer aussi les écosystèmes industriels hors Amérique du Nord.Avec Blackwell, Nvidia franchit une étape critique de son tableau de marche : celle de la mise à l’échelle industrielle de l’IA. La double puce, la mémoire étendue et les cœurs Tensor repensés ne sont pas de simples raffinements architecturaux. Ils traduisent un basculement stratégique où chaque innovation vise un bénéfice métier mesurable : réduction du temps d’entraînement, diminution de la consommation énergétique, accélération de l’inférence. Face à Hopper, l’écart est net, et face à la concurrence, Nvidia consolide une avance décisive. Reste la question des coûts et de la disponibilité effective, qui conditionneront l’adoption massive dans les mois à venir.