Rubin n’est pas une puce de plus. La plateforme propose une chaîne de traitement complète, pensée pour industrialiser la production de jetons à très grande échelle, avec une promesse centrale qui concerne autant l’entraînement que l’inférence, faire baisser le coût unitaire d’intelligence tout en restant compatible avec les limites énergétiques, thermiques et d’infrastructure des centres de données.
Dans son annonce, Nvidia présente la plateforme Vera Rubin comme un supercalculateur IA rack-scale, et non comme un simple saut générationnel de processeur graphique. Le couple processeur central Vera et processeur graphique Rubin est associé à une interconnexion NVLink de sixième génération, à des cartes réseau haut débit, à des DPU dédiés et à une commutation Ethernet avancée. L’ensemble forme un système intégré, conçu pour réduire les goulets d’étranglement qui dominent désormais le coût réel de l’IA, la bande passante mémoire, les échanges inter-nœuds, la consommation énergétique, mais aussi l’exploitation quotidienne des infrastructures.
Le format de référence mis en avant pour Vera Rubin repose sur un rack NVL72, qui agrège soixante-douze processeurs graphiques Rubin et trente-six processeurs centraux Vera. L’interconnexion NVLink 6 relie l’ensemble du domaine d’accélération, tandis que les briques réseau et les DPU prennent en charge les flux Ethernet, le stockage et les fonctions de sécurité sans renvoyer systématiquement ces traitements vers les processeurs hôtes. Les ordres de grandeur annoncés traduisent cette ambition, avec plus de vingt téraoctets de mémoire HBM4 côté GPU et plusieurs dizaines de téraoctets de mémoire LPDDR5x côté CPU, reliés par des commutateurs capables de délivrer plusieurs téraoctets par seconde à chaque accélérateur.
Cette architecture correspond à une évolution des charges IA. Les assistants agentiques et les systèmes d’inférence de production ne fonctionnent plus sur le mode question-réponse isolée, ils enchaînent des cycles, maintiennent des contextes persistants, orchestrent des outils externes et synchronisent des états entre services. Cette continuité augmente fortement les besoins en mémoire, en bande passante interne et en cohérence. Le rack-scale vise précisément à transformer cette complexité en une chaîne de traitement fluide, dans laquelle le calcul, la mémoire et le réseau fonctionnent comme une ligne de production continue, aussi bien pour l’entraînement que pour l’inférence longue.
Les limites physiques dictent l’architecture IA
L’un des points structurants de Rubin tient à la prise en compte explicite des limites physiques des centres de données. La première est la densité énergétique. Les racks IA dépassent désormais largement les seuils historiques en kilowatts par baie. Rubin cherche à augmenter la quantité de calcul et d’inférence utile par rack sans accroître proportionnellement la consommation, en améliorant l’efficacité par jeton et en réduisant les échanges inutiles entre composants.
La deuxième contrainte est thermique. À mesure que la puissance se concentre dans un volume réduit, le refroidissement devient un facteur limitant, qu’il s’agisse de refroidissement par air ou par liquide. L’intégration rack-scale vise à répartir et à maîtriser les flux thermiques de manière homogène, plutôt qu’à empiler des serveurs hétérogènes difficiles à refroidir et à maintenir. Enfin, la contrainte de surface et d’infrastructure pèse lourdement sur les opérateurs, qui ne peuvent pas multiplier indéfiniment les mètres carrés, les lignes électriques ou les réseaux internes. En concentrant davantage de calcul utile dans un rack standardisé, Rubin cherche à produire plus d’IA à infrastructure constante.
Sécurité et réseau au cœur de l’inférence
La plateforme met également en avant une généralisation du calcul confidentiel à l’échelle du domaine d’interconnexion. La protection des données et des modèles n’est plus limitée à un nœud isolé, elle est présentée comme une propriété du système distribué reliant les accélérateurs entre eux. Cette approche répond à une contrainte très concrète du marché, l’IA d’entreprise manipule des données sensibles et des modèles propriétaires dans des environnements mutualisés, notamment chez les fournisseurs de services et les opérateurs de nuage.
Dans cette logique, les DPU et les cartes réseau ne jouent plus un rôle périphérique. Ils stabilisent les latences, déchargent les processeurs centraux des fonctions d’infrastructure, et assurent un traitement cohérent des flux de données et de sécurité. À mesure que l’inférence devient un service continu, ces éléments conditionnent le coût par jeton autant que la puissance brute des processeurs graphiques. Rubin acte que l’optimisation ne se joue plus sur un composant isolé, mais sur l’ensemble de la chaîne.
Une urgence d’abord économique
Pour Nvidia, l’urgence est d’abord stratégique et économique. Le marché est passé d’une compétition sur les composants à une compétition sur les plateformes complètes. La pression porte désormais sur le coût d’exploitation, la consommation énergétique et la capacité à délivrer de l’inférence à grande échelle. En promettant une baisse marquée du coût par jeton et une meilleure efficacité pour l’entraînement de modèles complexes avec moins d’accélérateurs, Rubin répond directement aux préoccupations des grands opérateurs de centres de données.
Pour les entreprises utilisatrices, l’urgence apparaît plus relative. Peu d’organisations ont besoin d’opérer en interne des infrastructures capables de produire des volumes massifs de jetons. Beaucoup privilégient la réduction de la taille des modèles, leur spécialisation par métier, la distillation et une gouvernance plus fine des usages. Dans ces contextes, Rubin agit davantage comme un plafond technologique qui tire les offres de services vers plus d’efficacité, plutôt que comme un actif à acquérir directement.
Un marché concentré pour les plateformes extrêmes
Il existe néanmoins un marché clair pour ces plateformes auprès des fournisseurs de nuage, des spécialistes de l’inférence à la demande, des laboratoires entraînant des modèles de base et des opérateurs d’assistants « always-on » soumis à de fortes contraintes de latence, de disponibilité et de sécurité. Ce sont ces acteurs qui amortissent le mieux l’intégration rack-scale et qui transforment directement les gains d’efficacité en avantage économique mesurable.
Pour les entreprises, l’intérêt se concentre sur quelques scénarios précis, une inférence interne à très fort volume, des contraintes réglementaires imposant de conserver données et modèles en interne, ou une mutualisation des capacités sous forme de fournisseur de services interne. En dehors de ces cas, la valeur se déplace vers des modèles plus compacts et spécialisés, et vers des architectures hybrides consommant des capacités de très haut niveau via des prestataires.
Le coût par jeton devient la métrique clé
Au final, Rubin illustre un déplacement de fond du marché. La course aux performances ne se résume plus à une escalade de puissance brute, elle devient une course à l’efficacité d’une chaîne complète capable de produire de l’intelligence à la demande, de manière sécurisée, prévisible et économiquement soutenable. Pour les acteurs qui vendent de l’inférence, le marché est tangible et immédiat. Pour la majorité des organisations, le bénéfice sera indirect, sous la forme de services plus abordables, mieux sécurisés et plus simples à exploiter, plutôt que par l’acquisition directe de ces mastodontes de la tokenisation.























