Rubin CPX est un processeur graphique conçu pour absorber des contextes allant jusqu’au million de tokens. Cette architecture désagrégée cible la phase d’analyse en profondeur des entrées avant génération. L’annonce repositionne Nvidia sur l’ensemble de la chaîne d’inférence IA, dans un contexte de compétition accrue sur les charges de travail à long contexte.

Le traitement de larges volumes d’entrée devient un facteur différenciant dans les applications d’intelligence artificielle. Traductions longues, vidéos annotées, dépôts de code entiers ou bases documentaires métiers exigent des capacités inédites pour exploiter de très longues séquences d’information. Ce besoin structurel pousse les fournisseurs à segmenter le traitement des tâches IA pour en optimiser les performances, le coût et la latence.

Le Rubin CPX fait partie dans une nouvelle classe de processeurs IA orientés inférence. Il est optimisé non pour la génération de texte ou d’images mais pour l’étape en amont qui consiste à ingérer et comprendre l’intégralité d’un contexte complexe. Ce GPU peut embarquer jusqu’à 128 Go de mémoire GDDR7 et atteindre une puissance de calcul de 30 petaFLOPS en précision NVFP4. Cette architecture vise à absorber efficacement plusieurs millions de tokens dans les modèles IA de nouvelle génération, tout en réduisant les goulots d’étranglement mémoire.

Une architecture désagrégée pensée pour les datacenters IA

Contrairement aux unités d’entraînement ou aux accélérateurs de génération, le Rubin CPX fonctionne comme un préprocesseur à large spectre. Il prépare le terrain pour la phase suivante en livrant un contexte compacté et utilisable à des fins de génération. Nvidia introduit ici un découplage fonctionnel qui pourrait bouleverser l’architecture des centres de données IA, jusqu’ici centrée sur des unités homogènes de type H100 ou B100.

La solution complète prend la forme d’une plateforme nommée Vera Rubin NVL144 CPX. Elle comprend 144 unités Rubin CPX, 144 GPU Rubin classiques et 36 processeurs Vera pour la coordination. Ce rack intègre 100 To de mémoire et une bande passante de 1,7 Po/s. Nvidia y voit un jalon vers des infrastructures IA spécialisées par phase de traitement, capables de soutenir les nouveaux modèles à très longue fenêtre contextuelle.

La séparation des rôles entre analyse contextuelle et génération ouvre la voie à une meilleure mutualisation des ressources. Les entreprises peuvent dimensionner leurs architectures selon les types de charges à exécuter. Cette évolution s’accompagne d’un changement de paradigme dans la programmation, l’orchestration et le déploiement des agents IA, notamment ceux intégrés à des flux documentaires, des systèmes décisionnels ou des assistants spécialisés.

Pensé pour contourner les limites actuelles de l’inférence IA

Avec Rubin CPX, NVIDIA répond à une série de contraintes qui freinent l’industrialisation des systèmes d’IA à large contexte. Les GPU traditionnels peinent à absorber des volumes massifs d’entrée, dès lors que la fenêtre contextuelle dépasse quelques centaines de milliers de tokens. Cette saturation s’explique autant par les limites de la mémoire embarquée que par l’architecture même des accélérateurs, conçus historiquement pour des tâches d’entraînement ou de génération unifiée. En séparant la phase d’ingestion du contexte, NVIDIA optimise le traitement initial tout en réduisant le coût d’infrastructure.

Cette dissociation répond également à une préoccupation économique grandissante. Le recours à des GPU haut de gamme pour des charges non génératives se traduit souvent par un gaspillage de ressources. En créant une unité dédiée à l’analyse contextuelle, moins gourmande en bande passante HBM et plus souple dans sa conception, Rubin CPX permet une spécialisation par phase qui ouvre la voie à des architectures plus modulaires, plus efficaces et mieux dimensionnées selon les profils d’usage. Cette approche désagrégée pourrait s’imposer dans les centres de données IA orientés production, où la latence et le coût unitaire par token deviennent des métriques critiques.

Enfin, Rubin CPX anticipe l’évolution des usages métiers. Les organisations cherchent à déployer des agents IA capables de raisonner à partir d’un corpus entier de documents, de traiter des vidéos longues ou d’ingérer des données complexes sur plusieurs milliers de lignes. Dans ce contexte, la capacité à maintenir en mémoire un million de tokens et à les structurer avant la génération devient un avantage décisif. Rubin CPX s’inscrit ainsi dans une stratégie plus large de spécialisation de l’inférence, au service de cas d’usage concrets et scalables dans les entreprises.

Une réponse au basculement vers l’inférence généralisée

Alors que l’entraînement occupait historiquement le devant de la scène, l’inférence devient le moteur économique de l’IA en production. Avec Rubin CPX, Nvidia vise explicitement ce marché en croissance rapide. L’entreprise évoque une équation simple : un investissement de 100 millions de dollars dans ce type d’infrastructure pourrait générer jusqu’à 5 milliards de revenus en traitement de tokens. Cette projection traduit une volonté d’aligner les offres matérielles avec les modèles économiques des fournisseurs d’agents IA, de plateformes génératives et d’applications conversationnelles avancées.

Au-delà de la performance brute, l’enjeu porte sur la réduction du coût unitaire, la fiabilité des systèmes à grande échelle et l’optimisation du cycle de vie des modèles. Nvidia positionne Rubin CPX comme une réponse aux besoins émergents en calcul IA distribué, en prétraitement documentaire et en exécution simultanée d’agents IA multimodaux. Cette approche renforce la proposition de valeur de l’écosystème Rubin face à des alternatives hétérogènes basées sur des ASIC, des NPU ou des solutions hybrides x86 + accélérateurs.

Vers des datacenters spécialisés selon les phases IA

L’arrivée de Rubin CPX marque une inflexion dans la conception des infrastructures IA. Les systèmes monolithiques laissent place à des configurations en couches, où chaque composant assume un rôle bien défini. La phase d’analyse de contexte devient un chantier à part entière, mobilisant des ressources spécifiques, des interconnexions dédiées et une logique d’optimisation nouvelle.

Pour les responsables IT, cette évolution suppose une refonte des pratiques d’intégration et de supervision. La chaîne de valeur IA s’étend désormais de la collecte des données à leur contextualisation, avant même toute génération. Le choix des équipements, leur orchestration logicielle et leur alignement avec les flux métiers deviennent des facteurs différenciants. Rubin CPX n’est pas qu’un GPU supplémentaire : c’est un pivot technique vers une IA d’entreprise plus fine, plus contextuelle et plus performante à l’échelle industrielle.

Cette dissociation du traitement ouvre de nouvelles perspectives en matière de sécurité, de confidentialité, d’optimisation énergétique et de régulation. Elle préfigure également l’arrivée d’architectures spécialisées dans le traitement pré-génératif, adaptées aux assistants documentaires, aux copilotes métiers et aux plateformes à agents. En ce sens, Rubin CPX anticipe les standards techniques d’une nouvelle génération d’IA d’entreprise.

publicité