Les modèles d’intelligence artificielle de nouvelle génération nécessitent des fenêtres de contexte de plus en plus larges. Pour générer une séquence vidéo complète, analyser un projet logiciel entier ou maintenir un agent conversationnel en mémoire étendue, les contraintes d’inférence explosent. La fenêtre de contexte désigne la quantité d’informations qu’un modèle peut prendre en compte concurremment lorsqu’il génère une réponse. Il s’agit d’un espace mémoire temporaire dans lequel le modèle prend en compte les jetons, ou tokens (unités lexicales — mots, morceaux de mots ou symboles) fournis en entrée avant de produire une sortie.
Les GPU actuels, bien que puissants, peinent à suivre ces exigences lorsqu’ils ne sont pas spécifiquement conçus pour cela. Rubin CPX est la réponse de Nvidia à cette mutation des usages. Le constructeur promet un traitement optimisé pour les charges à long contexte, combiné à un nouveau paradigme d’infrastructure : l’inférence disagrégée. Un concept introduit par Nvidia sous le nom de « disaggregated inference », et présenté pour la première fois lors du Computex 2024. Le terme disaggregated renvoie à une architecture décomposée, spécialisée, non monolithique, dans laquelle chaque phase du traitement par LLM est affectée à un type de processeur ou de composant adapté à sa nature.
Un GPU dédié aux traitements contextuels étendus
Rubin CPX introduit une architecture monolithique équipée de 128 Go de mémoire GDDR7, avec des performances annoncées à 30 pétaflops en précision NVFP4. Il s’agit d’un processeur spécifiquement calibré pour la phase d’analyse et de chargement contextuel des modèles de fondation. Nvidia cible ici les besoins critiques des applications à mémoire longue : assistants de programmation sur projets entiers, moteurs de génération vidéo ou audio à séquence continue, IA multimodales intégrant texte, image et voix sur plusieurs heures de contenu.La plateforme complète Rubin NVL144 CPX — prévue pour fin 2026 — proposera une configuration rack intégrant ces GPU CPX, des GPU Rubin standard et des processeurs Vera. Elle promet 8 exaflops de puissance IA, 100 téraoctets de mémoire rapide et une bande passante interconnectée de 1,7 pétaoctet par seconde. Ce dispositif est le résultat d’une logique de séparation fonctionnelle entre la préparation du contexte (traitée par Rubin CPX) et la génération de sortie (gérée par les GPU Rubin classiques).
Un pari économique fondé sur le coût par token
Dans son argumentaire, Nvidia insiste sur la notion de « rentabilité à l’échelle des tokens ». L’entreprise affirme qu’un investissement de 100 millions de dollars dans une infrastructure Rubin CPX pourrait générer jusqu’à 5 milliards de dollars de revenus liés aux inférences. Autrement dit, le rapport coût/valeur de l’inférence devient un axe stratégique de différenciation, à l’heure où les modèles doivent fonctionner en production pour des dizaines de millions d’utilisateurs ou de sessions simultanées.Cette logique repose sur l’observation suivante : les charges à contexte long représentent une part croissante des demandes métiers, mais elles restent inefficientes sur des GPU non spécialisés. Rubin CPX vient donc redresser ce désalignement entre les besoins opérationnels et les architectures existantes. Nvidia ne vise pas ici un simple gain de performance, mais un rééquilibrage économique de l’inférence longue durée.
Disagrégation de l’inférence : un nouveau modèle architectural
L’autre pilier de l’annonce réside dans le principe d’« inference disaggregation ». Ce modèle dissocie la phase de préremplissage contextuel (préfill), exigeante en calcul et en mémoire, de la phase de génération, plus sensible à la bande passante et à la latence d’accès au cache. Cette séparation permet d’optimiser indépendamment chaque type de processeur, sans les surdimensionner inutilement pour des tâches secondaires. Une rupture avec le modèle tout-en-un des accélérateurs classiques.Cependant, ce découplage suppose une orchestration logicielle sophistiquée. Il faut synchroniser les caches clef-valeur, router les instructions entre GPU, éviter les goulets d’étranglement au niveau de la mémoire et maintenir des latences acceptables. Nvidia s’appuie ici sur ses outils logiciels maison (TensorRT-LLM, Cuda Graphs, cuDNN) pour fluidifier cette orchestration distribuée. Un défi de conception autant que d’intégration cloud.
Une réponse ciblée aux besoins des plateformes IA à grande échelle
Rubin CPX s’adresse en priorité aux hyperscalers, aux éditeurs de moteurs génératifs de contenu (audio, vidéo, code), aux fournisseurs de copilotes métier à mémoire étendue, ainsi qu’aux intégrateurs développant des agents conversationnels à très long contexte. L’architecture rend possibles des expériences utilisateur continues, sans perte de mémoire entre les sessions ni de découpage artificiel du flux conversationnel ou documentaire.Pour les fournisseurs de modèles, la fidélité du contexte devient un facteur de compétitivité qui apporte précision, efficience et personnalisation. Cette capacité à charger et maintenir plusieurs millions de jetons en mémoire directe pourrait représenter un avantage décisif. L’enjeu n’est plus seulement d’accélérer l’inférence, mais d’en fiabiliser l’interprétation sur les projets de longue haleine.
Pourquoi les fenêtres de contexte classiques deviennent insuffisantes
La majorité des modèles de langage actuels — y compris les plus avancés comme GPT‑4, Claude 3 ou Gemini — sont limités à des fenêtres de contexte comprises entre 32 000 et 200 000 tokens. Ces tailles permettent certes de traiter des documents conséquents, mais se révèlent souvent insuffisantes pour des cas d’usage industriels impliquant des séquences longues ou complexes : projets logiciels entiers, contenus vidéo annotés, bases contractuelles ou médicales, etc.En l’absence de contexte suffisant, le modèle perd de l’information, introduit des ruptures de raisonnement ou génère des approximations. Pour compenser, les entreprises recourent à des techniques telles que : • Le RAG (Retrieval-Augmented Generation) : le modèle interroge une base vectorielle pour retrouver les éléments pertinents à injecter dynamiquement dans le prompt. • La mémoire externe : des systèmes de mémoire longue ou contextes persistants, souvent orchestrés par des agents ou via API. • L’attention linéaire ou sparse : des variantes architecturales qui réduisent la complexité du calcul d’attention, mais au prix de pertes en précision ou en généralité. Ces approches pallient les limites, mais ne les suppriment pas. C’est pourquoi le passage à une mémoire contextuelle native plus étendue — comme celle proposée par Rubin CPX — représente un basculement structurel.