Trois modèles optimisés pour le raisonnement complexe, une architecture hybride MoE, un accès ouvert aux poids et aux données. Avec Nemotron 3, Nvidia consolide sa stratégie d’expansion dans les couches applicatives fondées sur l’IA et amorce un repositionnement au-delà de l’infrastructure matérielle.
Après les GPU, les plateformes Blackwell, les SDK d’inférence et les microservices IA, Nvidia propose désormais une offre complète de modèles de fondation conçus pour piloter des agents IA métiers. Nemotron 3 incarne cette ambition avec une gamme modulaire de modèles ouverts, accompagnés de l’ensemble des composants nécessaires à leur adaptation, leur déploiement et leur gouvernance. L’enjeu dépasse la simple fourniture de modèles. Il s’agit d’équiper les éditeurs, intégrateurs et entreprises de briques applicatives capables de remplacer progressivement les logiciels traditionnels par des agents contextualisés et dynamiques.
La famille Nemotron 3 a été entraînée et calibrée pour un usage industriel. Les poids des modèles, les jeux de données d’entraînement, les recettes de fine‑tuning et les outils RLHF sont mis à disposition sur GitHub et Hugging Face. L’ensemble s’appuie sur l’environnement Nvidia NeMo et sur une intégration fluide via les microservices NIM pour une exploitation directe dans les architectures cloud et sur site.
Trois modèles, trois formats d’usage et architecture hybride
La gamme Nemotron 3 repose sur une architecture Mamba‑Transformer MoE de nouvelle génération. Chaque modèle combine des blocs experts spécialisés et une logique d’activation dynamique. Seuls huit experts sont sollicités pour chaque token, parmi un total de 128 experts. Cette topologie garantit une réduction drastique de la consommation mémoire et du coût d’inférence tout en maintenant une performance de haut niveau. Selon les chiffres publiés par Nvidia, cette structure permet une efficacité multipliée par quatre par rapport à un modèle dense équivalent. Le compromis obtenu entre spécialisation, vélocité et charge GPU ouvre la voie à une industrialisation plus viable économiquement pour les entreprises déployant des agents IA en production.
La gamme est déclinée en trois modèles complémentaires. Nemotron 3 Nano, doté d’environ 30 milliards de paramètres, cible les usages embarqués, les assistants légers et les déploiements en périphérie, avec une latence réduite et un coût d’inférence maîtrisé. Nemotron 3 Super, fort d’environ 100 milliards de paramètres, est conçu pour les environnements multi-agents, les orchestrateurs fonctionnels et les applications à logique contextuelle. Nemotron 3 Ultra, avec environ 500 milliards de paramètres, s’adresse aux charges les plus complexes nécessitant un raisonnement approfondi et une capacité de mémorisation étendue sur de longs contextes métiers.
Les trois modèles partagent une même fenêtre de contexte étendue à un million de tokens. L’entraînement a été réalisé en précision 4 bits, selon un format FP4 optimal pour les GPU Blackwell. Cette précision réduit les besoins en mémoire tout en préservant la stabilité des performances sur les benchmarks de raisonnement.
Fine‑tuning comportemental et infrastructure ouverte
Chaque modèle Nemotron 3 est accompagné de l’ensemble des outils de personnalisation et d’optimisation. Le processus de fine‑tuning repose sur une phase d’alignement supervisé (SFT), suivie d’un ajustement par apprentissage par renforcement avec récompense humaine (RLHF via PPO). Nvidia fournit des scripts reproductibles ainsi que les configurations associées dans le cadre de l’environnement NeMo. Les modèles sont compatibles avec les principaux cadres d’inférence IA ouverts : vLLM, SGLang, llm.cpp. Ils peuvent être encapsulés sous forme de microservices NIM et déployés sur des infrastructures GPU locales ou dans des environnements cloud. Cette modularité facilite leur intégration dans les chaînes applicatives existantes, y compris en environnement contraint.
Les jeux de données utilisés pour l’entraînement comprennent notamment RefinedWeb, RedPajama, C4, ainsi que des corpus professionnels multilingues. Cette transparence permet d’évaluer les biais potentiels, d’adapter les comportements à des contextes sectoriels spécifiques et d’aligner les réponses des modèles sur des normes de qualité définies.
Extension vers les couches applicatives
Avec Nemotron 3, Nvidia accélère son extension vers les couches applicatives. En fournissant des modèles adaptables, efficaces et gouvernables, l’entreprise ne se contente plus d’équiper les infrastructures, elle entend proposer les briques logicielles qui prendront progressivement la place des applications classiques.
Ce repositionnement de Nvidia s’inscrit dans un mouvement plus large qui redéfinit les couches applicatives à travers l’agentification des services numériques. Plusieurs fournisseurs d’IA et d’environnements logiciels convergent vers ce modèle. Google multiplie les déclinaisons spécialisées de Gemini, comme Gemini for Workspace ou Gemini for Customer Experience, conçues pour remplacer les interfaces logicielles classiques par des agents contextualisés. Microsoft, avec Copilot Studio et la couche Windows Copilot Runtime, structure une approche modulaire où l’agent devient une surcouche transversale aux applications métier. OpenAI poursuit cette trajectoire avec ChatGPT Team, les fonctions de mémoire longue et la standardisation du protocole Agentic Commerce.
Une approche ouverte via microservices
Des éditeurs comme SAP, ServiceNow ou Salesforce construisent également des orchestrateurs internes ou inter-applicatifs fondés sur des agents verticaux ou des LLM spécialisés. Dans ce contexte, Nvidia entend consolider sa place non seulement comme fournisseur de plateformes d’entraînement, mais comme acteur de référence dans l’industrialisation des agents IA adaptables, auditables et déployables en environnement maîtrisé, que ce soit dans la relation client, les systèmes d’assistance, les infrastructures critiques ou les chaînes d’ingénierie industrielle.
La transparence, la compatibilité avec les outils ouverts et la logique de microservice différencient l’approche de Nvidia de celle des modèles fermés proposés via API dans les grands clouds publics. Les cas d’usage ciblés incluent notamment les systèmes critiques, les plateformes souveraines ou les secteurs réglementés, qui exigent traçabilité, auditabilité et maîtrise locale. Le modèle Nemotron 3 Nano est déjà disponible en téléchargement sur Hugging Face. Les versions Super et Ultra seront mises à disposition au cours du premier semestre 2026. Plusieurs intégrateurs ont déjà annoncé des expérimentations ou des déploiements en cours, notamment Accenture, Deloitte, Oracle Cloud Infrastructure, ServiceNow et Siemens.