Le domaine de l'intelligence artificielle connaît une avancée significative avec les récentes annonces de Nvidia et de Cerebras, qui établissent de nouveaux records en matière de vitesse d'inférence sur le modèle Llama 4 Maverick de Meta. Ces performances marquent une étape cruciale pour les applications d'IA générative en entreprise, où la rapidité de traitement est essentielle.
Le 29 mai dernier, Nvidia et Cerebras ont franchi une étape symbolique dans la course à la performance des systèmes d’intelligence artificielle générative. En atteignant respectivement plus de 1 000 et 2 500 jetons (tokens) par seconde et par utilisateur sur le modèle Llama 4 Maverick de Meta, les deux fournisseurs repoussent les limites actuelles de l’inférence, phase cruciale du fonctionnement des modèles de langage. Cette avancée, hautement technique en apparence, constitue en réalité un signal fort : celui de l’entrée dans une nouvelle ère pour les systèmes intelligents, marquée par la rapidité, la fluidité et la disponibilité en temps réel des réponses générées par l’IA.
Pour saisir les enjeux de cette prouesse, il faut d’abord comprendre ce qu’est un jeton. Dans le monde des modèles de langage, un jeton est une unité minimale de traitement. Il peut s’agir d’un mot entier, d’une racine de mot, d’un préfixe, d’un suffixe ou même d’un simple caractère, selon les choix de tokenisation effectués lors de l’entraînement du modèle. Contrairement à l’humain qui lit un texte mot à mot ou phrase par phrase, les modèles comme Llama 4 interprètent une séquence de tokens, et génèrent leur réponse token par token, en prédisant à chaque étape le suivant. Le processus d’inférence consiste précisément à dérouler cette prédiction, en convertissant une phrase ou un mot de l’utilisateur en tokens, puis en produisant, un à un, les tokens de la réponse.
De 150 et 300 tokens à 1 000 et 2 500
Jusqu’à récemment, les meilleures plateformes d’inférence du marché, comme Google Vertex AI ou Amazon Bedrock, proposaient des vitesses de génération de l’ordre de 150 à 300 tokens par seconde et par utilisateur sur des modèles de dernière génération. Ces performances, bien que suffisantes pour des démonstrations ou des usages limités, restent contraignantes dès lors qu’il s’agissait d’intégrer des modèles génératifs dans des environnements de production ou d’imaginer des interactions en temps réel.
En franchissant la barre symbolique des 1 000 TPS, Nvidia a multiplié par trois à six le débit d’inférence habituellement observé, permettant de générer, par exemple, un courriel complet ou une réponse complexe en moins d’une seconde. Cerebras, avec ses 2 522 TPS par utilisateur, double encore cette performance, annonçant une accélération sans précédent dans le traitement du langage par les machines.
Nvidia doit cette avancée à son écosystème technologique entièrement intégré. En associant ses nouveaux GPU Blackwell à des bibliothèques logicielles optimisées, comme TensorRT-LLM, EAGLE-3 et CUDA Graphs, l’entreprise démontre la maturité de son approche « matériel + logiciel » dans le domaine de l’IA. Le système DGX B200 utilisé pour la démonstration intégrait huit GPU Blackwell B200 et exploitait des techniques avancées de décodage spéculatif pour accélérer la génération de texte. Le résultat est un débit utilisateur inédit, complété par une configuration de débit maximal atteignant jusqu’à 72 000 tokens par seconde sur un seul serveur.
Wafer Scale Engine, une architecture radicalement nouvelle
Face à cette démonstration de puissance orchestrée, Cerebras adopte une approche différente. Plutôt que de s’appuyer sur une accumulation de GPU conventionnels, l’entreprise mise sur une architecture radicalement nouvelle : le Wafer Scale Engine. Il s’agit d’une puce géante, de la taille d’un wafer entier, conçue spécifiquement pour les charges de travail de l’IA. Grâce à cette architecture unifiée, Cerebras élimine les goulets liés à la communication inter-GPU et atteint ses performances sans recours à des optimisations logicielles complexes. Son API reste inchangée pour les utilisateurs, ce qui pourrait représenter un avantage décisif pour les entreprises recherchant la simplicité et l’évolutivité.
Au-delà de la bataille technologique, cette compétition révèle une dynamique plus large : celle de la généralisation des systèmes intelligents capables de fonctionner en temps réel. Ce basculement est historique. Dans de nombreux cas d’usage, la vitesse d’inférence conditionne la valeur perçue par l’utilisateur final. Plus un agent conversationnel est réactif, plus il paraît crédible. Plus un copilote est rapide à générer du code ou à résumer un document, plus il augmente la productivité des équipes. Or, jusqu’à présent, la lenteur de génération restait un obstacle à l’adoption massive de ces outils dans les environnements métier. Les résultats obtenus avec Llama 4 Maverick changent la donne.
Explorer des architectures alternatives
Ils dessinent les contours d’un futur où le langage devient l’interface native entre l’humain et les systèmes d’information. Un futur où l’IA ne se contente plus d’exécuter des instructions ponctuelles, mais participe en continu aux flux métiers, anticipe les besoins, formule des suggestions, prend des décisions, interagit avec d’autres systèmes. En somme, un monde de systèmes agissants, alimentés par une génération de tokens rapide et ininterrompue, à l’image d’un fil de pensée algorithmique.
Pour les entreprises, cette transformation soulève des questions tangibles. D’abord, celle du choix technologique : faut-il adopter des plateformes tout-en-un comme celles de Nvidia, intégrées avec les grands hyperscalers, ou explorer des architectures alternatives comme celle de Cerebras, potentiellement plus efficaces dans des scénarios spécifiques ? Ensuite, celle du coût : à performance équivalente, quel est le rapport coût/utilité, notamment en termes de consommation énergétique, de déploiement, de maintenance ? Enfin, celle de l’intégration dans l’existant : comment faire dialoguer ces moteurs d’inférence temps réel avec les systèmes métiers, les ERP, les plateformes de relation client, les outils collaboratifs ?
L’annonce conjointe de Nvidia et Cerebras marque un nouveau palier, une bascule. Celle d’un monde logiciel où la génération devient immédiate, où la vitesse devient une métrique stratégique, et où l’interface se dissout dans l’intelligence même du système. Un monde où les agents intelligents ne seront plus ralentis par les limites physiques du matériel, mais libérés pour accompagner, conseiller, prédire, et agir avec une réactivité jusqu’alors réservée à l’humain. Le futur des systèmes agissants en temps réel ou quasi réel commence par la maîtrise du traitement des tokens.