La compétition entre concepteurs de processeurs met en lumière une confusion fréquente : l’efficacité des puces ne suffit pas à expliquer les écarts de performance en intelligence artificielle. La clé réside dans l’architecture globale, qui intègre réseaux, mémoire et orchestration, bien au-delà des micro-architectures des circuits.

Dans le domaine du calcul intensif et de l’IA, les regards se portent volontiers sur les caractéristiques des puces : nombre de cœurs, puissance de calcul en téraflops, finesse de gravure. Pourtant, l’histoire récente montre que ces paramètres ne déterminent qu’une partie de la compétitivité. Les grandes plateformes se différencient davantage par leur capacité à concevoir une infrastructure cohérente, optimisée et adaptée aux workloads. Cette distinction entre micro-architecture et architecture système est devenue centrale pour comprendre la hiérarchie du marché.

Les annonces des fournisseurs illustrent cette dichotomie : Nvidia met en avant ses GPU de dernière génération, AMD et Intel défendent leurs processeurs spécialisés, tandis que Google ou AWS publient des travaux sur leurs réseaux optiques, leurs interconnexions ou leurs unités dédiées aux modèles de recommandation. Autant d’approches qui dépassent la logique du composant isolé pour souligner que la valeur se déplace vers le système entier.

La micro-architecture, promesse de performance brute

La micro-architecture correspond à l’ingénierie interne des puces : organisation des cœurs, ajout d’unités spécialisées (tensor cores, NPU, accélérateurs vectoriels, contrôleurs), intégration de mémoires HBM à large bande passante. Les fournisseurs historiques de semiconducteurs concentrent leurs efforts sur ces leviers, car ils restent l’argument commercial le plus visible. Nvidia, en particulier, fonde son avance sur l’efficacité de ses GPU, régulièrement mesurée en FLOPS, sur ses mémoires embarquées et sur le nombre de connexions NVLink.

Ces éléments apportent des gains considérables en performance brute, mais leur effet devient de plus en plus incrémental. Les goulets d’étranglement persistent : alimentation en données, latence réseau, fragmentation des charges de travail. Dans l’entraînement de modèles géants, la puissance d’un seul processeur ne suffit plus : l’échelle impose d’orchestrer des milliers d’unités, et c’est là que les limites de la micro-architecture apparaissent. La promesse théorique des FLOPS se heurte à la réalité des flux de données.

Une étude comparative récente des instances générales AWS, Azure, GCP et OCI rappellent toutefois l’importance de ce niveau d’analyse. Menée par Jay Tharwani Member de l’IEEE et chercheur indépendant, elle montre que les processeurs ARM (RISC) offrent le meilleur ratio prix/performance, avec des écarts supérieurs à 90 % par rapport aux offres x86, tandis que les processeurs Intel (CISC) conservent l’avantage pour les applications critiques et compatibles avec les logiciels existants. Autrement dit, la micro-architecture reste un facteur décisif dans certains cas d’usage, mais elle ne suffit pas à expliquer les écarts de compétitivité observés à grande échelle.

L’architecture système, levier d’efficacité à grande échelle

L’architecture système recouvre la manière dont les composants sont intégrés : topologies de réseau, interconnexions électriques et optiques, gestion de la mémoire distribuée, orchestration logicielle. C’est sur ce terrain que Google a bâti sa stratégie de chaîne de traitement optimisée. Ses TPU ne sont pas uniquement des processeurs spécialisés, ils sont insérés dans une infrastructure cohérente, où l’Inter Chip Interconnect (ICI) et la commutation optique configurent dynamiquement des grappes adaptées aux charges de travail.

AWS suit une logique comparable avec ses puces Trainium et Inferentia, couplées à l’Elastic Fabric Adapter qui optimise la communication à grande échelle. Microsoft mise sur des déploiements massifs d’Infiniband pour équiper ses clusters ND-series. Dans chaque cas, l’accent est mis sur la fluidité des échanges entre milliers de processeurs plutôt que sur les seuls cœurs de calcul. La performance résulte d’une symphonie d’éléments matériels et logiciels orchestrés, non d’une course isolée aux téraflops.

Les auteurs du rapport précité reconnaissent d’ailleurs les limites de leur propre approche : leurs mesures se concentrent sur des instances CPU, sans intégrer le rôle des GPU, du réseau ou du stockage. Ils notent que les performances réelles dépendent de l’ensemble du système, et non du seul processeur. Cette conclusion éclaire le basculement actuel : la véritable suprématie se joue dans la cohérence de l’architecture, non dans la sophistication isolée d’une micro-architecture.

Quand les modèles dictent l’architecture

Une difficulté supplémentaire vient compliquer l’appréciation des performances : modèles d’apprentissage ne sollicitent pas les infrastructures de la même façon. Les grands modèles de langage (LLM) mobilisent d’énormes capacités de calcul dense, parfaitement adaptées aux GPU modernes. En revanche, les modèles de recommandation (DLRM), qui manipulent des tables d’embeddings de plusieurs dizaines de téraoctets, imposent des accès mémoire épars et difficiles à paralléliser. Les GPU, optimisés pour le calcul matriciel dense, s’y révèlent peu efficaces.

Google a tiré les conséquences de cette hétérogénéité en intégrant des unités SparseCore dans ses TPU. Ces accélérateurs sont conçus pour gérer directement les accès irréguliers aux embeddings, déchargeant ainsi les CPU et réduisant drastiquement les latences. Cet exemple illustre que l’évolution des architectures n’est pas générique : elle est dictée par les besoins spécifiques des modèles. L’innovation consiste moins à multiplier les FLOPS qu’à aligner les infrastructures sur la diversité des workloads.

Le réseau, juge de paix de la mise à l’échelle

À mesure que les modèles s’élargissent, le réseau devient l’élément critique. Les interconnexions optiques mises en place par Google permettent de réduire les conversions électrique/optique et d’abaisser la consommation tout en maintenant des latences minimales. La topologie en « 3D torus », reconfigurable grâce aux Optical Circuit Switches, offre une flexibilité précieuse : les grappes peuvent être adaptées au parallélisme de données ou de modèles selon les besoins.

Chez Nvidia, la dépendance à Infiniband et aux commutateurs spécialisés engendre des coûts croissants à grande échelle. L’architecture réseau standardisée, efficace pour des déploiements tiers, devient un handicap dans des environnements hyperscale où la maîtrise de bout en bout permet d’optimiser le coût total de possession. Le réseau n’est donc pas une simple tuyauterie, il conditionne la capacité à industrialiser l’entraînement et l’inférence de modèles toujours plus vastes.

Un choix stratégique pour les DSI et les éditeurs

Pour les entreprises utilisatrices, la distinction entre micro-architecture et architecture système a des conséquences directes. Choisir une offre d’IA, ce n’est pas seulement comparer les caractéristiques des processeurs proposés par un fournisseur de cloud. C’est évaluer l’efficacité globale du système : latence réseau, disponibilité mémoire, capacité d’orchestration, flexibilité des topologies. Ces paramètres déterminent le coût total de possession, la productivité des équipes de data science et la viabilité des projets à grande échelle.

À long terme, cette dichotomie oriente aussi les stratégies des éditeurs. Ceux qui conçoivent leurs propres infrastructures, comme Google ou Amazon, peuvent internaliser des gains d’efficacité et proposer des services plus compétitifs. Les autres devront composer avec les limites d’architectures standardisées. Pour les DSI, la leçon est claire : la vraie suprématie ne se lit pas dans la fiche technique d’une puce, mais dans la cohérence de l’architecture qui l’entoure. Ceci en attendant que les puces et les architectures chinoises viennent compliquer encore plus le choix.