Google Cloud annonce sa nouvelle génération de TPU, baptisée Ironwood, et enrichit sa gamme de machines virtuelles Axion. Ces deux avancées matérielles marquent une inflexion stratégique majeure dans la course à l’optimisation de l’inférence et du calcul d’IA en environnement cloud, avec un accent fort mis sur la co-conception matériel-logiciel et la rentabilité à grande échelle.

Depuis l’entraînement des premiers modèles Transformer jusqu’à l’orchestration agentique à l’échelle mondiale, l’architecture matérielle de Google Cloud suit une trajectoire d’intégration poussée et d’optimisation continue. Avec Ironwood, septième génération de TPU, le fournisseur promet une performance multipliée par dix par rapport à la génération v5p, et par quatre face au TPU v6e.

Ce saut de capacité cible directement les modèles IA les plus lourds, y compris Gemini, Imagen ou Claude, en assurant des temps d’inférence réduits et une consommation énergétique contenue. Ironwood s’appuie sur une structure matérielle ultra-scalable, intégrée au sein de superpods de 9 216 puces interconnectées, et unifiée par le réseau Jupiter. L’objectif déclaré de Google est de mettre sur pod une puissance d’inférence planétaire, cohérente avec l’explosion des usages générés par les flux de travail agentiques.

Ironwood, le pilier de l’infrastructure AI Hypercomputer

Chaque TPU Ironwood participe à une structure en grappes haute densité, avec 1,77 Po de mémoire HBM partagée et 9,6 Tb/s de bande passante entre puces. L’ensemble forme un domaine de calcul piloté par une couche logicielle optimisée et intégrée à Google Kubernetes Engine (GKE). Ce couplage matériel-logiciel permet à Google Cloud de garantir une haute disponibilité (99,999 %) et d’introduire des mécanismes avancés comme l’Optical Circuit Switching (OCS), capable de rerouter le trafic en cas d’incident sans interruption de service. À l’échelle de plusieurs superpods, l’architecture atteint des milliers de TPU fonctionnant comme une grappe unifiée. Cette modularité intéresse déjà des clients comme Anthropic, qui annonce vouloir exploiter jusqu’à un million de puces Ironwood pour entraîner et déployer Claude.

Plusieurs organisations confirment les gains d’usage concrets. Lightricks, avec son modèle LTX‑2 de génération multimodale, évoque une amélioration significative de la finesse et de la fidélité des contenus. Essential AI met en avant la rapidité d’intégration des TPU et leur efficacité énergétique pour des usages intensifs. Ces retours d’expérience illustrent le positionnement stratégique d’Ironwood : accélérer l’inférence tout en absorbant la complexité croissante des modèles actuels.

Une couche logicielle intégrée pour orchestrer entraînement et inférence

Le TPU Ironwood n’agit pas isolément. Il est piloté par une pile logicielle co-développée, optimisant chaque phase du cycle IA. Pour l’entraînement, Google améliore son framework open source MaxText, désormais compatible avec les techniques de fine tuning supervisé (SFT) et d’optimisation par renforcement génératif (GRPO). Pour l’inférence, le GKE Inference Gateway réduit le délai du premier token de 96 % et diminue les coûts jusqu’à 30 %, selon Google. La compatibilité avec vLLM permet de jongler aisément entre GPU et TPU. Ces briques logicielles, nativement conçues pour s’aligner sur le matériel, donnent à l’AI Hypercomputer sa cohérence industrielle. L’étude IDC citée par Google évoque un retour sur investissement de 353 % en trois ans pour les clients ayant adopté cette infrastructure combinée, avec une réduction moyenne de 28 % des coûts informatiques.

À travers cette co-conception poussée, Google Cloud renforce son modèle différenciateur face aux autres hyperscalers. Il s’agit de proposer non seulement de la puissance brute, mais une orchestration industrielle de bout en bout. La supervision prédictive via Cluster Director, les capacités de routage dynamique et la scalabilité du système placent Ironwood dans une perspective de traitement optimisé du cycle de l’IA, du développement initial à la mise en production.

Les VM Axion : le complément pour charges optimisées

Aux côtés des TPU, Google dévoile deux nouvelles instances Axion basées sur l’architecture Arm Neoverse : N4A (VM généraliste la plus économique) et C4A Metal (première instance « bare metal » dédiée). Ces options répondent aux besoins courants des environnements cloud modernes pour le traitement des microservices, le traitement analytique, les bases de données open source ou les charges de préparation de données. Google estime que le choix du silicium Arm, couplé à une virtualisation optimisée, permet d’atteindre des performances-prix jusqu’à deux fois supérieures aux équivalents x86.

Des témoignages clients soulignent les gains réalisés. Vimeo mentionne une hausse de 30 % des performances de transcodage, ZoomInfo observe une amélioration de 60 % pour ses pipelines critiques, et Rise enregistre 20 % de réduction de consommation sur son backend publicitaire. En contexte de compression budgétaire et de transition énergétique, ces résultats donnent un avantage compétitif aux clients qui migrent vers Axion. Cette gamme devient ainsi le socle des opérations courantes, tandis que les charges critiques sont déportées sur des accélérateurs comme Ironwood.

Une stratégie de plateforme complète pour l’ère de l’IA orchestrée

Le tandem Ironwood-Axion révèle une stratégie plus large de Google Cloud. Celle de consolider un environnement de calcul mixte, modulaire et co-optimisé, capable de prendre en charge toutes les couches de l’IA moderne. Axion gère les fonctions périphériques (ingestion, orchestration, calcul de soutien), pendant qu’Ironwood exécute les modèles les plus lourds avec un rendement opérationnel maximal. Cette approche outrepasse le simple empilement de composants : elle structure une logique de plateforme, dans laquelle les entreprises peuvent piloter leurs services IA avec un contrôle fin des coûts, des performances et des ressources.

Google Cloud se positionne ainsi comme un acteur de référence dans la construction de pipelines d’IA industrialisables, en combinant l’innovation matérielle, la modularité logicielle et l’interopérabilité stratégique. L’annonce confirme l’orientation du marché vers des infrastructures hybrides, agentiques et spécialisées, où chaque puce compte, mais surtout, chaque watt.

publicité