Une fois de plus, et après un premier échec, Qualcomm se tourne à nouveau vers les centres de données avec deux accélérateurs d’inférence IA, conçus à l’échelle du rack pour combiner performances, efficacité énergétique et coût maîtrisé. Les solutions AI200 et AI250 misent sur une architecture mémoire innovante et une pile logicielle hyperscaler pour faciliter le déploiement d’une IA générative sécurisée et évolutive.
En dévoilant les solutions AI200 et AI250, Qualcomm change d’échelle. Après avoir consolidé son expertise sur les puces embarquées et les NPU pour terminaux, l’industriel américain investit frontalement le marché des centres de données IA. Les deux nouvelles plateformes d’accélération, conçues pour une exploitation à l’échelle du rack, visent une inférence IA générative à la fois rapide, sobre en énergie et économiquement compétitive. Elles inaugurent une feuille de route annuelle sur le segment stratégique de l’inférence déployée, dans un secteur dominé jusqu’ici par Nvidia, Intel et AMD.
La solution Qualcomm AI200 se distingue par une capacité mémoire où chaque carte accélératrice peut embarquer jusqu’à 768 Go de mémoire LPDDR. Ce volume élevé permet d’adresser sans compromis des modèles de langage ou multimodaux volumineux, tout en assurant un coût réduit grâce à la mémoire LPDDR. L’infrastructure est pensée pour l’échelle rack , car les racks complets intègrent une connectique PCIe pour l’agrégation locale, l’Ethernet pour la distribution entre nœuds et un refroidissement liquide direct pour maintenir les performances thermiques.
Innovation near-memory et bond générationnel du AI250
Avec une consommation annoncée de 160 kW par rack, Qualcomm revendique un équilibre entre performance et efficacité énergétique. Le AI200 s’adresse aux charges d’inférence IA générative les plus courantes, notamment pour les modèles déjà entraînés, dans des environnements de cloud privé, edge to cloud ou datacenters spécialisés.
Plus ambitieuse encore, la solution AI250 introduit une architecture dite « near-memory computing », conçue pour rapprocher les unités de calcul et la mémoire afin de réduire la latence d’accès. Qualcomm annonce une bande passante mémoire effective plus de dix fois supérieure à celle des solutions classiques, tout en réduisant significativement la consommation énergétique par tâche d’inférence.
Cette réponse technologique adresse une contrainte majeure de l’inférence IA à grande échelle : les goulets d’étranglement mémoire. En optimisant le trafic entre les cœurs et la mémoire, le AI250 cible les workloads denses en données, comme les modèles LLM à faible précision (INT2, INT4, FP8) ou les applications génératives multimodales. La disponibilité commerciale du AI250 est prévue pour 2027.
Architecture NPU, formats de données et pile logicielle
Les deux solutions reposent sur des NPU Hexagon conçus pour le datacenter, combinant accélérateurs scalaires, vectoriels et tensoriels dans une architecture modulaire. Cette structure prend en charge des formats de données variés – INT2, INT4, INT8, INT16, FP8, FP16 – afin d’optimiser les performances selon le niveau de précision requis, tout en réduisant la consommation énergétique.
Qualcomm a conçu une pile logicielle complète, pensée pour une intégration rapide. Elle permet le déploiement en un clic de modèles préentraînés via la bibliothèque Efficient Transformers, assure la compatibilité avec les principaux frameworks IA (Hugging Face, PyTorch, TensorFlow…), et propose des outils de virtualisation, de sécurisation des modèles (confidential computing, chiffrement des modèles génératifs) et d’orchestration à grande échelle.
Performances annoncées et différenciateurs stratégiques
Qualcomm ne publie pas encore de métriques détaillées (latence, throughput, coût par inférence), mais les premières caractéristiques suggèrent une stratégie de différenciation fondée sur quatre piliers : capacité mémoire massive, efficacité énergétique, flexibilité des formats de données et ouverture logicielle. Le support de modèles Hugging Face et l’intégration de services d’inférence désagrégée renforcent l’attractivité des solutions pour les intégrateurs et fournisseurs de cloud spécialisés.
En matière de refroidissement, de connectivité, de sécurité et de compatibilité cloud, Qualcomm aligne son offre sur les standards des hyperscalers, tout en cherchant à réduire les barrières d’entrée pour les entreprises souhaitant déployer leur propre infrastructure IA. L’argument du TCO, martelé dans les documents techniques, sera scruté à la lumière des premiers déploiements annoncés, notamment en Arabie saoudite dans le cadre d’un partenariat avec Humain.
Vers une nouvelle concurrence sur l’inférence IA à grande échelle
En positionnant ses AI200 et AI250 comme des solutions rack-scale à coût maîtrisé, Qualcomm entend redistribuer les cartes sur un marché jusqu’ici dominé par Nvidia (H100, Grace Hopper) et AMD (MI300X). Sa stratégie capitalise sur son expérience dans le marché des smartphones, sur des architectures sobres et sur une approche intégrée du matériel et du logiciel. Cette convergence permet de viser une efficacité accrue dans les datacenters, avec des modèles IA plus rapides à déployer, plus économes et mieux intégrés dans les chaînes de valeur des entreprises.
Sur le plan marché, l’entrée de Qualcomm dans l’infrastructure IA peut renforcer la compétition, ce qui est positif pour les clients finaux (coût, innovation). Toutefois, pour les clients‑fournisseurs traditionnels, cela introduit un nouveau challenger technique et commercial. Le phénomène pourrait pousser certains clients à revisiter leurs partenariats avec Qualcomm ou à internaliser davantage leurs chaînes d’IA afin de préserver leur marge ou leur contrôle technologique.
Par ailleurs, pour Qualcomm, réussir sur ce segment datacenter implique de convaincre que ses solutions offrent une véritable valeur ajoutée et qu’il ne se contente pas de transporter son héritage mobile vers un domaine radicalement différent. Si les premiers retours de déploiement (ex. partenariat avec Humain en Arabie‑saoudite) sont positifs, cela renforcera sa crédibilité.
Il reste donc à confirmer les performances en conditions réelles. Si les promesses de bande passante, de flexibilité et de TCO se vérifient, Qualcomm pourrait s’imposer comme un acteur clé de l’inférence IA déployée, notamment dans les secteurs à forte intensité de calcul (finance, santé, défense, industrie) où la maîtrise des coûts d’exploitation devient déterminante. L’architecture rack-scale, souvent réservée aux hyperscalers, pourrait ainsi devenir accessible à un plus large éventail d’acteurs. En se positionnant sur un segment infrastructure rack‑scale, en différenciant l’usage (inférence vs formation) et en offrant une intégration matérielle et logicielle complète, le groupe cherche à transformer une relation client‑fournisseur en un modèle fournisseur d’infrastructure à part entière.























































