Les investissements massifs dans les infrastructures pour L’IA atteignent désormais des niveaux vertigineux, sans commune mesure avec la taille réelle du marché. Alors que 57 milliards de dollars ont été consacrés en 2024 aux centres de données pour les LLM, les revenus générés plafonnent à 5,6 milliards. Cet écart nourrit l’hypothèse d’une bulle, rappelant d’autres cycles technologiques où l’offre a devancé la demande.

En juin dernier, un groupe d’ingénieurs de Nvidia a publié un manifeste au titre explicite : Small Language Models are the Future of Agentic AI. Leur thèse est claire : l’avenir de l’intelligence artificielle ne passera pas uniquement par les modèles géants, centralisés et coûteux qui dominent aujourd’hui la scène médiatique, mais par une approche plus frugale et modulaire reposant sur de petits modèles de langage spécialisés.

Selon eux, ces modèles réduisent non seulement les coûts et la complexité d’exploitation, mais répondent surtout à la majorité des cas d’usage de l’IA, qui sont souvent répétitifs, localisés et métiers. Au-delà de la question technologique, ce texte pose une interrogation beaucoup plus large : celle de la soutenabilité de l’IA, tant économique qu’environnementale.

Car le secteur de l’intelligence artificielle vit un paradoxe : alors que les investissements dans les infrastructures pour soutenir les très grands modèles de langage atteignent des sommets vertigineux, le marché effectif de ces technologies reste encore limité. Selon des chiffres cités dans le manifeste de Nvidia, les dépenses mondiales en centres de données pour entraîner et faire fonctionner les LLM ont atteint 57 milliards de dollars en 2024. En comparaison, la taille estimée du marché des agents et services basés sur ces modèles plafonne à 5,6 milliards de dollars. Cet écart abyssal illustre une réalité désormais difficile à occulter : l’IA doit passer le test de la soutenabilité.

Une bulle d’investissements en quête de débouchés

Depuis l’irruption des LLM grand public, comme ChatGPT fin 2022, les géants du numérique se livrent à une course effrénée pour construire et équiper de nouveaux centres de données. Microsoft, Google, Meta et Amazon annoncent chaque trimestre des dizaines de milliards de dollars d’investissements dans des infrastructures hyperscale, alimentant la demande croissante en processeurs graphiques fournis principalement par Nvidia. Or, cette dynamique repose encore largement sur des anticipations : les cas d’usage réellement monétisables de ces IA généralistes restent modestes au regard des montants engagés.

Ce déséquilibre n’est pas sans rappeler d’autres cycles technologiques où l’offre a largement précédé la demande. On pense à la bulle Internet du début des années 2000, lorsque des milliards ont été investis dans des infrastructures de fibre optique et des start-up en ligne avant que les revenus publicitaires ne se stabilisent réellement. De même, dans les télécommunications mobiles, les enchères spectaculaires pour la 3G en Europe au tournant des années 2000 ont longtemps dépassé la capacité du marché à générer un retour sur investissement, les services mobiles de données mettant plusieurs
années à décoller.

Les coûts cachés d’une technologie énergivore

L’entraînement d’un très grand modèle de langage n’est pas seulement un défi scientifique, c’est aussi une opération aux coûts énergétiques colossaux. Selon les chercheurs de Nvidia, entraîner un modèle de 175 milliards de paramètres peut mobiliser plus de 10 000 GPU pendant plusieurs semaines, avec une consommation estimée à 1,3 GWh d’électricité, soit l’équivalent de la consommation annuelle de plusieurs centaines de foyers européens. À titre de comparaison, un Small Language Model de 1,5 milliard de paramètres peut être entraîné en quelques heures sur une seule machine dotée de quatre GPU, pour une dépense énergétique réduite de plusieurs ordres de grandeur.

Et ces coûts ne concernent pas uniquement l’entraînement. L’usage quotidien des LLM à très grande échelle, via les milliards de requêtes effectuées chaque jour par les utilisateurs de services comme ChatGPT ou Copilot, alourdit encore la facture. Nvidia rappelle qu’un modèle de la taille de GPT-4 exige jusqu’à 30 fois plus de ressources informatiques pour l’inférence qu’un SLM de taille moyenne. Ce surcroît de consommation se traduit en besoins massifs de refroidissement et d’eau pour les centres de données, déjà dénoncés dans plusieurs régions. Aux États-Unis, certains centres de données consomment plusieurs millions de litres d’eau par jour pour maintenir leurs serveurs à température, ce qui provoque des tensions avec les collectivités locales en période de sécheresse.

Face à ces coûts, la soutenabilité des LLM ne se mesure plus uniquement en termes économiques, mais aussi écologiques et sociaux. Dans un contexte où l’Europe promeut une stratégie de sobriété numérique, et où la pression réglementaire s’intensifie autour de l’empreinte carbone des technologies, la question de la pertinence de ces modèles géants prend une dimension stratégique.

L’alternative des modèles plus petits et spécialisés

C’est dans ce contexte que s’insère l’argument avancé par Nvidia : l’avenir de l’intelligence artificielle agentique ne résiderait pas uniquement dans les modèles géants, mais dans des modèles plus petits, plus spécialisés et modulaires. Ces SLM peuvent être entraînés plus rapidement, adaptés à des cas d’usage de l’IA et déployés localement sur des serveurs, des ordinateurs portables ou même des équipements industriels.

Une telle approche ouvre plusieurs perspectives. D’abord, elle réduit significativement les coûts d’infrastructure et d’exploitation pour les entreprises, ce qui élargit l’accès à l’IA à des acteurs qui n’ont pas les moyens de recourir à des API coûteuses, hébergées par les hyperscalers. Ensuite, elle diminue l’empreinte énergétique des projets, en limitant le recours à des centres de données massifs. Enfin, elle favorise une plus grande autonomie stratégique : en permettant aux organisations d’exécuter des agents localement, elle réduit la dépendance vis-à-vis des fournisseurs étrangers de cloud et s’inscrit dans une logique de souveraineté numérique.

Des applications dans les secteurs BtoB

Dans la santé, les SLM pourraient être déployés pour des tâches bien délimitées, appropriées pour leurs capacités : analyser des dossiers médicaux ou assister à la rédaction de comptes rendus. Le tout, sans nécessiter de transfert massif de données sensibles vers le cloud. En finance, des modèles spécialisés pourraient aider à automatiser la conformité réglementaire ou la détection de fraudes en exploitant des corpus internes, là encore sans dépendre d’infrastructures externes lourdes.

Dans l’industrie, des modèles embarqués sur des lignes de production pourraient assister les opérateurs en temps réel, optimiser la maintenance prédictive et accroître la sécurité, tout en limitant la consommation énergétique des systèmes. Ces exemples illustrent le fait que l’IA frugale n’est pas une version au rabais de l’innovation : elle répond véritablement à des besoins opérationnels, là où les LLM généralistes peinent encore à démontrer une valeur concrète à grande échelle.

Vers une recomposition du marché de l’IA

Cette bascule vers des architectures plus sobres ne se fera pas sans résistances. Les investissements massifs déjà engagés par les hyperscalers créent une inertie considérable. De plus, le prestige associé aux grands modèles et leur visibilité médiatique continuent de façonner la perception dominante de l’IA. Mais une recomposition du marché est en cours : alors que Microsoft et OpenAI misent sur la centralisation de l’IA dans le cloud, des acteurs comme Nvidia, Mistral, Hugging Face ou Stability AI promeuvent un modèle plus distribué, frugal et adaptable.

Pour les entreprises, le choix qui s’annonce n’est pas uniquement technologique. Il touche à la soutenabilité globale de leurs projets d’IA : comment équilibrer performance, coûts, impact environnemental et indépendance stratégique ? Derrière l’engouement pour l’IA générative se dessine un enjeu plus fondamental : construire un modèle d’innovation qui ne soit pas seulement spectaculaire, mais durable.