d’avoir existé.
Le marché des technologies de l’information nous a habitués aux coups d’éclat et aux renversements de monopoles. Les innovations vont tellement vite, qu’on ne peut jamais savoir d’où la disruption peut survenir. Ce fut le cas de bien des technologies et des produits dominants, éclipsés subitement par des modèles ou des technologies mieux adaptés aux besoins du moment. Apple par exemple, qui, avec son Mcintosh en 1984 a revisité le design et l’ergonomie des ordinateurs de bureau de l’époque. Netscape Navigator, le premier navigateur Web grand public, qui a éclipsé les autres navigateurs. Ou alors Google Search qui a littéralement « tué » les moteurs de recherche concurrents avec sa technologie PageRank, classant les résultats en fonction de leur pertinence
et des liens entrants.
L’histoire des technologies IT est rythmée par des produits et des technologies qui ont radicalement transformé leur marché. Chaque innovation disruptive a forcé les acteurs en place à réagir, à s’adapter ou à disparaître. Aujourd’hui, avec l’essor de l’IA générative et des nouvelles architectures cloud, de nouvelles révolutions sont encore à venir. La plus récente d’entre elles est un coup d’éclat venu de Chine, DeepSeek.
Entraîné pour seulement 6 millions de dollars environ, DeepSeek-V3 marque un véritable tournant dans le marché de l’IA générative, non seulement en raison de son coût réduit, mais parce qu’il prouve qu’un modèle open source peut rivaliser en performances avec des solutions propriétaires comme celles d’OpenAI, de Google ou d’Anthropic. Cette évolution a des implications profondes pour les fournisseurs qui avaient misé sur un modèle économique basé sur des infrastructures massives et coûteuses, nécessitant des investissements colossaux en computation.
Des optimisations algorithmiques pour réduire le coût
DeepSeek-V3 a été conçu comme une solution particulièrement efficace en termes de coûts, grâce à plusieurs optimisations. L’un des facteurs déterminants réside dans l’adoption de la précision mixte FP8, qui permet de réduire significativement la consommation de mémoire tout en accélérant l’entraînement sans compromettre la précision du modèle. Parallèlement, l’optimisation du cadre d’entraînement à travers l’algorithme DualPipe a permis d’améliorer le rendement global en réduisant les pertes de temps liées aux communications entre nœuds.La communication entre GPU a également été optimisée grâce à l’exploitation des interconnexions NVLink et InfiniBand, qui minimisent la latence et maximisent le débit de transmission des données. En complément, les ingénieurs de DeepSeek ont réussi à se passer du parallélisme tensoriel, une technique souvent coûteuse, en mettant en place une gestion spécifique des ressources et des optimisations avancées de la mémoire.
L’architecture du modèle a été pensée pour réduire les coûts d’inférence, notamment grâce à l’approche Mixture-of-Experts (MoE), qui permet d’activer uniquement une fraction des paramètres lors de l’exécution, réduisant ainsi la charge computationnelle. Enfin, le temps d’entraînement a été drastiquement réduit : en moins de deux mois, DeepSeek-V3 a été entraîné sur un cluster de 2048 GPU Nvidia H800, pour un coût total estimé à 5,576 millions de dollars, incluant le préentraînement, l’extension du contexte
et le post-entraînement. Pour rappel, le GPU H800, basé sur l’architecture Hopper, est une version dégradée du H100, spécifiquement destinée au marché chinois, en raison des restrictions d’exportation de certaines technologies de pointe imposées par les États-Unis.
DeepSeek V3 redéfinit le modèle économique de l’IA
Les implications de ce modèle open source de 6 millions de dollars vont donc au-delà de la simple équation pécuniaire. DeepSeek-V3 bouleverse le marché de l’IA générative en démocratisant l’accès à des technologies de pointe. Les acteurs traditionnels, qui entendaient asseoir leur succès sur un modèle fermé et monétisé via des abonnements ou des API payants, voient leur monopole menacé par des alternatives abordables, voire gratuites, et tout aussi performantes.De plus, on ne peut s’empêcher de penser au minutage de cette sortie, à peine une semaine après l’annonce de Stargate, le projet pharaonique du Président américain, à 500 milliards de dollars. Le lancement de DeepSeek V3 rebat les cartes en démontrant qu’il est possible d’obtenir des modèles performants à des coûts abordables. Plutôt que de s’appuyer sur une augmentation brute des ressources matérielles, DeepSeek mise sur l’optimisation algorithmique et la réduction des coûts de communication entre GPU. Cette stratégie remet en question la logique d’investissements massifs en infrastructures et pourrait inciter les grands acteurs à revoir leurs dépenses en R&D.
Peut-on alors affirmer que DeepSeek a détruit le modèle économique que les éditeurs d’IA étaient en train de bâtir à coups de milliards ? Il est encore trop tôt pour en tirer une conclusion définitive, mais les premiers signes montrent un bouleversement majeur. Si les entreprises continuent à privilégier des solutions open source aussi puissantes que les modèles propriétaires, les géants de l’IA devront s’adapter sous peine de perdre leur avantage concurrentiel. DeepSeek n’a peut-être pas encore détruit ce modèle économique, mais il l’a incontestablement fragilisé et accéléré la transition vers une ère où l’IA devient un bien commun plutôt qu’un produit exclusif réservé aux entreprises les plus riches.