DeepSeek, une entreprise chinoise spécialisée dans l’intelligence artificielle, vient de dévoiler DeepSeek-V3, un modèle de langage open source qui se positionne comme une sérieuse alternative, si ce n’est une menace, aux modèles propriétaires tels que
GPT-4o d’OpenAI et Claude 3,5 Sonnet d’Anthropic.

Outre le fait d’être plus performant que ses concurrents, DeepSeek représente un modèle économique basé sur l’open source. Une transparence qui permet aux développeurs et aux chercheurs d’accéder librement au modèle, de l’adapter et de l’améliorer selon leurs besoins. Cette ouverture favorise l’innovation collaborative et offre une flexibilité accrue pour diverses applications.

DeepSeek-V3 se distingue par son architecture MoE (Mixture of Experts) intégrant 671 milliards de paramètres, dont 37 milliards sont activés par token, optimisant ainsi l’efficacité et la performance. L’architecture MoE est une approche en apprentissage automatique qui divise un modèle d’intelligence artificielle en plusieurs sous-réseaux spécialisés, appelés « experts ». Chaque expert est formé pour exceller dans un domaine spécifique des données d’entrée. Un mécanisme détermine quels experts sont les plus pertinents à activer pour une tâche donnée. En activant uniquement les experts nécessaires pour une tâche spécifique, l’architecture MoE réduit la charge de calcul par rapport aux modèles denses traditionnels.

Une fenêtre de contexte de 128 k tokens

Formé sur un ensemble de données de 14,8 trillions de tokens, il garantit une compréhension et une génération de texte précises. Sa fenêtre de contexte élargie, avec une capacité de 128 000 tokens, permet de gérer des conversations longues et des tâches complexes sans compromettre la cohérence contextuelle. De plus, il génère jusqu’à 60 tokens par seconde, soit une amélioration de 300 % par rapport à la version précédente, DeepSeek-V2.

En termes de performances, DeepSeek-V3 affiche de meilleurs résultats que ses concurrents sur divers benchmarks. Il obtient un score de 75,9 % sur le MMLU-Pro (Exact Match), surpassant GPT-4o (72,6 %) et se rapprochant de Claude 3.5 (78 %), démontrant sa capacité à traiter des tâches de question-réponse. Sur le test MATH 500, il atteint 90,2 %, devançant Claude 3.5 (78,3 %) et GPT-4o (74,6 %), illustrant une aptitude plus avancée dans le raisonnement mathématique. De plus, sur Codeforces, il se situe au 51,6e pourcent, surpassant GPT-4o (23,6).

Une meilleure efficacité en coûts et en ressources

L’un des aspects les plus remarquables de DeepSeek-V3 est son efficacité en termes de coût et de ressources. Son développement a nécessité environ 2,788 millions d’heures GPU, pour un coût total estimé à 5,57 millions de dollars, soit une fraction des ressources généralement requises pour des modèles de cette envergure. En cela, il met à mal le discours actuel sur la cherté des modèles développés à grands frais par les concurrents, démontrant le fait qu’il est possible d’entraîner un modèle performant pour une fraction du coût déclaré par certains éditeurs. En comparaison, l’entraînement de GPT-4 est estimé à plus de 100 millions de dollars.

De plus, contrairement à des modèles fermés, DeepSeek-V3 est open source, offrant aux développeurs et aux chercheurs la possibilité de l’adapter et de l’améliorer selon leurs besoins. L’API de DeepSeek est également compatible avec les formats OpenAI, facilitant l’intégration pour les développeurs habitués à ces environnements. Les modèles propriétaires, bien que performants, présentent souvent des limitations en termes de coût et d’adaptabilité. DeepSeek-V3 répond à ces préoccupations en tant qu’alternative open source à même de rivaliser avec les leaders du marché tout en permettant une personnalisation accrue.

Au-delà des performances et du coût d’entraînement, DeepSeeker, et par extension la Chine, entre dans le marché de l’IA générative par la grande porte. L’éditeur a pris le temps de développer un modèle qui trace une voie distincte de celle des concurrents, au regard du rapport entre les coûts de développement et la performance du modèle. Il adopte une stratégie de pénétration du marché de l’IA générative qui se distingue nettement de celle de ses concurrents américains tels qu’OpenAI, Anthropic ou Google. L’approche de l’entreprise chinoise repose sur une combinaison d’innovation technologique, de différenciation stratégique et de démocratisation, avec une vision sur l’accessibilité mondiale, notamment dans les pays émergents.

Une alternative crédible et accessible

Contrairement à ses concurrents qui se sont précipités pour occuper l’espace de l’IA générative dès le début de la vague actuelle (2020-2022), DeepSeek a pris le temps de développer une proposition technologique solide. Son modèle open source repose sur une architecture avancée qui lui permet d’intégrer 671 milliards de paramètres tout en restant sobre en termes de ressources utilisées. Ce choix technique n’est pas seulement une question de performance, mais également une décision stratégique pour minimiser les coûts d’entraînement et d’exploitation du modèle.

En réduisant les coûts de développement, DeepSeek montre qu’il est possible de produire des modèles à la pointe de la technologie tout en minimisant les besoins exorbitants en puissance de calcul. Cette prouesse envoie un message clair : l’innovation en IA n’est pas réservée aux géants de la tech disposant de ressources illimitées.

DeepSeek se positionne également comme une alternative sérieuse aux modèles américains, grâce à son engagement open source. L’ouverture du code permet aux développeurs locaux d’adapter les modèles aux langues, aux cultures et aux besoins spécifiques de leur marché. Cette approche favorise la collaboration internationale, l’innovation communautaire et l’adoption par des organisations qui ne pourraient pas se permettre d’accéder aux modèles propriétaires.

Une stratégie tournée vers les pays émergents

La stratégie de DeepSeek semble particulièrement adaptée pour pénétrer les marchés des pays émergents, souvent négligés par les grands acteurs américains. Des pays où les entreprises locales et les gouvernements cherchent des solutions technologiques adaptées à leurs réalités économiques. Cette stratégie de démocratisation a déjà porté ses fruits dans d’autres domaines pour les entreprises chinoises, notamment dans les télécommunications avec Huawei ou dans le e-commerce avec Alibaba.

Le positionnement de DeepSeek est également une réponse directe au monopole technologique des entreprises américaines dans l’IA générative. En Chine, les autorités encouragent le développement de solutions locales pour réduire la dépendance aux technologies occidentales, notamment face aux restrictions imposées par les États-Unis sur les semiconducteurs et l’accès aux technologies de pointe. DeepSeek, en proposant une technologie compétitive à moindre coût, renforce l’autonomie technologique chinoise tout en affirmant une présence sur la scène internationale.

Sur le marché mondial de l’IA, l’arrivée de DeepSeek-V3 pourrait bouleverser les dynamiques actuelles du marché de l’IA générative. En remettant en question le dogme selon lequel seules les entreprises disposant de ressources colossales peuvent s’y frotter, DeepSeek ouvre la porte à une plus grande diversité d’acteurs. Cette évolution pourrait encourager une compétition plus équitable, favoriser l’innovation et, surtout, étendre les bénéfices de l’IA à des régions et des secteurs jusque-là marginalisés.