La compétition technique entre fournisseurs d’IA ne repose plus uniquement sur la taille des modèles ou l’accès à des GPU. La conception même des architectures devient un levier stratégique pour améliorer l’efficacité, la stabilité et réduire les coûts d’entraînement. DeepSeek vient de formaliser une méthodologie avec « mHC » (Manifold-Constrained Hyper-Connections), une évolution de l’architecture Transformer qui permettrait d’améliorer la stabilité de propagation des signaux et à mieux exploiter la largeur des connexions résiduelles.
Le principe est simple à énoncer, mais complexe à réaliser. Les architectures de type Hyper-Connections (HC) avaient déjà montré que l’élargissement des flux résiduels et la diversification des chemins de calcul pouvaient améliorer les performances, mais au prix d’une dégradation de la stabilité d’entraînement, avec amplification incontrôlée des signaux et risques de divergence à grande échelle. DeepSeek constate que cette perte de « conservation » du signal rend ces approches difficilement industrialisables au niveau des très grands modèles.
La proposition mHC introduit une contrainte mathématique forte pour résoudre ce problème : projeter les matrices de connexions résiduelles sur un « manifold », en pratique le polytope de Birkhoff, afin de garantir des matrices doublement stochastiques. En clair, La nouveauté de mHC consiste à imposer une règle stricte aux connexions internes du modèle pour éviter qu’elles n’amplifient ou n’écrasent trop l’information. DeepSeek force ces matrices de connexions à appartenir à un ensemble très particulier, appelé polytope de Birkhoff, dont les matrices ont toutes des valeurs positives et des lignes et colonnes qui « totalisent » exactement 1. Cela revient à garantir que l’information est redistribuée et mélangée, mais jamais déformée de façon incontrôlée.
En pratique, cela stabilise la propagation du signal dans un modèle très profond. Même après des centaines de couches, les connexions ne « dérivent » plus, ce qui évite les explosions ou disparitions de gradients et permet d’entraîner des modèles très larges de façon fiable et efficace. Autrement dit, les connexions deviennent des combinaisons de flux, ce qui limite mécaniquement les explosions ou disparitions de gradients et restaure un comportement proche de l’identité, indispensable à l’entraînement profond. Les auteurs expliquent que ce choix permet de « maintenir la stabilité du flux avant et du gradient arrière tout en conservant une capacité d’échange riche entre flux résiduels », avec des écarts d’amplification réduits de plusieurs ordres de grandeur par rapport à HC.Pensée pour l’échelle et validée sur des modèles massifs
L’étude indique que mHC a été testée sur des modèles jusqu’à 27 milliards de paramètres, avec des phases d’apprentissage longues, en montrant à la fois une meilleure stabilité des pertes d’entraînement, une dynamique de gradient plus contrôlée et des gains mesurables en performances sur des jeux de tests variés. L’approche conserve l’intérêt initial des Hyper-Connections : élargir la largeur informationnelle sans explosion parallèle des opérations en virgule flottante (FLOP), tout en corrigeant leur faiblesse structurelle majeure. Cela répond à une problématique désormais critique : comment continuer à améliorer les modèles sans uniquement augmenter la taille brute ou la consommation énergétique.
DeepSeek ne se contente pas d’une innovation théorique. La proposition intègre un volet infrastructurel complet : fusion de noyaux, optimisation mémoire, recomputation sélective et orchestration fine pour limiter le surcoût computationnel. Les auteurs revendiquent un surcoût d’entraînement limité, évalué à environ 6,7 % pour une architecture avec facteur d’élargissement × 4, ce qui reste compatible avec les contraintes industrielles et économiques de l’entraînement à grande échelle.
Selon la publication officielle et ses résultats expérimentaux détaillés, y compris ses graphiques de stabilité des gradients et ses tableaux de performances, la proposition mHC se présente comme une évolution crédible de la famille Transformer, avec un impact direct sur la compétitivité et l’industrialisation des grands modèles de langage.























