Les deux entreprises affirment que leur modèle de génération de langage naturel Megatron-Turing (MT-NLG) est le "modèle de langage transformateur monolithique le plus puissant formé à ce jour". Mais il souffre encore de biais.

Les deux entreprises ont développé un modèle de génération de langage naturel Megatron-Turing (MT-NLG), alimenté par DeepSpeed et Megatron, le plus puissant modèle de langage transformateur monolithique entraîné à ce jour, avec 530 milliards de paramètres.

À titre de comparaison, le très prisé GPT-3 d'OpenAI compte 175 milliards de paramètres. MT-NLG vise à faire progresser l'état de l'art de l'IA pour la génération du langage naturel dans différents domaines :

  • La prédiction d'achèvement
  • La compréhension de la lecture
  • Raisonnement de bon sens
  • Déductions en langage naturel
  • Désambiguïsation du sens des mots

Les deux entreprises ont entraîné leur modèle sur 15 ensembles de données comprenant un total de 339 milliards de tokens. Différents poids d'échantillonnage ont été attribués à chaque ensemble de données afin de mettre en évidence celles qui sont de meilleure qualité.

Le jeu de données OpenWebText2, qui comprend 14,8 milliards de tokens, a reçu le poids d'échantillonnage le plus élevé, soit 19,3 %. Vient ensuite le CC-2021-04, qui comprend 82,6 milliards de tokens, soit la plus grande quantité de tous les ensembles de données, avec un poids de 15,7 %. Enfin, Books 3, un ensemble de données contenant 25,7 milliards de jetons, complète le trio de tête avec une pondération de 14,3 %.

Cependant, malgré la forte augmentation des paramètres, MT-NLG a souffert des mêmes problèmes que ses prédécesseurs. "Si les modèles de langage géants font progresser l'état de l'art en matière de génération de langage, ils souffrent également de problèmes tels que le biais et la toxicité", expliquent les entreprises.

« La compréhension et l'élimination de ces problèmes dans les modèles de langage font l'objet de recherches actives de la part de la communauté de l'IA, notamment chez Microsoft et NVIDIA », ont indiqué les deux entreprises.