Un peu moins de deux ans après la sortie de la version trois du modèle de langage à la base de ChatGPT, OpenAI annonce la sortie de la version quatre, GPT-4.
La nouvelle version est multimodale, elle accepte les images et les textes en entrée et produit des réponses écrites qui, « bien que moins performantes que les humains dans de nombreux scénarios réels, affichent des performances de niveau humain sur divers critères de référence professionnels et académiques », affirme OpenAI. L’éditeur met à disposition la capacité de saisie de texte de GPT-4 via ChatGPT Plus pour les inscrits et via l’API
(avec une liste d’attente).

Un modèle de langage multimodal est un type de modèle de langage capable de traiter et de générer du texte, de la parole et d’autres types de données telles que des images, des vidéos et d’autres formes d’informations sensorielles. Ces modèles combinent des techniques de traitement du langage naturel (NLP) avec des techniques de vision par ordinateur et d’autres techniques d’apprentissage automatique pour analyser et générer des réponses à des entrées comprenant à la fois du texte et des informations visuelles ou audio.  

Améliorer la compréhension et réduire les erreurs

S’appuyant sur les retours d’expérience de ChatGPT (version GPT-3.5), l’éditeur s’est efforcé d’améliorer la « compréhension » et le « raisonnement » en reconstruisant l’ensemble de la pile d’apprentissage profond. Il s’agit d’améliorer les performances du modèle pour lui permettre de « comprendre » et de générer des textes en langage naturel, en particulier dans des scénarios plus complexes et nuancés.

Au cours des deux dernières années, OpenAI a reconstruit l’ensemble de la pile d’apprentissage profond, parallèlement au développement d’un supercalculateur en collaboration avec Azure pour supporter la charge de travail. D’ailleurs, Microsoft vient d’annoncer l’intégration de GPT-4 dans son moteur de recherche Bing. En fait, la version de GPT-4 personnalisée pour la recherche est active dans Bing depuis cinq semaines. « Si vous avez utilisé le nouvel aperçu de Bing au cours des cinq dernières semaines, vous avez déjà fait l’expérience d’une première version de ce puissant modèle, explique Microsoft. Au fur et à mesure que l’OpenAI apporte des mises à jour à GPT-4 et au-delà, Bing bénéficie de ces améliorations. Avec nos propres mises à jour, basées sur les commentaires de la communauté, vous pouvez être assuré que vous disposez des fonctions de copilotage les plus complètes qui soient ».  

Dirigeabilité pour prescrire un style

Parmi les nouveautés, OpenAi a essayé de gommer certains aspects monotones de la
« personnalité de son modèle en travaillant sur la dirigeabilité ou steerability en anglais. Plutôt que la personnalité » classique de ChatGPT version GPT3.5 avec une verbosité, un ton et un style uniforme et peu avenant, les développeurs (et bientôt les utilisateurs de ChatGPT) peuvent maintenant prescrire le style et la tâche de leur IA en décrivant ces directions dans le message « système ». Ces derniers permettent aux utilisateurs de l’API de personnaliser de manière significative l’expérience de leurs utilisateurs dans certaines limites. « Nous continuerons à apporter des améliorations dans ce domaine (et nous savons en particulier que les messages système sont le moyen le plus facile de “briser la prison” du modèle actuel, c’est-à-dire que le respect des limites n’est pas parfait), mais nous vous encourageons à l’essayer et à nous faire savoir ce que vous en pensez ».

La dirigeabilité est particulièrement importante dans les applications où le résultat d’un modèle doit répondre à certaines exigences ou contraintes, comme la génération d’un texte exempt de biais ou la génération d’images qui correspondent à un style ou à une esthétique spécifique. La dirigeabilité peut également être utilisée pour affiner un modèle en vue d’une tâche spécifique, ou pour déboguer et comprendre le fonctionnement d’un modèle.  

Il « hallucine » encore

Toutefois, malgré ses nouvelles capacités, GPT-4 présente les mêmes limites que les modèles GPT antérieurs. Plus important encore, « il n’est toujours pas totalement fiable
(il “hallucine” des faits et commet des erreurs de raisonnement), prévient OpenAI. Il convient d’être très prudent lors de l’utilisation des résultats d’un modèle linguistique, en particulier dans les contextes à fort enjeu, et de veiller à ce que le protocole exact (comme l’examen humain, l’ancrage avec un contexte supplémentaire ou l’évitement total des utilisations à fort enjeu) corresponde aux besoins d’un cas d’utilisation spécifique »
.