Dans une étude théorique inédite, OpenAI éclaire enfin les origines statistiques des hallucinations générées par les LLM. Celles-ci relèvent d’un compromis structurel entre exactitude, expressivité et performance aux tests standardisés, et non d’un dysfonctionnement. Ce constat remet en question la conception même des évaluations actuelles et appelle une refonte des objectifs post-entraînement.

Les modèles de langage n’inventent pas n’importe quoi : ils produisent des erreurs qui ressemblent à la vérité. Ce phénomène, qualifié d’« hallucination », mine la confiance dans les systèmes les plus avancés, de GPT-4o à Claude 3.5, en passant par les modèles open source, comme DeepSeek ou Llama. Pourtant, selon OpenAI, ces réponses erronées n’ont rien de mystérieux. Elles émergent naturellement de la manière dont les modèles sont entraînés, puis évalués. En d’autres termes, les hallucinations sont statistiquement prévisibles, voire structurellement inévitables.

L’étude, cosignée par Adam Tauman Kalai et plusieurs chercheurs d’OpenAI et de Georgia Tech, montre que les erreurs génératives relèvent du même mécanisme que les erreurs de classification en apprentissage supervisé. Produire une réponse valide revient, en pratique, à résoudre un problème binaire de type « cette chaîne est-elle correcte ou non ? ».

Des « singletons » qui brouillent les statistiques

Le hic, c’est que, même dans des jeux de données exempts d’erreurs, les objectifs d’entraînement, typiquement la minimisation de la perte d’entropie croisée, c’est-à-dire de l’écart entre ce que le modèle prédit et ce qu’il aurait dû prédire, aboutissent à des taux d’erreur incompressibles dès qu’un fait n’est présent qu’une seule fois dans le corpus.

En clair, ce phénomène repose sur un principe bien connu de l’apprentissage statistique : pour qu’un modèle apprenne à restituer un fait, il doit l’avoir vu plusieurs fois ou en avoir identifié une régularité exploitable. Or, certains faits, comme une date de naissance, un intitulé de mémoire ou une adresse précise, n’apparaissent qu’une seule fois dans le corpus d’entraînement. On parle alors de faits « singleton ». Statistiquement, un modèle ne peut pas les généraliser ni les vérifier par recoupement : il est contraint d’inférer lorsqu’il y est confronté, faute d’occurrences suffisantes. Résultat, la probabilité qu’il hallucine sur ce type de faits est proportionnelle à la part de singletons dans les données. Même dans un corpus parfait, cette part crée un plancher incompressible d’erreurs, inscrit dans l’architecture probabiliste du modèle lui-même.

Une réponse plausible, au lieu d’assumer son ignorance

Les hallucinations ne s’arrêtent pas à la phase de préentraînement. Elles persistent, voire s’accentuent, lors de la phase dite de post-entraînement, censée justement réduire les erreurs. Pourquoi ? Parce que la quasi-totalité des benchmarks utilisés pour calibrer les modèles — de MMLU à GPQA en passant par SWE-bench — fonctionnent selon une logique binaire : 1 point pour une bonne réponse, 0 pour une mauvaise… ou pour une réponse de type « je ne sais pas ».

Cette mécanique pousse les modèles à « deviner » même lorsqu’ils n’ont aucune certitude. Exactement comme un étudiant qui coche une case au hasard lors d’un QCM : mieux vaut proposer une réponse plausible que d’assumer son ignorance. Résultat, les réponses incertaines sont systématiquement pénalisées, et les réponses, fausses mais convaincantes, sont récompensées. Le modèle apprend donc à privilégier la verve à la véracité, avec un biais structurel contre l’hésitation ou l’abstention.

Des erreurs amplifiées par la rareté des faits et la pauvreté des modèles

L’étude distingue plusieurs types d’hallucinations. Certaines sont liées à des faits isolés, comme une date d’anniversaire jamais vue qu’une seule fois dans les données, d’autres à des modèles statistiques mal adaptés, comme l’incapacité à compter correctement les lettres d’un mot. Dans le premier cas, la rareté statistique rend l’apprentissage impossible : si 20 % des faits n’apparaissent qu’une fois, on s’attend mécaniquement à 20 % d’hallucinations. Dans le second, c’est la structure du modèle lui-même qui est en cause, notamment lorsque les jetons utilisés tronquent la représentation des chaînes à analyser.

D’autres facteurs jouent aussi un rôle : qualité du corpus (effet « garbage in, garbage out »), distribution différente entre apprentissage et usage réel, ou encore complexité intrinsèque de certaines tâches. L’étude démontre que ces facteurs ne sont pas contingents, mais liés à des limites bien connues de l’apprentissage statistique, telles que la dimension VC, la difficulté d’apprentissage agnostique ou les contraintes de la modélisation probabiliste.

Un changement de cap dans les évaluations devient nécessaire

La nouveauté du raisonnement des chercheurs d’OpenAI réside dans la mise en cause des méthodes d’évaluation elles-mêmes. Tant que les tests standard continueront à pénaliser l’abstention, les modèles seront incités à halluciner. Car, du point de vue du modèle, il est rationnel de proposer une réponse, même incertaine, plutôt que de s’abstenir. Autrement dit, les tests actuels n’encouragent pas la prudence : ils favorisent la tentative, quitte à générer des erreurs plausibles, c’est-à-dire des hallucinations. Pour inverser cette dynamique, il faudrait que les évaluations valorisent explicitement l’abstention lorsqu’elle est justifiée par une incertitude fondée. Pour ce faire, les auteurs proposent d’introduire des « seuils explicites de confiance » dans les consignes, à la manière des anciens examens de type SAT ou GRE : répondre uniquement si l’on est sûr à plus de 90 %, sinon s’abstenir.

Ce changement apparemment anecdotique pourrait transformer en profondeur les dynamiques de l’entraînement. Il permettrait notamment d’objectiver la calibration des modèles, en les forçant à exprimer leur incertitude lorsque c’est justifié. Au lieu de traquer les hallucinations via des benchmarks spécialisés peu utilisés, l’idée est de modifier les évaluations existantes, largement diffusées, pour y intégrer une pondération de l’erreur et une valorisation du doute raisonné.

Vers des modèles plus fiables, mais moins flamboyants ?

Ce plaidoyer pour une « calibration comportementale », dans lequel le modèle apprend à taire ce qu’il ne sait pas, ouvre un débat plus large sur la gouvernabilité des IA génératives. Faut-il continuer à privilégier la fluidité et la complétude, au prix d’un risque accru d’erreurs ? Ou bien faut-il, à l’inverse, valoriser la prudence et l’hésitation, quitte à rendre les modèles moins loquaces, voire moins attrayants à l’usage ?

OpenAI, en repositionnant la question des hallucinations comme une conséquence rationnelle du cadre statistique et sociotechnique actuel, invite à un réexamen collectif des objectifs de l’IA. À notre époque, où la véracité devient un bien rare, l’enjeu n’est plus de faire parler les machines, mais de leur apprendre à se taire à bon escient.