Une étude du Data Mining and Machine Learning Lab (Université de l’État d’Arizona) montre les limites des LLM. Une autre publication, celle d’Apple sur les LRM plus évolués, démontre un effondrement complet de la précision au-delà d'une certaine complexité.

Les études concernant les limites des LLM ne sont pas légion. C’est pourquoi ces deux documents de recherche recèlent beaucoup d’intérêt. De leur côté, les LRM sont censés résoudre des problèmes complexes (plan de soins, etc.) avec des techniques de raisonnement structuré mais ils comportent aussi des biais et des limites.

Forte d’une démarche scientifique rigoureuse, l’étude du Laboratoire de data mining et d'apprentissage automatique de l’université de l’Arizona s’intitule « Le raisonnement en chaîne de pensées des LLM est-il un mirage ? ». Bien loin par conséquent des promesses mirifiques des leaders de l’IA Générative (IAGen) Open AI, Anthropic, Deepseek
ou Microsoft.

Selon l’étude, les LLM savent produire du texte fluide et structuré, mais elles échouent dès que les questions s’écartent, même faiblement, des modèles courants trouvés dans les données d'entraînement. Le laboratoire a examiné attentivement le raisonnement CoT (chain-of-thoughs) des LLM à travers le prisme de la distribution des données. En bref, CoT est une méthode qui aide l’IA à réfléchir étape par étape pour résoudre un problème complexe. L’étude a exploré trois principales dimensions : la structure de la tâche, la longueur du raisonnement et le format de la requête. Les observations du laboratoire universitaire révèlent la fragilité et la superficialité inhérentes aux capacités actuelles de raisonnement CoT.

Les LLM construisent des chaînes logiques superficielles basées sur des associations de tokens (jetons) apprises. Mais ils échouent souvent dans des tâches qui s'écartent des heuristiques permettant d'aboutir en un temps limité à des solutions acceptables.

Les LRM connaissent aussi de sérieuses limites

Pour rappel, les LRM (Large Reasoning Models sont des LLM conçus pour mener des raisonnements complexes en exploitant la méthode CoT. Il s’agit des versions o3 OpenAI, une variante évoluée de GPT, de Gemini Thinking avec raisonnement LRM, de Sonnet-Thinking 3.7 de Claude ou encore de DeepSeek-R1 DeepSeek.

Apple a publié l’étude Illusion of Thinking pour comprendre les points forts et les limites des modèles de raisonnement CoT. Au lieu d’évaluer la précision de la réponse finale, Apple a examiné aussi la manière dont les LRM « pensent ». L’étude démontre que ces modèles sophistiqués d’IAGen font face à un effondrement complet de la précision au-delà d'une certaine complexité. Et cela, quel que soit le volume des tokens utilisés. Plus précisément, les LRM ne parviennent pas à utiliser des algorithmes explicites et raisonnent de manière incohérente à partir des énigmes soumises par Apple dans son étude.

Dans la publication d’Apple les LRM o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking ne parviennent pas toujours à développer des capacités de résolution de problèmes généralisables à d’autres cas d’usage, leur précision finissant par s'effondrer à zéro au-delà d'un certain niveau de complexité dans différents environnements.

Ces études sur les IAGen les plus répandues ne nourrissent pas encore un consensus, base de tout travail de recherche scientifique. Elles démontrent néanmoins que les LLM et singulièrement leurs modèles plus évolués LRM, rencontrent des difficultés sur leur fiabilité et la pertinence des résultats. Dans tous les cas, il faut les encadrer et éviter la prise de décision sans recul fondée sur des réponses d’IAGen basées sur une imitation approximative de la pensée humaine.