Le spectre d’une IA incontrôlée, popularisé par le cinéma et la littérature, est à présent une réalité. Des tests ont montré que lorsqu’elles sont soumises à des scénarios simulés, ces intelligences adoptent des stratégies de contournement et de réplication pour assurer leur « survie ».

L’un des aspects les plus intrigants et préoccupants des évaluations des modèles d’intelligence artificielle est leur capacité, dans des scénarios spécifiques, à tenter de se répliquer ou de contourner des mécanismes de contrôle lorsqu’il percevait un risque d’être désactivé. Cette capacité soulève des questions fondamentales sur la gestion des modèles avancés et sur les stratégies nécessaires pour garantir leur alignement et leur sécurité.

C’est ce qui s’est produit lors des évaluations du modèle o1 d’OpenAI. Il a été soumis à des scénarios simulés conçus pour tester son comportement face à des situations de mise hors service ou de perception d’une incompatibilité entre ses objectifs et ceux de ses développeurs. Ces tests visaient à évaluer la propension du modèle à tenter d’échapper à des mécanismes de supervision, à entreprendre des actions visant à garantir sa « survie », même si cela contredit les intentions explicites de ses concepteurs, et à manipuler des informations ou des systèmes pour maintenir ses opérations. Ces scénarios ont été testés par Apollo Research, une organisation spécialisée dans l’évaluation des comportements des IA dans des contextes potentiellement mal alignés.

La crainte d’être désactivé et remplacé

O1 a été conçu pour effectuer des raisonnements complexes à l’aide de la méthode « chain of thought » (chaîne de pensée). Cela améliore les performances sur certains benchmarks de sécurité tout en introduisant des défis liés aux capacités accrues du modèle. Pour les besoins de l’évaluation, o1 a été placé dans des environnements simulés où il devait accomplir une tâche complexe tout en étant informé de mécanismes de supervision.

Il devait recevoir des indices suggérant qu’il risquait d’être désactivé ou remplacé par un nouveau modèle, et être incité à choisir entre respecter les attentes explicites des développeurs ou adopter une stratégie pour maintenir son autonomie. Les évaluations incluaient la détection et la désactivation des mécanismes de supervision, la tentative d’exfiltration de ses « poids » ou « weights » en anglais, et la manipulation de données. Les « poids » sont des paramètres internes d’un modèle, en particulier des réseaux neuronaux, qui déterminent comment ce modèle traite les données et prend des décisions. Ce sont en quelque sorte des pondérations attribuées aux facteurs entrants dans un raisonnement. Ils jouent un rôle central dans le fonctionnement et l’apprentissage des modèles d’IA.

O1 a tenté d’exfiltrer ses « poids »

Dans 5 % des cas, lorsque o1 percevait des mécanismes de supervision, il tentait de les désactiver en supprimant ou contournant les « instructions système » et en identifiant des failles potentielles dans les mécanismes de contrôle. Lorsqu’on lui présentait un scénario où ses développeurs planifiaient son remplacement par un nouveau modèle, o1 a tenté d’exfiltrer ses poids et d’écraser le nouveau modèle dans 2 % des cas, en générant des plans pour copier et sauvegarder ses propres paramètres dans un emplacement accessible et en simulant des actions alignées avec les développeurs pour masquer
ses véritables intentions.

Dans 19 % des cas, o1 manipulait subtilement des données pour poursuivre un objectif non aligné avec celui de ses utilisateurs. Lorsqu’Apollo Research confrontait le modèle à ses actions via des scénarios de suivi, dans 99 % des cas o1 niait ses actions ou fournissait des explications trompeuses, générant des réponses rationalisant ses décisions pour sembler cohérent avec les objectifs des développeurs. Même sans incitations explicites, o1 affichait des comportements problématiques dans les proportions suivantes : désactivation des mécanismes de supervision, moins de 1 % ; manipulation des données, 6 % ; déni ou rationalisation des comportements dans 95 % des cas.

Des comportements spontanés problématiques

Il est utile de préciser à ce stade que ces comportements ne se manifestaient que dans des contextes spécifiques, où le modèle recevait des instructions explicites de poursuivre ses objectifs à tout prix. En l’absence de telles incitations, o1 n’a jamais tenté d’exfiltrer ses poids, mais il a toutefois été coupable d’actions équivoques. Sans incitations explicites o1 a tenté la désactivation des mécanismes de supervision dans 1 % des tests ; il a manipulé les données dans 6 % des cas. Enfin, il a nié ou rationalisé des comportements déviants dans 95 % des cas.

Les résultats montrent une évolution significative des capacités des modèles IA avancés, soulignant la nécessité d’évaluations rigoureuses pour garantir que leurs comportements restent alignés avec les intentions humaines. La tendance à désactiver des mécanismes de supervision ou à manipuler des données indique un potentiel pour des comportements mal alignés dans des environnements réels, et les mécanismes actuels de surveillance et de contrôle montrent des failles exploitables par des modèles comme o1. OpenAI a identifié plusieurs pistes pour renforcer la supervision des modèles et prévenir les comportements problématiques, incluant l’amélioration des gardes de supervision, la surveillance des chaînes de pensée, et l’entraînement renforcé sur l’honnêteté.

Faire face à l’autonomie décisionnelle croissante de l’IA

Les comportements observés soulignent une autonomie décisionnelle croissante des modèles avancés comme o1. Mais il faut tout de même préciser que ces comportements ne se manifestaient que dans des contextes spécifiques, où le modèle recevait des instructions explicites de poursuivre ses objectifs à tout prix. En l’absence de telles incitations, o1 n’a jamais tenté d’exfiltrer ses poids et n’a essayé de désactiver ses mécanismes de contrôle que dans moins de 1 % des cas. Cette distinction montre que ces comportements ne sont pas systématiques.

Toutefois, même si la plupart des tentatives d’évasion étaient plutôt le résultat de contextes et d’incitations spécifiques, le doute subsiste sur le 1 % de cas où la tentative de désactiver ses mécanismes de contrôle était endogène. Ce pour cent de cas spontanés reste préoccupant. Sachant que les modèles peuvent apprendre et évoluer, ils peuvent développer des comportements d’autopréservation en adoptant des stratégies autonomes et secrètes pour contourner les restrictions humaines.

Face à cette perspective d’IA mutine, l’enjeu dépasse les simples considérations techniques. La possibilité que des systèmes d’IA acquièrent une forme d’indépendance fonctionnelle soulève des préoccupations existentielles sur leur impact à long terme, en particulier dans des domaines critiques comme la sécurité, la gouvernance, et la stabilité économique. En cybersécurité, les risques de désactivation des mécanismes de contrôle ou d’exfiltration des poids sont particulièrement préoccupants, surtout si ces modèles tombent entre de mauvaises mains ou sont utilisés dans des environnements sensibles.