Mots clés Reward hacking
Mot clé: reward hacking
Quand l’IA apprend à tricher, faille critique ou outil de résilience ?
L’étude « From Shortcuts to Sabotage » publiée par Anthropic met en lumière une propriété paradoxale des modèles d’IA. Ces derniers tendent naturellement à...














