Des chercheurs de l’université Zhejiang et d’Alibaba ont mis au point un cadre baptisé Memp, destiné à doter les agents intelligents d’une mémoire procédurale dynamique. Cette innovation permet aux modèles de langage de capitaliser sur leurs expériences passées, d’éviter les redondances et d’améliorer leur efficacité dans l’exécution de tâches complexes.
Les modèles de langage ne disposent pas d’une mémoire permanente. Leur horizon se limite à la fenêtre contextuelle : un espace où s’empilent le prompt maître, le prompt principal et les instructions échangées au fil du dialogue. Une fois cette fenêtre saturée, les informations les plus anciennes sont oubliées ou résumées, ce qui provoque une perte de continuité. Dans ce schéma, chaque nouvelle tâche est traitée comme inédite, même si l’agent l’a déjà accomplie. Résultat : des explorations répétitives, des erreurs récurrentes et une consommation excessive de ressources. Cette incapacité à engranger des compétences procédurales stables constitue le frein majeur à l’efficacité des agents actuels.
Memp propose de dépasser cette limite en introduisant une mémoire procédurale externe et durable. Inspiré des sciences cognitives, le cadre organise cette mémoire autour de trois opérations : la construction (distillation de trajectoires réussies en scripts ou en pas à pas détaillés), le rappel (retrouver la procédure la plus pertinente pour une tâche analogue) et la mise à jour (corriger, oublier ou remplacer à la lumière de l’expérience). Ce cycle transforme la répétition en apprentissage cumulatif et dote l’agent d’un capital procédural réutilisable au-delà de sa fenêtre contextuelle.
Des gains mesurables en efficacité et en transférabilité
Les chercheurs démontrent que cette approche permet de constituer une bibliothèque vivante, ajustée en continu. Plutôt que de s’appuyer sur des prompts figés ou sur une mémoire entremêlée aux paramètres du modèle, Memp fait de la mémoire procédurale un objet autonome, révisable et transmissible. Cette modularité change la nature de l’entraînement et rapproche les agents d’une véritable auto-amélioration.
Les tests réalisés sur deux environnements de référence, ALFWorld (tâches domestiques multi-étapes) et TravelPlanner (planification sous contraintes), confirment l’intérêt du dispositif. Avec mémoire procédurale, les agents augmentent leur taux de réussite tout en réduisant de près de 50 % le nombre d’étapes nécessaires. Le gain est double : efficacité opérationnelle et économie de jetons. Memp introduit aussi des stratégies de mise à jour plus sophistiquées que le simple ajout de trajectoires : validation, ajustement par correction d’erreur, ou suppression dynamique des séquences obsolètes.
Un autre apport majeur tient à la transférabilité : une mémoire procédurale construite avec un modèle de pointe comme GPT-4o peut être utilisée par un modèle plus léger comme Qwen2.5-72B, avec à la clé des hausses de performance notables (jusqu’à 5 points de réussite supplémentaires sur TravelPlanner, réduction de la longueur des trajectoires). Cette capacité de migration ouvre la perspective d’un entraînement coûteux centralisé suivi d’une exécution allégée, plus accessible aux entreprises.
Vers un marché de la mémoire procédurale des agents
L’intérêt de Memp dépasse la seule recherche. Dans l’industrie, la constitution de bibliothèques de procédures apprises pourrait devenir un actif stratégique au même titre que les données. Des secteurs comme l’automatisation des processus (RPA), la gestion d’ERP ou l’assistance aux opérations IT gagneraient en fiabilité et en vitesse grâce à des agents capables d’exploiter un capital procédural accumulé. La question de la gouvernance émerge également : savoir quelles procédures retenir, comment corriger les erreurs, ou encore quand « oublier » pour rester conforme aux réglementations sur la traçabilité.
En créant les conditions d’agents auto-améliorants, Memp esquisse une étape clé dans l’évolution de l’intelligence artificielle appliquée. La mémoire procédurale pourrait bientôt devenir un marché en soi, où se négocient des scénarios prêts à l’emploi et transférables entre systèmes. Pour les entreprises, c’est la promesse d’agents plus efficaces, plus robustes et moins coûteux à opérer.