DeepMind de Google se révèle chaque jour plus ‘intelligent’. Comment ? Aujourd'hui c'est avec IMPALA, une technologie de transfer learning !
DeepMind, c’est la startup britannique spécialisée dans l’Intelligence Artificielle (IA) créée en 2010 et rachetée 628 millions de dollars par Google en 2014.
DeepMind est en particulier à l’origine d’AlphaZero, un programme qui pratique l'apprentissage par renforcement. Cette variante d'AlphaGo (le champion du jeu de Go) s’est faite connaitre récemment en partant de zéro et en ne mettant que 4 heures pour ingérer les règles de base des jeux d’échec, de go et de shogi (échecs japonais) pour vaincre le meilleur programme de jeux d'échecs.
Comment un tel exploit a-t-il été rendu possible ?
DeepMind intègre aujourd’hui une technique d’apprentissage, le transfer learning, qui repose sur l’utilisation des connaissances acquises lors de la résolution d’une tâche afin de résoudre une autre tâche. A chaque résolution, DeepMind augmente son échantillon et donc son efficacité.
Cette approche innovante a été rendue possible par une technique, IMPALA (Importance Weighted Actor-Learner Architecture), qui adresse des agents, chacun formé d’une multitude de sous-agents déployés en parallèle sur des milliers de machines, qui transmettent leurs expériences (séquences d'états, d'actions et de récompenses) à un apprenant centralisé qui utilise les GPU (composants graphiques en architecture multi-parallèle) pour traiter les idées (insights) qui sont renvoyées aux agents.
En arrière-plan, IMPALA réalise des tâches ‘intelligentes’ en normalisant, via un nouvel algorithme de correction hors politique appelé V-trace, l'apprentissage des agents individuels et du méta-agent pour éviter la décohérence temporelle. Le résultat est un algorithme qui peut être beaucoup plus efficace et performant que les algorithmes RL traditionnels comme A2C.
Encore du chemin à parcourir...
IMPALA peut atteindre 250.000 trames par seconde grâce à la mise en œuvre distribuée à grande échelle de ses agents. De tels systèmes peuvent atteindre un débit de 21 milliards de trames par jour ! Soit concrètement la capacité non plus d’effectuer des calculs, mais d’exploiter de vastes domaines de calculs en utilisant des ressources de manière plus efficace et sans sacrifier l’efficacité des données. Ce qui se traduit par de meilleures performances avec moins de données.
Toutefois, si l’intelligence d’IMPALA repose sur le transfert d’apprentissage de milliers d’agents, ce qui explique ses capacités d’apprentissage exceptionnelles, nous sommes encore loin des capacités humaines. Au test des données Atari-57, Impala atteint 59,7 % de la performance humaine. Il reste encore du chemin à parcourir avant que l’IA de DeepMind ne nous remplace, mais ses auteurs avancent rapidement...