Développée par des chercheurs du MIT, une nouvelle méthode d’apprentissage par renforcement serait capable de planifier automatiquement les opérations de traitement des données sur des milliers de serveurs. Cette solution pourrait optimiser le fonctionnement des datacenters tout en réduisant leur consommation électrique. En un mot, plus de traitements, mais moins d’énergie nécessaire.
Un seul datacenter consomme autant d’électricité (la climatisation représentant 40 % de cette consommation) que 30 000 habitants européens. Or, ces énormes entrepôts pourraient avoir besoin de plus de 100 TWh d’électricité par an d’ici 2020, selon un rapport publié à Berkeley en 2016. C’est l’équivalent d’une dizaine de grandes centrales nucléaires.
Google et Apple, notamment, multiplient les datacenters alimentés en énergies renouvelables ou localisés dans les pays nordiques, afin de profiter de l’air frais pour refroidir les ordinateurs et ainsi minimiser l’utilisation de la climatisation.
Une autre mesure permettrait de réduire leur impact : une technique d’apprentissage permettant d’optimiser le traitement des données. Actuellement, des algorithmes de planification de cluster répartissent les tâches entre les serveurs, en temps réel, pour utiliser efficacement toutes les ressources informatiques disponibles et les accomplir le plus rapidement possible.
Reinforcement Learning
Généralement, les tâches de traitement de données sont présentées sous forme de graphiques de « nœuds » et de « bords ». Chaque « nœud » représente une tâche de calcul qui doit être effectuée. Et plus le « nœud » est grand, plus la puissance de calcul nécessaire est importante. Les bords reliant les nœuds relient les tâches connectées entre elles.
Des chercheurs du MIT (du Département de génie électrique et informatique) ont développé un planificateur appelé Decima. Leur système qui tire parti de l'apprentissage par renforcement (ou Reinforcement Learning).
Le RL fait référence à une classe de problèmes d’apprentissage automatique, dont le but est d’apprendre, à partir d’expériences successives, ce qu’il convient de faire de façon à trouver la meilleure solution.
Cette méthode diffère fondamentalement des problèmes supervisés et non supervisés par ce côté interactif et itératif : l’agent essaie plusieurs solutions (on parle « d’exploration »), observe la réaction de l’environnement et adapte son comportement (les variables) pour trouver la meilleure stratégie (il « exploite » le résultat de ses explorations).
C’est donc une technique d'apprentissage par essais et erreurs visant à adapter les décisions d'ordonnancement à des charges de travail spécifiques dans des groupes de serveurs spécifiques.
Une augmentation de la vitesse de 21 %
Les chercheurs du MIT ont mis au point de nouvelles techniques RL qui permettent de s'entraîner sur des charges de travail complexes. Au cours de la « formation », le système essaie de nombreuses options pour répartir au mieux les charges de travail entrantes entre les serveurs.
Ce procédé finit par trouver un compromis optimal entre l'utilisation des ressources de calcul et les vitesses de traitement rapides. Aucune intervention humaine n'est requise au-delà d'une simple instruction, telle que « réduire au minimum le temps de réalisation du travail ».
Comparé aux meilleurs algorithmes d'ordonnancement écrits à la main, le système des chercheurs serait plus rapide. Sur un cluster de 25 nœuds, Decima améliore le temps moyen d'exécution des tâches d'au moins 21 % par rapport à l'heuristique d'ordonnancement réglée à la main.
Il s’agirait donc d’une évolution des systèmes RL traditionnels qui reposent sur un « agent » logiciel qui prend les décisions et reçoit un signal de retour comme récompense.
Pour construire leur planificateur basé sur RL, les chercheurs ont dû mettre au point un modèle capable de traiter des tâches structurées sous forme de graphiques et d'évoluer vers un grand nombre de tâches et de serveurs.
L'« agent » de leur système est un algorithme d'ordonnancement qui exploite un réseau neuronal graphique adapté à la planification, c’est-à-dire capable d’estimer rapidement la quantité de calcul nécessaire. Leur agent continue d'améliorer ses décisions jusqu'à ce qu'il obtienne la récompense la plus élevée possible.
Source : MIT