C’est l’une des annonces majeures de Spark+AI Summit 2020, l’événement annuel, virtualisé cette année, de Dtatabricks : le projet MLflow, la plateforme d’apprentissage automatique open source et collaborative, rejoint la Fondation Linux. L’annonce a été faite par Matei Zaharia, le créateur d'Apache Spark et de MLflow, qui a partagé la nouvelle avec la communauté data lors de son allocution.
Depuis son introduction à la conférence Spark+AI Summit il y a deux ans, MLflow a connu un engagement communautaire de la part de plus de 200 contributeurs et compte plus de 2 millions de téléchargements par mois, soit un taux de croissance annuel multiplié par 4. En mettant MLflow dans le domaine de gouvernance ouvert de la Fondation, Databricks entend étendre encore davantage l'adoption et les contributions au projet MLflow.
« L'augmentation constante de l'engagement communautaire montre la volonté des équipes data à construire la plateforme de machine learning du futur. Le taux d'adoption démontre la nécessité d'une approche open source pour standardiser le cycle de vie du machine learning », déclare Michael Dolan, vice-président des programmes stratégiques de la Fondation. « Notre expérience de travail avec les plus grands projets open source au niveau mondial montre qu'un modèle de gouvernance ouvert permet une innovation et une adoption plus rapides grâce à une large contribution de l'industrie et une recherche de consensus ».
Databricks a créé MLflow en réponse au processus compliqué de développement des modèles de ML. Traditionnellement, le processus de conception, formation, réglage, déploiement et gestion des modèles de ML était extrêmement difficile pour les data scientistes et les développeurs. Contrairement au développement traditionnel de logiciels qui ne concerne que les versions de code, les modèles ML doivent également suivre les versions des jeux de données, des paramètres des modèles et des algorithmes, ce qui crée un ensemble de variables exponentiellement plus important à suivre et à gérer.
En outre, le ML est très itératif et repose sur une étroite collaboration entre les équipes data et les équipes chargées des applications. MLflow permet d'éviter que ce processus ne devienne trop lourd en fournissant une plateforme pour gérer le cycle de développement du ML de bout en bout, de la préparation des données au déploiement en production, en passant par le suivi des expériences, le packaging du code en suites reproductibles, le partage des modèles et la collaboration.