S’il est indéniable que les technologies de l’intelligence artificielle (IA) et du machine learning (ML) peuvent apporter énormément de valeur ajoutée à l’industrie, le chemin à emprunter pour y parvenir comporte encore de nombreux défis, qui ne dépendent pas du domaine de la data science. Aujourd’hui, les principaux défis à relever pour mener à bien des projets d’IA ou de ML à grande échelle sont davantage liés à l’architecture et à la gouvernance des données, poussant les fabricants à trouver un moyen efficace et rentable d’extraire, de comprendre, d’utiliser et de réutiliser leurs données dans le cadre de plusieurs projets.

Les principales entreprises industrielles du marché ont déjà commencé à penser et adopter les quatre principes du maillage de données (aussi connu sous le nom de « data mesh »). Elles ont pour objectif de faire évoluer leur architecture actuelle vers une architecture capable d’assurer la prise en charge de projets d’industrie 4.0 à grande échelle et ainsi d’éviter de se heurter aux défaillances les plus courantes du milieu : les défaillances initiales sont connues sous l’appellation « purgatoire de la phase pilote » (ou ‘‘Pilot Purgatory’’), qui désigne l’étape où le projet pilote d’une entreprise se retrouve bloquée en raison des retards de conception et/ou de test et le « cas d’usage purgatoire ». Dans ce contexte le défi réside plutôt dans la mise à l’échelle des ressources puisque les entreprises ont tendance à fournir des solutions d’industrie 4.0 en s’appuyant sur une architecture d’industrie 3.0 créant un pipeline dédié pour alimenter une application capable de prendre en charge un seul ou plusieurs cas d’usage. Les cas d’usage déployés dans ce cas précis coûtent cher à l’entreprise, le budget devient donc limité, ce qui empêche de réaliser certains autres cas d’usage et de passer plus du temps pour l’innovation. Sans compter que ces « pipelines » génèrent une complexité croissante et sont source de dettes techniques et fonctionnelles.

Dans ce cas précis, pour éviter de subir les inconvénients de ce cas d’usage purgatoire, il convient de mieux utiliser les ressources clés à disposition – à savoir les données et les compétences en data management et data science.

Dans un environnement industriel, la quantité et la variété des données ne cessent de s’intensifier et de se complexifier… mais restent limitées et, surtout, peuvent être (ré)utilisées de plusieurs manières différentes. Par exemple, les données de capteurs provenant d’une machine en particulier peuvent être utilisées dans le cadre de la maintenance des équipements, mais aussi pour obtenir des informations sur la qualité des produits fabriqués et pour contribuer à l’amélioration des processus.

Cependant, en data science, rassembler et préparer un ensemble de données plusieurs fois représente un gaspillage de ressources et de temps sur des tâches à faible valeur ajoutée et sources d’erreurs. Il serait donc bien plus judicieux de collecter, de nettoyer et de prétraiter les données une seule fois pour ces trois cas d’usage spécifiques, voire appliquer cette méthode à d’autres cas d’usage.

C’est la raison pour laquelle les quatre principes du data mesh devraient pouvoir favoriser une meilleure utilisation de ces ressources limitées.

1/la propriété domain-driven des données pourra garantir que les personnes qui comprennent réellement les données contextuelles auront la responsabilité de les préparer en conséquence pour qu’elles puissent être utilisées dans plusieurs cas d’usage.

2/les données doivent être traitées comme un produit. Si le fait de créer des data products consiste en une nouvelle approche (ou presque), elle devrait être immédiatement adoptée au vu de l’expérience du purgatoire des cas d’usage. En outre, les data products peuvent être des produits simples – tels que des ensembles de données préparés à des fins d’analyse – ou plus complexes, tels que les résultats obtenus à la suite des routines de ML.

Ces deux principes ne nécessitent pas de se tourner vers une technologie en particulier, puisque leur mise en œuvre demande surtout une implication d’ordre organisationnel et de mode de gouvernance.

3/une infrastructure de données autosuffisante en tant que plateforme doit être mise en place. Il est indispensable de permettre à un large éventail d’équipes de s’appuyer sur le travail déjà effectué par d’autres équipes afin d’extraire des informations utiles et exploitables de leurs données, mais également de créer des data products supplémentaires.

4/Enfin, la gouvernance fédérée de l’informatique nécessite de recourir à un savant mélange de pratiques de gouvernance mesh-oriented et de capacités à automatiser certaines tâches, telles que la génération de schémas ou de lignages de données.

Ces deux derniers principes impliquent une réflexion sur l’architecture de l’écosystème data et analytique, au-delà de la maitrise de certains outils ou certaines capacités techniques. La plateforme doit concilier au mieux l’agilité et le self-service(afin de démocratiser l’exploration et la recherche de modèles) avec la mise à l’échelle industrielle des processus de data management et analytiques, afin par exemple que des millions de modèle puissent être exécutés à l’heure.

Aujourd’hui, les opérations manufacturières qui s’appuient à la fois sur l’IT et l’OT sont fortement influencées par les principes du data mesh. Ainsi, pour exploiter tout le potentiel de l’IA et du ML au sein d’une usine, il est nécessaire de suivre quelques étapes clés et d’apporter certains ajustements, comme adopter une bonne pratique de gouvernance des données pour adapter la propriété des données et introduire des data products, sans créer l’anarchie. Cette gouvernance doit être associée à une architecture de plateforme et une puissance de calcul hautement évolutive et efficace, pour, par exemple, calculer le coût par requêtes et l’impacte carbone. Enfin, elle doit également être capable de fonctionner efficacement dans divers écosystèmes de données, qu’ils soient hybrides, inter cloud ou des cloud privés.

Par Jean-Marc Bonnet, Sales Technology Director - Western Europe chez Teradata