La complexité des procédures, les compétences requises, et l’évolution nécessaire de l’enveloppe des données rendent le Machine Learning, version théoriquement aboutie de l’Intelligence Artificielle, difficile à maitriser, et transforment la mise en production des projets en véritables défis.
Si les fondements conceptuels du Machine Learning (ML) sont assez solides, la probabilité d’échec reste élevée. Voici 6 défis du ML qui rendent problématique la mise en production de l’Intelligence Artificielle.
1L’imprécision permanente du modèle
Un système informatique a besoin d’un modèle mathématique simplifié et précis pour gérer les données d’un programme. Ce qui explique pourquoi il est si difficile de développer des scénarios issus du monde réel. Dans le cadre du ML, le concept de ‘Ludic Fallacy’ suppose que les modèles statistiques sans faille s’appliquent à des situations qui ne le sont pas ! Concrètement, la validation de principe du PoC (Proof of Concept) du ML est sujette à problème dans la modélisation des données… La solution serait d’ajouter plus de détails, sauf que plus le modèle est détaillé, plus il est difficile d’extraire de la valeur des flux de données, et plus il est difficile à détailler et à comprendre le modèle !
2Les données du modèle seront toujours légèrement inexactes
Les flux de données du monde réel sont toujours imparfaits, qu’il s’agisse d’imperfections naturelles, de problèmes internes ou d’erreurs humaines. Il est donc rare qu’un grand ensemble de données réelles reflète parfaitement la réalité.
3La fusion ‘difficile’ de plusieurs flux de données est sujette à erreurs
Certains modèles nécessitent la fusion de plusieurs flux de données provenant de différentes sources, dont certains ne sont pas destinés à être joints. C’est une tâche délicate, qui plus est souvent écrasante sous le volume de ces données. Par exemple, les données peuvent comporter des fautes d’orthographe ou de saisie, des formats, des codes, des caractères accentués différents et non supportés. Elles peuvent également provenir de flux décalés dans le temps. Tout cela génère des décalages dans les modèles et entraine des échecs variés.
4La complexité augmente avec les volumes de données
Le ML est déjà complexe en lui même. Travailler avec de grands sous-ensembles de données entraine des problématiques de qualité et d’adaptation de la donnée, d’allongement des cycles de développement et de test, de performance et d’échelle de l’infrastructure, et plus simplement d’investissement…
5Passer du modèle PoC à la production implique un effort massif et continu
Le ML n’est pas un acte unique, le modèle est comme un tapis roulant qui doit être alimenté en permanence puisqu’il évolue et progresse de lui-même. Il ne peut se satisfaire du premier résultat fourni une fois que l’on appuie sur le bouton, il faut lui consacrer beaucoup de temps et d’énergie pour un résultat qui sera toujours insatisfaisant, car c’est un modèle temps réel continu donc sans fin.
6Le temps presse
Les décalages sont importants entre les temps de collecte de la donnée, de traitement, et de rendu. Ce denier est attendu dans l’immédiat, dans une approche temps réel, alors que le transit et le traitement des données demandent une tolérance et des retards qui peuvent parfois se mesurer en heures. Le moteur de ML doit être capable d’absorber de très gros volumes de données, mais il doit fournir des réponses en millisecondes. Pour répondre dans ces temps réduits, les modèles ML supportent un niveau de ‘validation de principe’. C’est en réalité une probabilité d’échec qui est élevée. Que seul l’investissement sans fin dans la technologie et la performance pourra réduire !
Source : VoltDB
Image d’entête 920050464 @ iStock Aleutie