En créant de nouvelles opportunités et en stimulant l'innovation dans tous les secteurs, l'intelligence artificielle (IA) a changé la donne pour les entreprises. Pourtant, même les systèmes d'IA les plus avancés ne sont efficaces que dans la mesure où ils s'appuient sur des données de qualité. Selon une récente étude, 61 % des décideurs français n’ont pas été en mesure de convertir en production ne serait-ce que la moitié de leurs pilotes d’IA générative.

En effet, de mauvaises pratiques en matière de données peuvent conduire à des résultats peu fiables, des erreurs coûteuses et même une atteinte à la réputation. Dans un monde axé sur les données, il est plus important que jamais d'éviter ces pièges. Examinons sept obstacles qui peuvent faire dérailler les projets d'IA.

1. Manque de précision des données, ou le risque de laisser place à la désinformation

Les données inexactes guident les systèmes d'IA dans la mauvaise direction, faussant compréhension et prise de décision. Lors de la phase d’apprentissage, des données de mauvaise qualité vont gangrener la logique même du modèle. Lors de l’opérationnalisation, l’inexactitude des données d’entrée pénalisera la réponse. C’est d’autant plus vrai avec l’utilisation des frameworks RAG (Retrieval-Augmented Generation) qui imposent l’enrichissement en temps-réel de la requête au LLM avec des données contextuelles (par exemple liées au client qui pose la question). Tout cela produit des réponses erronées ou peu fiables qui dégradent la confiance dans les résultats de l'IA et en ralentissent l’adoption par les décideurs. Pour éviter cela, il est essentiel d’effectuer des audits réguliers de la qualité des données afin d’identifier et de corriger les inexactitudes, tout en mettant en place des processus de validation clairs pour maintenir leur intégrité dans la durée.

2. La fragmentation : des données déconnectées

Les données fragmentées, piégées dans des silos, empêchent l'IA d’utiliser un contexte pleinement documenté pour baser ses réponses. Par exemple, les retailers qui cloisonnent leurs données sur les ventes et les stocks risquent de ne pas prédire correctement la demande, entraînant des ruptures de stock ou des surstocks. Cela limite la valeur de l'analyse par l'IA et réduit les opportunités d’innovation interfonctionnelle. Pour y remédier, les entreprises doivent intégrer leurs données provenant de diverses sources (par exemple dans un Data Lake ou des architectures Data Fabric) pour en faciliter l’accès
et l’analyse centralisée.

Ils doivent surtout rétablir les liens qui les unissent si toutefois ils ont disparu. L’utilisation d’un référentiel est une solution adaptée car les master data (données sur les clients, fournisseurs, produits, etc.) sont bien souvent le socle commun permettant de relier entre elles transactions et interactions. Le référentiel jouera alors son rôle de pierre de Rosette via la consolidation des données en un « golden record ».

3. Les biais : le souci de partialité

Les biais dans les données conduisent l'IA à produire des résultats inéquitables, en formant des opinions basées sur des informations unilatérales. Par exemple, des outils de recrutement utilisant des données historiques biaisées risquent de favoriser certains groupes démographiques, perpétuant ainsi l'inégalité. Cela génère des résultats injustes, nuisibles à la réputation de l'entreprise, tout en compromettant la crédibilité et l’inclusivité des modèles d’IA.

Pour prévenir ces effets, il est crucial de s'appuyer sur des ensembles de données diversifiés et représentatifs, ce dont on peut s’assurer via une collecte automatisée de sources multiples et diverses ainsi que des techniques de profiling des données (profiling fonctionnel, complémentaire du profiling de qualité). Il faut également tester régulièrement l'équité des résultats de l'IA et appliquer des techniques de correction
des biais si nécessaire.

4. L'absence de gouvernance : le chaos

L’apprentissage des modèles d’IA nécessite des jeux de données volumineux, certes, mais surtout compris et documentés. Sans gouvernance claire, impossible d’utiliser l’IA pour un ou des objectifs précis. Impossible également de comprendre à posteriori son raisonnement sans traçabilité des données qui ont été utilisées. Plus encore, les outils d’IA générative constituent de plus en plus des portes d’entrée (ou interfaces) vers les données
des entreprises.

Les entreprises sans cadre de gouvernance structuré risquent donc de subir des accès non autorisés aux données, compromettant ainsi leur conformité aux réglementations telles que le RGPD ou le NIS2. Pour les projets d’IA comme pour le reste, établir un cadre de gouvernance des données solide, comprenant des rôles bien définis, des contrôles d'accès et des mesures de sécurité, est un moyen de prévenir le chaos et d’augmenter la confiance du public dans ces nouveaux outils par nature intrusifs.

5. L'incohérence, source de confusion

Un exemple fréquent d’incohérence a trait à l’utilisation de définitions différentes d’un même concept au sein d’une entreprise. Les modèles d’IA, en particulier ceux utilisant l’apprentissage supervisé, ont besoin de labels cohérents pour comprendre la relation entre les entrées et les sorties. Si deux services d’une entreprise utilisent des descriptions différentes du même concept (par exemple sur le nom : « transaction frauduleuse »,
« fraude », « activité frauduleuse »), cela peut conduire le modèle à les traiter comme des notions séparées et la performance des résultats en sera impactée.

De même, les prédictions pourraient se révéler incorrectes par mauvaise classification des données lors de la phase d’apprentissage autour de termes non standardisés (« client »,
« client actif », « contact », « prospect », « leads », etc.). Enfin, l’incohérence des labels au sein d’un jeu de données impactera probablement la capacité du modèle à généraliser ses résultats à des données qu’il n’a jamais vues en apprentissage. Pour garantir la cohérence, il est nécessaire de bien documenter les données, de normaliser les définitions et les métadonnées descriptives dans toute l’organisation. La gouvernance, encore elle, pour mettre de l’ordre, éviter la confusion et protéger les données à caractère sensible.

6. L'obsolescence, un grand pas vers la stagnation

Les données obsolètes ne reflètent pas les réalités actuelles, rendant l'IA moins pertinente. Par exemple, des campagnes marketing fondées sur des données démographiques dépassées risquent de ne pas atteindre leur public cible. Pour éviter cela, les entreprises doivent mettre en place une mesure de la fraîcheur des informations, des règles d’alerte fonctionnelles pour contrôler leur pertinence (observabilité) ainsi que des processus de mise à jour régulière des données. La gouvernance et l’automatisation des pipelines d'ingestion sont là encore clés pour s’assurer que l'IA, comme le reste de l’entreprise, travaille avec des informations dont la date de mise à jour est cohérente avec l’objectif métier recherché.

7. La surcharge : le risque de l'excès

Une trop grande quantité de données submerge l'IA, compliquant l’extraction d’informations précieuses, comme chercher une aiguille dans une botte de foin. Cette surcharge accroît les coûts de traitement sans fournir plus d'informations exploitables. Elle détourne également l'attention des données essentielles, nuisant à l'efficacité des processus décisionnels. Pour surmonter ce défi, il est important de hiérarchiser les données pertinentes à l'aide de techniques de « tagging » et de catégorisation pour créer les métadonnées d’utilisabilité. Pour pouvoir effectuer ces traitements à l’échelle des volumes de données de l’entreprise, la mise en place d'un catalogue de données avec découverte automatisée est quasi-obligatoire.

En s'attaquant à ces sept pièges, les entreprises peuvent s'assurer que leurs initiatives d'IA soient précises, efficaces et fiables. Des solutions existent pour surmonter ces obstacles tout en limitant les besoins en ressources (humaines et financières) tout en dé-risquant les projets. Opter pour une plateforme complète plutôt que pour des outils dédiés offre la flexibilité nécessaire pour s'adapter à l'évolution des besoins et des objectifs de l'entreprise au fil du temps, tout en capitalisant sur l’essence commune permettant de contrer ces péchés : les éléments qualificatifs des données, les métadonnées. Elles vous
offriront l’absolution.

Par David Decloux, Pre-SalesDirector chez Informatica