Face à des innovations telles que la GenAI, chaque entreprise doit éviter les pièges qui conduisent au développement de solutions non évolutives et non durables. Un nouveau rapport du MIT Technology Review Insights souligne que 64 % des cadres dirigeants accordent la priorité à la préparation des données pour assurer le succès de l'IA, mais qu'ils rencontrent des difficultés à structurer les données de base requise pour tout projet.

Le défi des données

Les plus grandes difficultés rencontrées par les entreprises sont liées à l'intégration des données et aux pipelines. Une IA fiable et précise nécessite des ensembles de données qui ne peuvent être produits que par des pipelines efficaces et de haute qualité. Il n’est alors pas surprenant que l'intégration des données soit le défi numéro un pour 45 % des personnes interrogées dans le rapport du MIT. Toutefois, l'approche la plus courante des pipelines de données d'entreprise reste les anciennes méthodes faites maison, qui, même si elles ont pu être efficaces dans le passé, entraînent aujourd'hui des pertes moyennes chiffrées à plus de 400 millions de dollars par an pour un grand compte.

Or, il n'est pas possible de construire un socle de données solide pour nourrir l’IA sans une intégration des données automatisée, fiable et sécurisée. Les problèmes d'intégration des données entraînent en aval des difficultés au niveau de la gouvernance, de la sécurité et de la qualité des données, comme le montre le rapport du MIT.

Cela devient particulièrement délicat avec la GenAI, car il s'agit d'une technologie très attrayante. Prompter avec un LLM permet d’obtenir une réponse bien formulée et rédigée dont le contenu semble correct même s’il ne l'est pas. Sans une stratégie d'atténuation de la qualité des données telle que la génération augmentée de récupération (RAG) pour incorporer des données commerciales propriétaires, les entreprises sont plus susceptibles d'être confrontées à des hallucinations coûteuses de l'IA. La RAG nécessite des pipelines fiables, et les réponses de la GenAI ne fournissent aucune indication sur le fait que ces pipelines soient réels ou non.

La différenciation concurrentielle passe par la GenAI et le mouvement des données est une condition préalable pour y parvenir. Les pipelines faits maison peuvent certes fonctionner pour l'IA, mais de nombreuses observations suggèrent que cela est plus difficile que l’utilisation d’une plateforme d'intégration de données de niveau entreprise disponible dans le commerce. Ne serait-il pas nécessaire de se concentrer sur la différenciation concurrentielle plutôt que sur la construction et la maintenance de pipelines ?

Les pièges d'une fondation de données DIY

Les pipelines de données faits maison ne sont pas évolutifs. Ils sont souvent construits à un moment donné pour répondre à un besoin spécifique pour une source de données spécifique, parfois propriétaire. Mais que se passe-t-il lorsque le besoin change d'échelle ? Lorsque les volumes de données augmentent considérablement ? Lorsque la logique des champs, des tables ou des schémas change ? Lorsque l'expert qui a construit le(s) pipeline(s) quitte l'entreprise ? C'est à ce moment-là que les pipelines bricolés deviennent des obligations coûteuses que peu de personnes, voire aucune, savent comment gérer.

Ce type de pipelines coûtent inévitablement aux entreprises d'importantes sommes d'argent, de ressources et de temps tout au long de leur durée de vie. Cela inclut la tâche de construire le pipeline, de le maintenir, de le mettre à jour et même de le déprécier lorsqu'une autre solution évolutive est trouvée. Mais le souhait d'avoir un contrôle total est compréhensible, même si les inconvénients sont élevés. Il est très difficile d'anticiper et de prévoir la complexité et l'ampleur de l'avenir. Face à des innovations telles que la GenAI, chaque entreprise devrait se poser la question « acheter ou construire ».

Il est tentant de construire soi-même, surtout si l'on considère la facilité avec laquelle un prototype rapide peut être mis en place et fonctionner - avec ou sans l'aide de la GenAI - mais cela ne suffit pas pour être à l'épreuve du temps et répondre aux besoins permanents de l'entreprise. Pour des raisons budgétaires (malavisées) ou autres, les entreprises créent des scénarios dans lesquels elles construisent au lieu d'acheter. Elles ne réalisent pas que leur approche traditionnelle finira par entraîner des problèmes d'ingénierie insurmontables. C'est là que les entreprises doivent faire preuve de clairvoyance quant à la technologie qu'elles choisissent pour gérer et entretenir les pipelines.

Simplifier la résolution des problèmes d'IA grâce à de meilleurs pipelines

Un pipeline de données fiable signifie une chose de moins à résoudre lorsque l'IA ne fournit pas une réponse correcte ou attendue. Avec des pipelines faits maison, il est nécessaire de remettre en question ses propres intégrations, rechercher où les problèmes de qualité des données se sont produits à chaque couche et déterminer si le pipeline lui-même est en cause. Cependant, avec une solution moderne et automatisée, il est possible d'éliminer le pipeline de l'équation, tout en sachant qu'il y a une prise en charge intégrée des changements de schémas et une propagation automatique des changements
de sources de données.

Les ressources et les charges opérationnelles des pipelines faits maison sont importantes. Bien qu'il existe un potentiel d'innovation propriétaire, la maintenance devient écrasante lorsque les sources de données changent fréquemment. Par exemple, si 30 sources de données modifient leurs schémas au cours d'une année, ce sont 30 pipelines qu’il faut mettre à jour et maintenir, tout en veillant à ce que les fonctions critiques de l'entreprise ne soient pas interrompues. Ce processus devient particulièrement lourd lorsqu'il s'agit de prendre des décisions en temps réel.

Avec le bon pipeline de données, les entreprises peuvent fournir un accès fiable en temps réel, ce qui constitue une capacité très recherchée pour améliorer les performances et les résultats globaux de l'IA.

Par Virginie Brard, Regional leader France et Benelux chez Fivetran