Les data lake sont souvent perçus comme inefficaces et coûteux, et ils ne parviennent pas à respecter les exigences en matière de délais dans la mise sur le marché de nouvelles innovations reposant sur les analytiques. Pourquoi ?

Le data lake est un référentiel de stockage des données brutes en grande quantité tenues à disposition des outils analytiques et big data. A la différence du datawarehouse, l’architecture du data lake est à plat, et les données, chacune se voyant attribuer un identifiant unique, ne sont pas hiérarchisées.

Voici les 5 principales causes d’échec des data lake

1Le manque d’expérience

Souvent, les équipes en charge pour la première fois du data lake souffrent d'un manque d'expérience réelle pour explorer et tester les technologies Hadoop. Elles sont désorientées à cause des paradigmes et des approches très différentes, et par la nouveauté de ces outils qui ont très peu en commun avec des piles technologiques traditionnelles.

Dans ces conditions, les programmes sont lents, la mise en œuvre est considérée comme complexe et difficile, les objectifs commerciaux deviennent rapidement obsolètes, et l'excitation d'origine s’affadit lentement. À ce stade, de nombreux intervenants commencent à se demander si le projet big data va décoller et atteindre les objectifs initiaux ?

2Le manque de compétences

N’allons pas par quatre chemins, la plupart des projets de data lake souffrent d’une mauvaise conception et mise en œuvre. Cela provient du manque d’expérience Hadoop évoqué ci-dessus et de la pénurie de talents, qui conduit souvent à recruter des ingénieurs de données inexpérimentés. Il faut reconnaître également que peu de personnes disposent des capacités de maîtriser des technologies comme Sparc, HBase ou Kafka…

Un manque de compétences techniques conduit souvent à une mauvaise conception architecturale, intégration, évolutivité et testabilité des mises en œuvre de data lake, ce qui peut conduire à un niveau d'instabilité que malheureusement, seule une réécriture complète peut fixer.

3Un modèle de fonctionnement immature

En particulier dans la phase initiale, la séparation typique entre l'informatique et les métiers peut se révéler être un obstacle. Et les data scientists ont tendance à tomber dans le piège des silos métiers. Une solution analytique réussie repose sur une collaboration étroite entre les data scientists et les ingénieurs de données.

Si les data scientists doivent utiliser les outils mis à disposition par l’informatique, les ingénieurs de données sont chargés de mettre en production ce qui est mis en œuvre par les premiers. Sans un modèle opérationnel qui réunit ces deux rôles, les algorithmes les plus prototypées ne pourront entrer en production.

4La faible gouvernance des données

Par définition, la gouvernance des données est un ensemble de processus qui garantit que les actifs importants de données sont associés aux notions de confiance et de responsabilité. La gouvernance est essentielle pour bâtir des solutions fiables…

La mauvaise gouvernance est à l’origine de nombreux échecs. Au cours de la phase initiale de toute mise en œuvre du data lake, l'accent n’est pas suffisamment mis sur la façon d'organiser et de contrôler les données.

5Des capacités fondamentales manquantes

La tendance générale est à sous-estimer la complexité des solutions de data lake d'un point de vue technique et d’ingénierie. Chaque data lake doit exposer un grand nombre de capacités techniques, comme l'ingestion de données en libre-service, la préparation des données, le profilage des données, la classification des données, la gestion des données, la gestion des métadonnées, la recherche globale et la sécurité.

Les distributions Hadoop mettent à disposition plusieurs composants qui peuvent fournir les outils et les mécanismes pour implémenter les fonctionnalités mentionnées ci-dessus, mais elles ne fournissent pas une implémentation complète de la solution.

Image d’entête 628015576 @ iStock Aleutie