Entre l’explosion des données, le Big Data et les analytiques, le data lake est devenu un modèle de design moderne des données, de leur organisation et de leurs usages.
Avec le data lake, les utilisateurs peuvent aujourd’hui rapidement intégrer des données dans un pool unique, de sorte qu’elles sont immédiatement disponibles à la fois pour les opérations et pour les analytiques. C’est ainsi que le data lake, en particulier lorsqu’il est déployé au dessus de Hadoop, répond à la pression des entreprises pour disposer d’outils de traitement de la donnée qui leurs apportent un avantage commercial et de prise de décision via la découverte et les analyses.
Pourtant, rien n’était gagné au départ, car le data lake est à la conjonction du Big Data, des données non structurées et des données provenant de nouvelles sources telles que l'Internet des objets (IdO), les médias sociaux, les canaux des clients, et des sources externes telles que les partenaires et les agrégateurs de données.
Voici 10 recommandations, en forme de Top 10 des meilleures pratiques, pour la conception et l’utilisation d’un data lake.
Embarquer et ingérer rapidement les données avec très peu d’amélioration
C’est l’une des innovations du data lake, pouvoir ingérer précocement les données et ne les traiter que plus tardivement. La donnée doit être intégrée et rendue disponible dès que possible, ce qui nécessite des méthodes d’ingestion diverses afin de gérer des structures de données, des interfaces et des types de containers différents. L’objectif est de se rapprocher du temps réel pour les opérations, les rapports et les analyses.
Contrôler qui charge quoi, quand et comment dans le data lake
Sans contrôle, le lac peut rapidement se transformer en marécage, soit un data lake avec un ensemble de données désorganisées et non documentées, dans lequel il est difficile de naviguer et de gouverner. La gouvernance des données à base de règles établit le contrôle et peut permettre également de définir des priorités et d’éventuelles exceptions. Les données balancées dans le data lake doivent disposer de leurs métadonnées, d’un catalogue d'informations, d’un glossaire du business, ou d'autres sémantiques afin que les utilisateurs puissent trouver des données, optimiser les requêtes, et réduire la redondance.
Conserver des données dans leur état brut afin de préserver les détails originaux et les schémas
Les sources de données doivent être conservées de sorte qu’elles puissent être réaffectées à plusieurs reprises dans le data lake, selon de nouvelles exigences du business. C’est également important car la découverte (exploitation, regroupement, segmentation) fonctionne mieux sur de grands échantillons de données brutes, ainsi qu’avec la présence de données non standardisées et de valeurs aberrantes.
Améliorer le temps de lecture des données pendant que le data lake est accessible et en cours de traitement
Cette situation est commune avec la pratique du libre-service, à savoir l'exploration et la découverte des données couplées avec la préparation et la visualisation. Les données sont modélisée et standardisée durant l’itération des interrogations, et les métadonnées peuvent également être produites durant ces étapes. Notez que ces améliorations devraient être appliquées aux copies des données de sorte que la source détaillée brute reste intacte.
Capturer les Big Data et autres nouvelles sources de données dans le data lake
Plus de la moitié des data lakes sont déployés exclusivement sur Hadoop, avec un autre quart en partie sur Hadoop et en partie sur des systèmes traditionnels. De nombreux data lakes sont déployés pour gérer les données importantes, ce qui justifie du choix de Hadoop, car il permet de capturer de plus grandes collections de données provenant de nouvelles sources, en particulier de l’IoT, des médias sociaux et des canaux marketing et de commercialisation.
Intégrer les données provenant de différentes sources, structures et crus.
Le data lake n’est pas seulement pour l’IoT et les Big Data. De nombreux utilisateurs se fondent sur les données traditionnelles de l'entreprise et les données modernes du Big Data à base de Hadoop pour permettre des analyses avancées, d’étendre les vues des clients, d’agrandir les échantillons de données des fraudes existants et pour l'analyse des risques, et pour enrichir les corrélations de sources croisées provenant de clusters et de segments plus perspicaces. Les données sur le data lake permettent d'optimiser un mélange de logistique, d'analyse des sentiments, de suivi des affaires en quasi temps réel, pour des analyses de santé par exemple et pour la maintenance prédictive.
Étendre et améliorer les architectures de données de l’entreprise
Le data lake est rarement en silo. Il fait généralement partie intégrante d'une architecture de données plus large, voire d'un écosystème de données multi-plateformes (omnicanal du marketing ou chaîne d'approvisionnement numérique par exemple). Un data lake peut également s’étendre sur les applications traditionnelles (ERP, services financiers, gestion de contenu, archivage des documents). Par conséquent, un data lake peut être une stratégie de modernisation qui prolonge la durée de vie utile et les fonctionnalité d'un environnement d'applications ou de données.
Faire que chaque data lake serve à des objectifs techniques et architecturaux multiples
Un data lake unique remplit généralement plusieurs objectifs architecturaux, tels que le data landing et la mise en scène, l'archivage des données sources détaillées, le sandboxing pour les ensembles de données analytiques, et pour gérer des ensembles de données opérationnelles (en particulier les vues complètes et le data master). De même, quand un data lake unique joue ces nombreux rôles d'architecture, il faudra peut-être le répartir sur plusieurs plates-formes de données, chacune ayant des caractéristiques de stockage ou de traitement uniques. Par exemple, un quart des data lakes sont à la fois Hadoop et ont plusieurs instances de bases de données relationnelles.
Activer les nouvelles meilleures pratiques axées sur le libre-service data-driven
Les best practices du data lake data-driven comprennent l'exploration des données, la préparation, la visualisation, et certains types d'analyses. De nos jours, les utilisateurs avertis (à la fois techniques et commerciaux) attendent un accès en libre-service aux données sur le data lake, et ils considérent que sans cet accès il sera un échec. La fonctionnalité de self-service est activée par des composants clés, à savoir des outils intégrés pour faciliter l'utilisation pour les utilisateurs professionnels, ainsi que des métadonnées d'affaires et d'autres sémantiques spécialisées.
Sélectionnez les plates-formes de gestion des données qui satisfont aux exigences du data lake
Hadoop est la plate-forme de données préférée pour la plupart des data lakes en raison de son faible prix, et pour son évolutivité linéaire et puissante dans le traitement in situ pour l'analyse. Toutefois, certains utilisateurs mettent en œuvre un traitement massivement parallèle (MPP) de base de données relationnelle lorsque les données du data lake sont relationnelles et/ou nécessitent un traitement relationnel (SQL, OLAP, vues matérialisées). Les plates-formes hybrides rencontrent un certain succès sur le data lake. Elles peuvent combiner des systèmes Hadoop et relationnels, sur site et/ou dans le cloud. Avec la multiplication des collections de données (data lake, datawarehouse, Big Data, analytiques, etc.), le stockage dans le cloud, fichiers, objets ou blocs, va continuer de progresser.
Sources : les tendances du marché citées parmi ces meilleures pratiques proviennent d’une étude TDWI
Image d’entête 517654784 @ iStock VMasterArt