Lors de la Tableau Conference 2024, Tableau et Databricks ont annoncé l’intégration de Delta Sharing dans « Tableau Delta Sharing » et « Explore in Tableau », deux nouvelles fonctionnalités visant à améliorer le partage, la connexion et la visualisation des données de manière plus transparente et sécurisée. Développé par Databricks et la Linux Foundation, Delta Sharing est une solution open source pour le partage de données interorganisationnelles sécurisé, efficace et en temps réel, à travers diverses plateformes et infrastructures de données.

Conçu par Databricks et faisant partie de l’écosystème Delta Lake, Delta Sharing permet aux utilisateurs de partager des ensembles de données à travers les frontières organisationnelles sans avoir à copier ou déplacer physiquement les données. Pour rappel, Delta Lake est une couche de stockage open source, conçue pour améliorer les performances, la gestion et la fiabilité des lacs de données. Développée par Databricks et bâtie sur Apache Spark, elle apporte des fonctionnalités de gestion transactionnelle avancées aux fichiers stockés dans des systèmes distribués, tels qu’Amazon S3, Azure Data Lake Storage ou Google Cloud Storage.  

Une approche ouverte et sécurisée du partage de données

Ces solutions, basées sur l’open source, offrent plusieurs avantages dans le contexte d’une exploitation systématique des données pour la collaboration et l’analytique. Tout d’abord, elles favorisent une approche ouverte et sécurisée du partage et de la collaboration basée sur les données et grâce au protocole opensource. Ensuite, elles simplifient le partage des données et la collaboration, permettant aux équipes de travailler ensemble de manière plus efficace. De plus, elles permettent un partage des données en temps réel entre différentes plates-formes, évitant ainsi la réplication des données et optimisant la gouvernance des données grâce à une gestion centralisée des accès.

Le nouveau connecteur exploite la puissance de Delta Lake, la couche de stockage open source qui permet de créer des pipelines de données. Le connecteur Tableau Delta Sharing est désormais disponible sur Tableau Exchange, la place de marché des solutions intégrées aux technologies Tableau. Cette intégration permet une gestion, un partage et une analyse des données de bout en bout, s’intégrant aux fonctions de gestion des données de Tableau, notamment Tableau Prep, Tableau Catalog et Tableau Server.

Par ailleurs, Tableau a dévoilé « Explore in Tableau » pour naviguer dans ses données en un seul clic et découvrir des informations. Cette fonctionnalité permet de se connecter à des sources de données en temps réel, sans quitter son navigateur, améliorant ainsi l’efficacité de la recherche d’informations et la prise de décision sur la base de ces informations.  

Fonctionnement de Delta Sharing

Architecture ouverte

Delta Sharing repose sur un protocole ouvert de partage de données, ce qui signifie que tout système prenant en charge le protocole peut participer au partage de données. Cela facilite l’intégration avec une variété de plateformes de données existantes, qu’elles soient basées sur le cloud ou sur site.  

Intégration avec Delta Lake

Delta Sharing utilise Delta Lake, une couche de stockage qui repose sur des formats de fichiers parquet optimisés pour les grandes données. Delta Lake dispose de plusieurs fonctionnalités critiques telles que :
  • Transactions ACID assure la cohérence, l’isolation et la durabilité des transactions de données, garantissant ainsi l’intégrité des données même dans des environnements distribués complexes.
  • Gestion des métadonnées : Delta Lake gère les métadonnées de façon centralisée, ce qui permet à Delta Sharing de suivre les versions des ensembles de données partagées et de gérer les accès de façon sécurisée.

Sécurité et gouvernance

Delta Sharing permet de configurer des règles de gouvernance de données détaillées pour contrôler qui peut accéder à quelles données et dans quelles conditions. Il utilise des mécanismes de sécurité robustes, y compris le chiffrement des données en transit et au repos, ainsi que l’authentification et l’autorisation basées sur des tokens.

Protocole REST

Delta Sharing fonctionne via un protocole REST pour la communication entre les systèmes. Les consommateurs de données peuvent envoyer des requêtes HTTP pour accéder aux ensembles de données partagées, ce qui rend le processus compatible avec la plupart des technologies web modernes.

Format et optimisation

Les données partagées via Delta Sharing sont souvent formatées en parquets pour optimiser la performance des lectures sur de grands volumes de données. Le système prend également en charge des optimisations comme la mise en cache et les sauts de données (data skipping), qui améliorent l’efficacité des accès aux données.