Au cœur de cet accord se trouvent de nouvelles intégrations entre Tableflow de Confluent et Unity Catalog de Databricks, qui visent à faciliter la gouvernance des données depuis les systèmes de stockage et d’archivage jusqu’aux environnements analytiques. En somme, Confluent et Databrick s’allient pour faire sauter les goulets entre les systèmes opérationnels et les systèmes analytiques.
L’alliance s’articule principalement autour de nouvelles intégrations assurant une interopérabilité en temps réel et une collaboration plus étroite entre les équipes opérationnelles et analytiques au sein des entreprises. Les deux partenaires proposent une intégration bidirectionnelle entre Tableflow de Confluent et Delta Lake de Databricks, en lien avec Unity Catalog, la solution unifiée de gouvernance des données et de l’IA. Delta Lake, couche de stockage en format ouvert développée par Databricks, a d’ailleurs été conçue pour soutenir la diffusion de données en continu, notamment grâce à des écritures particulièrement rapides.
Une vision unifiée des données
Aujourd’hui, Databricks déclare que Delta Lake est devenu le format le plus adopté pour les architectures de type lac de données, avec plus de 10 exabytes de données traitées quotidiennement. En complément, Tableflow s’intègre directement dans Delta Lake, ce qui permet aux entreprises d’utiliser immédiatement leurs données issues des systèmes opérationnels dans l’écosystème de Databricks.Grâce à Unity Catalog, qui assure une gouvernance unifiée, l’intégration entre Tableflow et Delta Lake permettra à la fois aux développeurs chargés de la diffusion de données en continu et aux spécialistes de l’analytique d’avoir accès à des métadonnées cohérentes. L’objectif est de maintenir une vision unifiée des données en temps réel, que ces informations soient exploitées par des spécialistes des données ou par des applications basées sur l’intelligence artificielle. Par ailleurs, la suite de gouvernance des flux de Confluent proposera un lignage de bout en bout, un contrôle de la qualité automatisé et un ensemble d’outils d’administration pour enrichir Unity Catalog, de sorte que toutes les équipes internes travaillent sur des données actualisées et fiables.
En pratique, les données produites en temps réel dans Confluent sont désormais immédiatement disponibles dans Databricks, où elles peuvent être exploitées par des moteurs d’IA ou d’analytique tels qu’Apache Spark, Trino, Polars, DuckDB ou Daft. Inversement, les tables alimentées dans Databricks sont accessibles en continu par tout processeur de flux dans Confluent, afin de maintenir un alignement homogène entre les applications d’entreprise et les services d’analytique. « Cette vision synchronisée est essentielle pour que les décideurs puissent se baser sur les dernières informations disponibles et élaborer des stratégies d’innovation faisant appel à l’IA à grande échelle », affirment les signataires dans leur communiqué.
Les entreprises s’efforcent de concevoir rapidement des applications d’IA exigeant des données fiables, complètes et mises à jour en temps réel pour optimiser la prise de décision ou améliorer l’expérience client. Pourtant, selon une enquête menée par Gartner, seuls 22 % d’entre elles considèrent leur infrastructure informatique actuelle comme prête à soutenir ces applications de nouvelle génération. Un défi majeur réside dans la séparation souvent observée entre les systèmes opérationnels, où les données sont produites, et les systèmes analytiques, chargés de transformer ces données brutes en informations exploitables. Ce cloisonnement entraîne l’utilisation d’outils et de processus distincts, rendant difficile la combinaison des données en temps réel avec d’autres référentiels et freinant l’innovation en matière d’IA sur des cas d’usage avancés, comme la recommandation prédictive ou la maintenance prédictive.