CONTENUS ACTUALITES Confluent enrichit Confluent Cloud pour proposer une plateforme de gestion des flux...

Confluent enrichit Confluent Cloud pour proposer une plateforme de gestion des flux de données de bout en bout

Par

20/03/2024

Lors de son sommet annuel, Kafka Summit à Londres, Confluent, le spécialiste du streaming de donnée, annonce de nouvelles capacités de Confluent Cloud facilitant la tâche des clients pour diffuser, connecter, gouverner et traiter les données. Confluent Tableflow permet aux clients de convertir les topics Kafka et les schémas associés en tables Iceberg en un seul clic, afin de faciliter la mise en œuvre de tâches analytiques dans les data lakes et les entrepôts de données.

Il annonce également la disponibilité générale de Confluent Cloud pour Apache Flink, un service géré pour Apache Flink qui permet aux clients de traiter les données en temps réel et de créer des flux de données réutilisables de qualité. Confluent Cloud pour Apache Flink est disponible sur Google Cloud et Microsoft Azure. Soutenu par un SLA de 99,99%, ce service permet d’assurer un traitement en continu des donnée de façon simple à mettre en œuvre.

La stratégie de Confluent au cours de ces dernières années, y compris l'annonce récente de Tableflow, met en évidence une orientation claire vers l'expansion de son écosystème Kafka pour se positionner à la jonction des besoins de traitement des données par les métiers, avec l’IA en point de mire, et ceux des développeurs et des data scientistes en matière de pipeline de données. L’objectif est de répondre aux besoins croissants des entreprises en matière de traitement des données en temps réel et par batch. Cette stratégie se concrétise par l’adjonction de technologies telles qu’Iceberg et Apache Flink dans sa plateforme Confluent Cloud pour former une solution complète.

Apache Flink est un système de traitement de données distribué et open source, conçu pour effectuer des calculs complexes sur des flux de données en temps réel et des ensembles de données statiques. Flink propose un modèle de programmation basé sur les flux (stream processing) qui permet aux développeurs de créer des pipelines de traitement de données hautement parallèles et évolutifs.

Tablesflow sera bientôt disponible pour tous les clients

L'intégration d'Iceberg en tant que format de stockage de données permet une meilleure gestion et organisation des données, tandis que l'utilisation d'Apache Flink renforce les capacités de traitement des flux de données. La combinaison de Tableflow avec les fonctionnalités de gouvernance de flux et le traitement de flux avec Apache Flink souligne l'objectif de Confluent d'unifier le paysage opérationnel et analytique de ses clients. Tableflmow vise à simplifier le processus de matérialisation des données provenant des topics Kafka et de leurs schémas associés en tables Iceberg. En un clic, il permet aux utilisateurs de Confluent Cloud de transformer leurs données Kafka en tables Iceberg, facilitant ainsi leur intégration dans divers entrepôts de données, lacs de données ou moteurs analytiques. Tableflow est actuellement disponible dans le cadre d'un programme d'Early Access et sera bientôt disponible pour tous les clients de Confluent Cloud.

En fournissant des outils qui couvrent à la fois les besoins opérationnels et analytiques, Confluent propose à ses clients une vision englobante de leurs données, ce qui facilite la prise de décision basée sur des informations précises et à jour.

Au chapitre des nouveautés, les connecteurs entièrement gérés de Confluent ont été améliorés avec de nouvelles possibilités de connectivité réseau et jusqu'à 50 % de réduction des coûts liés au débit, pour permettre des intégrations plus fluides, plus sûres et plus rentables. La Gouvernance de Flux (Stream governance) est maintenant activée par défaut dans toutes les régions, avec un SLA amélioré pour la Schem Registry, facilitant ainsi la mise à l'échelle sécurisée et le partage des flux de données, où qu'ils soient utilisés.

Connecter les données opérationnelles et les données analytiques

Pour que les entreprises puissent prendre des décisions leur permettant d’optimiser les coûts, d’augmenter leurs revenus et de stimuler l'innovation, il est nécessaire de connecter les deux domaines que sont les données opérationnelles et les données analytiques, traditionnellement cloisonnés dans les organisations. Le domaine opérationnel comprend les applications SaaS et les bases de données qui alimentent les entreprises (telles qu’Oracle, Salesforce et Workday par exemple). Le domaine analytique comprend les data warehouses, les data lakes, ou encore les moteurs analytiques qui utilisent les flux de données et les tables traditionnelles pour exécuter des requêtes et différentes fonctions analytiques afin d’améliorer les processus de prise de décision.

« Le problème critique pour les entreprises modernes est que les domaines opérationnels et analytiques doivent être hautement connectés, mais sont souvent construits sur des connexions point à point à travers des douzaines d'outils explique Shaun Clowes, chief product officer chez Confluent. Les entreprises se retrouvent avec un désordre de données dans lequel il est difficile de naviguer et qui les prive d'informations en temps réel ».

Les entreprises utilisant Apache Kafka peuvent utiliser Iceberg pour répondre à la demande croissante pour des analyses à la fois en streaming et par batch. Cependant, déplacer des données en temps réel de Kafka vers Iceberg est un défi car cela nécessite de convertir les données en flux dans un format de table avant que les entrepôts de données ou les data lakes puissent travailler avec. Ceci peut être un processus long et complexe nécessitant une gestion minutieuse des formats de données et des schémas. En conséquence, de nombreuses entreprises doivent exécuter des migrations complexes, qui peuvent être intensives en ressources, résultant en des données obsolètes et non fiables et des coûts accrus.

Tableflow facilite l'alimentation des dépôts de données pour l'analyse

Tableflow, une nouvelle fonctionnalité de Confluent Cloud, permet aux clients de matérialiser facilement les topics Kafka et leur schémas associés en tables Iceberg en un clic pour alimenter tout entrepôt de données, lac de données ou moteur analytique pour des cas d'utilisation de traitement en temps réel ou par batch. Tableflow travaille de concert avec les capacités existantes de la plateforme de data streaming de Confluent, y compris les fonctionnalités de gouvernance de flux et le traitement de flux avec Apache Flink, pour unifier le paysage opérationnel et analytique.

En utilisant Tableflow, les clients peuvent matérialiser les topics en tables Iceberg en un seul clic, avec tous les schémas associés ; assurer que les tables Iceberg sont continuellement mises à jour avec les dernières données et des systèmes sources ; fournir des produits de données de haute qualité en exploitant la puissance de la plateforme de data streaming en utilisant la Gouvernance de Flux et Apache Flink en mode serverless pour nettoyer, traiter ou enrichir les données en flux, de sorte que seuls les données de haute qualité atterrissent dans le data lake.

Des connecteurs en nombre pour briser les silos de données

Connect apporte de nouvelles améliorations en matière de sécurité, de facilité d’utilisation et de tarification à un portefeuille de plus de 80 connecteurs entièrement gérés. Pour construire un système nerveux central pour une entreprise, les utilisateurs doivent pouvoir connecter tous leurs systèmes de données pour capturer des flux de données continus. Les connecteurs répondent aux défis des architectures de données traditionnelles qui peuvent siloter les données, diminuer la qualité des données et conduire à des temps d'arrêt imprévus en connectant les systèmes de données et les applications en tant que sources et puits vers Confluent Cloud. Confluent continue d'ajouter des améliorations aux connecteurs, un composant critique de la plateforme de diffusion de données, afin que davantage d'utilisateurs puissent expérimenter des intégrations rapides, sans friction et sécurisées.

Avec les nouvelles mises à niveau de Connect, les clients de Confluent peuvent se connecter aux systèmes de données critiques dans des réseaux privés en utilisant le DNS Forwarding et les Egress Access Point sur AWS et Microsoft Azure. Ils peuvent aussi provisionner des connecteurs de manière fiable en quelques secondes avec des validations de configuration en temps réel et un SLA de disponibilité de 99,99%. Enfin, ils peuvent diffuser des données de manière abordable à n'importe quelle échelle avec un prix de débit de transfert de données réduit à 0,025 $/Go

Construit conjointement avec les partenaires technologiques, le programme partenaire Connect with Confluent (CwC) étend l'écosystème de diffusion de données et offre un accès facile à des flux de données entièrement gérés, directement dans les outils déjà utilisés par les différentes équipes. Depuis le lancement de CwC en juillet dernier, le programme a connu une croissance de 135 % avec plus de 40 intégrations de partenaires désormais dans le programme. Ce trimestre, CwC a ajouté de nouveaux partenaires, notamment Advantco, Aklivity, Arroyo, Asapio, Census, EMQX, Kinetica, Nstream, Redis, SingleStore, Squid, et Superblocks, ayant tous construit de nouvelles intégrations au sein de leurs applications.

Améliorations de la Gouvernance de Flux

Étant donné l'accent mis de nos jours sur la gouvernance et la conformité, Confluent rend plus simple pour les clients de tirer parti des fonctionnalités clés de la Gouvernance de Flux. Désormais, tous les clients de Confluent Cloud auront la Gouvernance de Flux automatiquement activée dans leurs environnements, offrant un accès facile aux fonctionnalités clés de gouvernance, y compris la Schema Registry, le Data Portal, le real-time Stream Lineage entre autres, avec une disponibilité dans toutes les régions de Confluent Cloud.

La Schema Registry est un composant crucial pour la gouvernance des flux de données, aidant les équipes à appliquer des normes de données universelles pour assurer la qualité et la cohérence des données tout en réduisant la complexité opérationnelle. Les schémas stockés dans la Registry doivent être accessibles aux équipes à tout moment, car tout problème pourrait conduire à des erreurs de compatibilité des données et à des coûts de dépannage accrus. Pour minimiser ces risques, Stream Governance Advanced offre désormais un SLA de 99,99 % pour la Schema Registry, permettant ainsi aux organisations d'éviter les perturbations des flux de travail critiques et de gérer la conformité.

Enfin, Confluent a récemment annoncé de nouveaux clusters Enterprise avec les mêmes avantages que les autres clusters Confluent Cloud, y compris un SLA de 99,99 % et un écosystème complet d'outils de qualité entreprise, plus une sécurité renforcée avec un réseau privé. Cela permet aux équipes de respecter des exigences de sécurité et de mise en réseau strictes tout en optimisant simultanément l'efficacité des ressources et des coûts, car les clusters Enterprise se mettent automatiquement à l'échelle en fonction de la charge de travail sans intervention manuelle. Avec de nouvelles avancées dans Kora, les clusters Enterprise peuvent offrir encore plus d'économies avec un tarif d’accès inférieur et des coûts de débit réduits. Les clusters Enterprise sont disponibles à la fois sur AWS et Microsoft Azure.

Face à cette multiplication des solutions, une tendance émerge vers l'intégration et l'interopérabilité entre les différents outils de gestion et de traitement des données. Les entreprises cherchent des solutions qui peuvent s'intégrer facilement à leurs systèmes existants et collaborer de manière transparente avec d'autres technologies. Les fournisseurs qui parviennent à offrir des solutions flexibles et intégrées sont susceptibles de gagner des parts dans un marché dans lequel la demande explose.

Derniers Articles de fond

Dernières Actualités

Dernières Expériences