Cloudera, le spécialiste de la gestion des données, annonce la disponibilité de DataFlow Designer pour tous les clients de Cloudera Data Platform (CDP) dans le cloud public. Cloudera DataFlow Designer permet aux développeurs de créer des flux de données à l’aide d’une interface visuelle, sans code. L’objectif est de proposer aux clients les outils pour construire des flux de données en faisant abstraction de l’hétérogénéité, de l’échelle, de la complexité liées aux données pour la création de valeur. L’intégration des données est donc un important créateur de valeur.

En décembre dernier, Cloudera a publié un aperçu technique de Cloudera DataFlow Designer. « Le nouveau DataFlow Designer est plus qu’une nouvelle interface utilisateur : il s’agit d’un changement de paradigme dans le processus de développement des flux de données. En offrant la possibilité de créer de nouveaux flux de données, de les publier dans un catalogue central et de les produire sous forme de déploiement DataFlow ou de fonction DataFlow, les développeurs de flux peuvent désormais gérer l’ensemble du cycle de vie du développement des flux sans dépendre des administrateurs de la plateforme », affirme l’éditeur.  

Une solution qui repose sur NiFi

Proposé dans le cadre du service DataFlow basé sur le cloud, Designer repose sur Apache NiFi, l’outil d’intégration de données open source. Développé à l’origine par la National Security Agency (NSA) américaine, il a ensuite été publié sous forme de logiciel libre par l’Apache Software Foundation. NiFi fournit les fonctions pour concevoir, gérer et surveiller les flux de données, qui sont créés à l’aide d’une interface de type glisser-déposer. Les flux de données, ou pipelines de données, sont créés en reliant une série de processeurs qui effectuent des actions spécifiques sur les données, telles que le filtrage, la transformation et le routage.

NiFi peut être utilisé pour intégrer des données provenant d’un large éventail de sources, y compris les bases de données, les services web, les fichiers et les messages. Il supporte également une variété de formats de données et de protocoles, tels que JSON, XML, CSV et HTTP. En 2021, Cloudera a lancé DataFlow for the Public Cloud (CDF-PC), répondant aux défis opérationnels auxquels les administrateurs sont confrontés lorsqu’ils exécutent des flux NiFi dans des environnements de production.  

Des modifications de traitement à la volée

Les utilisateurs existants de NiFi peuvent maintenant apporter leurs flux NiFi et les exécuter dans le service cloud de Cloudera en créant des déploiements DataFlow qui bénéficient de la mise à l’échelle automatique, des mises à niveau de la version NiFi en un seul clic, de la surveillance centralisée grâce aux KPI, du support multicloud et de l’automatisation grâce à une interface de ligne de commande (CLI). Récemment, Cloudera a également annoncé la disponibilité générale de DataFlow Functions, permettant d’exécuter des flux NiFi dans des environnements de calcul serverless, tels que AWS Lambda, Azure Functions ou Google Cloud Functions.

L’une des caractéristiques de NiFi est la possibilité d’interagir avec chaque composant d’un flux de données individuellement sans avoir à arrêter le flux entier. Cela permet aux développeurs d’apporter des modifications à leur logique de traitement à la volée tout en exécutant des données de test à travers leur flux et en validant que leurs changements fonctionnent comme prévu. Par exemple, si le flux de données lit des événements à partir d’un topic Kafka, que le développeur veut contrôler avant de le filtrer et de le traiter, avec NiFi il peut configurer le processeur source et l’exécuter indépendamment de tout autre processeur pour récupérer les données.  

Un équilibre entre flexibilité et contrôle centralisé

Une fois celles-ci récupérées, NiFi les stocke dans une file d’attente, ce qui permet d’en explorer le contenu et les attributs des métadonnées des événements avant de définir les conditions de filtrage et la logique de traitement. Cela permet aux développeurs d’itérer et de valider chaque étape de traitement, ainsi que d’intégrer de nouvelles sources de données avec lesquelles ils ne sont pas familiers.

En proposant Designer, Cloudera veut maintenir un équilibre entre la flexibilité de l’utilisateur final et un contrôle centralisé. « En ce qui concerne les pipelines de données, le libre-service se traduit par des administrateurs de plateforme centralisés ayant une visibilité et un contrôle suffisants pour gérer les performances et les risques, tout en permettant aux développeurs d’intégrer de nouveaux pipelines de données en cas de besoin », affirme l’éditeur.