Les pipelines de données sont clés pour une infrastructure de données moderne et aident à la prise de décision, la compréhension de l'activité et permettent l'innovation. Avec l'avènement du big data et de l'analyse en temps réel, il est plus important que jamais que les pipelines de données puissent servir différents cas d'utilisation et s'adapter à des besoins plus importants. La question récurrente que se posent les data engineers est la suivante : "Devons-nous construire ou acheter notre pipeline de données ?”

La réponse n'est pas aussi binaire, cela dépend de plusieurs facteurs qui, suivant les entreprises, n'ont pas toujours la même importance. Les entreprises doivent réaliser une analyse approfondie de ce qu'elles attendent d'une solution, évaluer toutes les options disponibles, prendre en compte les implications à long terme et le retour sur investissement avant de se décider sur acheter ou construire leurs pipelines. Elles doivent collaborer avec les parties prenantes chargées de la data, de l'informatique et de l'activité afin de s'aligner sur les objectifs et les priorités. Il est conseillé de faire un essai de l'outil choisi pour évaluer le gain de temps et les économies réalisées.

Historiquement, les organisations optaient pour la construction de pipelines de données en interne en raison du contrôle et de la personnalisation sur l'ensemble de la conception. Cependant, les construire prend beaucoup de temps et le véritable défi est de les maintenir dans la durée. Les data engineers dans les petites équipes doivent gérer une multitude de tâches liées aux données de leur entreprise : optimiser les pipelines pour assurer la qualité des données et faciliter le contrôle bien sûr.

Mais aussi sécuriser les données lorsqu’elles circulent sur le net ou dans un cloud et gérer des volumes de données évolutifs. Les grandes entreprises peuvent allouer des ressources dédiées à la construction et à la maintenance de pipelines de données surtout si elles ont développé des solutions personnalisées dans l'ensemble de leur pile de données.

Construire leurs pipelines de données semble plus légitime dans ce cas, car ils disposent des ressources nécessaires pour faire évoluer leur solution afin de répondre aux besoins en interne et de respecter des délais stricts. Mais ce choix engendre des coûts de mise en place, de maintenance, etc. En choisissant de construire leurs pipelines, les entreprises assument la responsabilité de la résolution des bogues, de la mise à jour des pipelines qui doivent évoluer pour être à jour par exemple au niveau de la sécurité.

Depuis plusieurs années, les solutions de pipelines de données prêtes à l’emploi sont utilisées car elles permettent de répondre rapidement aux besoins des entreprises. Sachant que le fournisseur assume la responsabilité de toutes les tâches de maintenance, cela allège la charge de travail des équipes. De plus, leur fiabilité est un autre avantage avec une assistance dédiée, qui guide les entreprises en cas de problème.

Certaines de ces solutions sont fournies avec des connecteurs prédéfinis et une maintenance continue. Les pipelines de données externes proposent des outils SaaS tiers qui peuvent accompagner les besoins d’accroissement en connecteurs des entreprises. Enfin, la facilité d'utilisation pour les utilisateurs non techniques est également à prendre en compte. Les pipelines commerciaux fournissent souvent une interface web user-friendly, permettant de modifier les méthodes de collecte des données, les processus de transformation et les paramètres de destination sans nécessiter d'assistance technique.

En revanche, ce choix présente aussi des inconvénients comme le manque de flexibilité ou un contrôle réduit. Bien que de nombreux fournisseurs offrent un certain degré de personnalisation, cela nécessite souvent un développement personnalisé qui serait déployé en interne. Si l’organisation utilise plusieurs sources de données personnalisées, telles que des API REST propriétaires, il est important d'évaluer la charge de travail nécessaire pour les intégrer et les prendre en charge de manière efficace. Dans le cas d'une solution achetée, la dépendance envers le fournisseur peut être plus prononcée qu’une solution construite car l’entreprise s’engage à payer des factures mensuelles et peut être liée par un accord pluriannuel, ce qui prolonge la dépendance à l'égard du fournisseur.

Dans les solutions de pipelines de données prêtes à l’emploi ressortent deux offres qui sont les plus fréquemment utilisées : le Modern Data Stack et la Modern Data Platform. Le premier fournit l’assemblage des outils d'ingestion, de transformation, d'orchestration et d'activation des données pour former un pipeline de données de bout en bout. Cette approche nécessite encore du temps d'ingénierie pour assembler tous les outils et ralentit en fin de compte la création de pipelines de données.

La deuxième utilise une plateforme de données moderne pour gérer toutes les fonctionnalités de construction de pipelines de données de bout en bout. Cette approche améliore considérablement l'expérience de développement et supprime le besoin de passer d'un outil à l'autre pour créer des pipelines de données de bout en bout.

En conclusion, avec le peu de maintenance nécessaire et compte tenu du fait que les salaires des data engineers sont supérieurs aux coûts de licence de la plupart des outils, le résultat n'est souvent pas seulement un gain de temps pour obtenir de la valeur, mais aussi, ce qui est tout aussi important, un délai plus rapide pour obtenir un meilleur ROI. Bien sûr, il y a des compromis à faire (selon la solution) en termes de flexibilité et de contrôle, mais l'utilisation de ces options permet de se concentrer sur l'obtention d'informations plutôt que sur la gestion de l'infrastructure.

Par Itamar Ben Hemo, CEO et cofondateur de Rivery