Par Youen Chéné, CTO de Saagie

Il est temps de donner de la valeur à vos données ! C'est pourquoi nous avons décidé de vous y aider. Pour ce faire, chaque semaine, nous lèverons le voile sur un outil, un concept ou un conseil pour concrétiser vos projets Big Data et IA. Vous pourrez ensuite les retrouver dans notre livre blanc “Du Data Lab à la Data Factory : Comment passer les initiatives Big data / IA de l’expérimentation à la production ?”.Cette semaine, c’est avec le "Data Lab" que nous commençons.

Qu'est-ce qu'un Data Lab ?

Entrons dès à présent dans le vif du sujet : comme son nom l'indique, le Data Lab est un véritable laboratoire de la donnée. Pourquoi ? Car c'est un espace exclusivement dédié à l'expérimentation et à la qualification « fonctionnelle » des différentes données de l’entreprise. En effet, il permet d’explorer ses jeux de données, de les traiter mais aussi de mettre à l’épreuve des algorithmes de Machine Learning.

Pour l'imaginer, le Data Lab est semblable à une startup, agile et en constante évolution, mais qui prendrait place au sein même de l'entreprise. Il permet ainsi de devenir davantage data centric, sans pour autant chambouler toute l'organisation d'une entreprise.

Les enjeux d'un Data Lab

Pour mettre en production un projet de Data Science ou d'intelligence artificielle, l'ingrédient clé est une vision stratégique claire, partagée et soutenue par l'ensemble de l'entreprise. Si cela paraît évident c'est pourtant, selon Gartner, ce qui fait défaut dans la majorité des cas. Voilà pour la théorie mais dans la pratique, de quoi a-t-on besoin ? D'un Data Lab.

Sa création est essentielle à la réussite d'un tel projet. L'enjeu même d'une telle structure est de tirer profit de ses données, de les transformer en valeur ajoutée. Pour cela, le Data Lab permet de définir les cas d'usage les plus adaptés à l'entreprise, qu'il s'agisse de prévisions de tendance ou de détection de fraudes.

Comment mettre en place un Data Lab ?

Pour mettre en place un Data Lab, il faut tout d'abord avoir défini ses objectifs au préalable. En effet, et comme précisé par Gartner, sans alignement de l'ensemble de l'entreprise, le projet aura moins de chance d'atteindre la mise en production.

Après avoir identifié les ressources nécessaires, la mise en place d'une équipe est ensuite primordiale, et ce n’est pas une mince affaire. Il faudra alors privilégier les profils techniques experts dans leur domaine (l'administrateur système, le Data Architect, le Data Scientist, le Data Engineer et le Data Analyst)  auquel s’ajoute le Product Owner qui apportera la vision sur le produit et les profils métiers qui apporteront leur connaissance sur les problématiques business.

1

Encadré pré-requis : le Data Lake

Avant de s'intéresser aux données, il faut déjà savoir où les mettre. C'est le rôle du "lac de données". Toutes vos données, structurées ou non y sont regroupées et accessibles, et peuvent être enrichies tout au long du déroulement de votre projet. Quant à l'exploitation de données, elle n'est possible qu'avec un certains nombres de technologies (Spark, Talend, Avro, Atlas, Hadoop, Cassandra et bien d’autres encore). Ainsi, d'autres outils seront nécessaire afin d'assurer l'extraction et l'importation de données, leur traitement, leur gouvernance ou encore leur protection. Ce à quoi pourront s'ajouter différentes technologies pour des projets de Data Science. Après avoir rassemblé toutes ces technologies qui seront les outils permettant à vos équipes de travailler, ne restent plus que les données à intégrer.

2

Quelles données utiliser ?

Structurées ou non, toutes les données à la disposition de l'entreprise peuvent s'avérer utiles, mais il faut d'abord en déterminer les sources et se poser les bonnes questions : d’où viennent-elles ? Comment les regrouper ? Quelles sont les difficultés liées à leur utilisation ? Pour y répondre, un travail de référencement est nécessaire avant de pouvoir les exploiter.

Les données internes (de l'architecture SI) de l'entreprise sont évidemment les plus évidentes, mais les logs que les utilisateurs laissent en allant sur votre site ou en utilisant vos applications représentent aussi une source de données importante. Afin de les compléter, il existe aujourd'hui de multiples sources. On pourra évidemment citer l'open data (https://www.saagie.com/fr/blog/qu-est-ce-que-l-open-data), mais des entreprises privées font aussi de la revente de données qui pourront venir enrichir votre Data Lake.

Comme vous pouvez le constater, la réalisation d’un projet big data / IA est complexe car elle implique une vision claire, une équipe pluridisciplinaire et un nombre important de technologies. C'est pourquoi l'implémentation d'un Data Lab est un élément déterminant, qui pourra permettre à votre projet de faire partie des 20% qui atteignent la mise en production.