Manger cinq fruits et légumes par jour, marcher au moins trente minutes, nous essayons tous de suivre ces recommandations et nous savons que cela contribue à notre équilibre. Mais cela ne s’arrête pas là ; notre santé repose aussi sur un système ordonné assurant également traitement et prise en charge. Il en est de même pour la santé des données : si vous ne possédez pas l'infrastructure adaptée, l’effet sera amoindri.
Les organisations doivent travailler sur l'ensemble du cycle de la qualité des données : évaluation, amélioration, suivi des indicateurs… Ce cycle, il faut le répéter sans cesse, car obtenir des données de qualité est un processus en perpétuel renouvellement. Cela implique bien sûr des outils mais aussi des processus et la participation des collaborateurs. Tout comme les patients sont des acteurs clés dans un système de santé, les spécialistes des données, ainsi que tous les utilisateurs interagissant avec elles, font partie intégrante d'une démarche relative à la santé des données. Ce type d'approche doit donc être systématique.
Quelles sont donc les composantes de cette hygiène des données qui permettent de pérenniser une organisation tout au long de son développement ?
Comprendre et agir : prévention, diagnostic et traitement
Pendant trop longtemps, les données ont été traitées comme des unités simples et concrètes sur une feuille de calcul ou dans une base de données, des objets numériques passifs attendant une analyse. Mais ce n'est plus un modèle suffisant. Les données sont des organismes complexes, en constante évolution. Les données entrent et sortent, sont mises à jour par les utilisateurs et transformées par des contextes changeants. Ces mouvements permettent à la fois d'apprendre et de modifier la valeur des données elles-mêmes. Pour comprendre réellement la signification des données, il faut en avoir une vision plus responsable et plus globale.
- Identification des facteurs de risque. Certains risques sont endogènes, comme les applications, processus et collaborateurs de l'entreprise, tandis que d'autres (partenaires, fournisseurs, clients) viennent de l'extérieur. En déterminant les domaines qui présentent le plus de risques, il est possible de prévenir plus efficacement les dangers avant qu'ils ne surviennent.
- Programmes de prévention. Une bonne hygiène des données nécessite l'application de bonnes pratiques. Pensez aux étiquettes nutritionnelles : la généralisation de valeurs standardisées et de scores nutritionnels permet d'informer les consommateurs sur l'impact d'un certain repas sur leur santé. De même, il est nécessaire d'évaluer et de contrôler l'ingestion de données en produisant des informations plus faciles à comprendre, et plus difficiles à ignorer.
- Inoculation proactive. Les vaccins apprennent au corps à reconnaître et combattre un agent pathogène en amont d'une épidémie. Dans notre infrastructure de données, le machine learning joue un rôle similaire : il entraîne nos systèmes à reconnaître les données de mauvaise qualité et les sources suspectes avant qu'elles ne s'implantent et contaminent nos programmes, applications ou analyses.
- Monitoring régulier. Dans le domaine médical, le bilan de santé annuel était autrefois la méthode principale pour surveiller la santé d'un patient au fil du temps. Avec l'avènement des objets médicaux connectés qui peuvent collecter des indicateurs comme l'activité et la fréquence cardiaque mais aussi le taux de glycémie d'une personne diabétique, le corps humain devient observable. Dans l'univers des données, nous utilisons des termes tels que « évaluation » ou « profilage », mais c'est pratiquement la même chose et l'observabilité continue pourrait bientôt devenir une réalité. Plus un problème est détecté tôt, plus les chances de le traiter efficacement sont élevées. En médecine, cela peut être une question de vie ou de mort (l'Apple Watch a déjà sauvé des vies). Les risques sont bien sûr différents mais l'observabilité de la qualité des données pourrait, elle aussi, sauver la vie de certaines entreprises.
- Protocoles pour un diagnostic continu. Les médecins ne peuvent prescrire le bon traitement que s'ils comprennent ce qu'il faut soigner. Mais, autre analogie avec la santé des données, la médecine n'est pas une science exacte. Le diagnostic est un modèle qui doit sans cesse être révisé et amélioré. Il est important de définir ce type d'exigence pour la santé des données également.
- Traitements efficaces. Tout traitement médical est une évaluation du rapport entre risques et bénéfices. Un traitement est recommandé lorsque les bénéfices l'emportent sur les effets secondaires potentiels, mais cela ne signifie pas que le traitement est activé uniquement en cas de risque zéro. Dans le domaine des données, il faut également faire des compromis. La qualité des données peut introduire des étapes supplémentaires dans le processus. Des couches de sécurité essentielles peuvent également allonger les délais. De nombreux problèmes collatéraux liés à la qualité des données ne peuvent être résolus par une simple automatisation. Comme les médecins, les spécialistes en santé des données maîtrisent cet équilibre.
Tout comme en médecine, nous n'aurons peut-être jamais de photographie parfaite de tous les facteurs affectant la santé de nos données. Mais, en instaurant une culture d'amélioration continue appuyée par des collaborateurs équipés des meilleurs outils et solutions du marché, nous pouvons nous protéger des risques les plus courants. Et si nous intégrons des fonctionnalités de qualité tout au long du cycle de vie des données, nous pouvons faire de la santé des données un mode de vie.
Par Jacques Padioleau, RVP EMEA South chez Talend