Les algorithmes de Big Data peuvent donner des résultats incorrects si les données sur lesquelles ils s'exécutent ne sont pas de bonne qualité !
Comment vous assurez-vous que la qualité de vos données optimisera la performance de vos algorithmes et l'intelligence que vous en tirerez ? La clé réside dans la préparation des données et la mise en correspondance des cas d'utilisation métier auxquels vous souhaitez appliquer vos algorithmes.
Voici six bonnes pratiques pour développer des données et des algorithmes de qualité :
1Standardisez vos données
Pour éviter d'obtenir des données en double et potentiellement fausser vos résultats analytiques, normalisez les données multiples en une seule occurrence de données.
- Par exemple : Stephen J. Hawkins, Stephen Hawkins et S. Hawkins ne forment qu’une seule occurrence.
2Éliminez les données superflues
Plus vous pouvez affiner vos données aux limites du cas d'utilisation spécifique que vous examinez, plus votre algorithme sera capable de traiter les données rapidement, et plus il sera susceptible de fournir les informations que vous recherchez.
- Par exemple : éliminez les données sans lien avec la recherche, comme l’adresse des individus lorsque la localisation n’est pas demandée.
3Corrigez les données ‘cassées’
Dans certains cas, faites appel à l’humain pour corriger manuellement les données ‘cassées’ avant que l’ensemble des données ne soit examiné par un algorithme. Plus vos données sont précises, plus vos résultats analytiques seront précis.
- Les données ‘cassées’ peuvent par exemple provenir d’une faute d'orthographe (dans une abréviation ou un nom de famille ou...) qui crée un enregistrement supplémentaire qui ne devrait pas figurer dans un ensemble de données.
4Recadrez vos algorithmes
Les algorithmes de données n’entrent pas toujours dans le cadre établi. Elaborez soigneusement l'algorithme pour qu'il corresponde parfaitement à votre analyse de rentabilisation. Et n’hésitez pas à renseigner vos questions avec plus d’éléments afin de mieux qualifier la requête.
5Obtenez un consensus des utilisateurs
Ne prenez jamais de décision unilatérale à propos des données, en particulier d’exclusion, sans d'abord vérifier auprès des utilisateurs, car ils peuvent savoir quelque chose que vous ne savez pas.
- Par exemple : vous pourriez être tenté de restreindre une recherche sur la consommation des jouets sur le lien parental direct (parents/enfants), mais vos collaborateurs vous rappelleront que les grands-parents, les oncles/tantes, etc. sont aussi acteurs des achats.
6Vérifiez les résultats
La tendance avec les algorithmes et les requêtes Big Data est de les réviser et de les relancer au besoin, mais pas nécessairement d’enregistrer les résultats. Il peut cependant être important de revenir sur une version révisée d’une requête pour comparer, analyser et comprendre des résultats.
Image d’entête 907330012 @ iStock z_wei