Dans le flux des données qui alimentent le Big Data, une partie d’entre elles sont considérées comme imparfaites. On les appelle les ‘données floues’. Faut-il pour autant les rejeter ?
Lorsque l’on évoque les premières approches du Big Data, c’est souvent au travers de la multiplication et de l’hétérogénéité des sources de données et des données elles-mêmes. Domine alors l’idée qu’en multipliant les volumes de données analysées, nous pourrons en tirer quelque chose.
Cette idée est généralement très vite abandonnée, car la qualité des analyses dépend la plupart du temps de la qualité des données. Une partie des équipes Big Data et des data-scientists va alors se pencher sur la qualification de la donnée, avant son analyse. Avec un déchet qui peut se révéler considérable puisque plus on affine la source des données, et plus on en jette…
Qu’est-ce que les données floues ?
Le nom, tout d’abord, de données floues, fait référence à la théorie mathématique de la logique floue, créée par Lotfi Zadeh en 1965. Elle est destinée à modéliser les imperfections des données. Ne croyez pas que cette logique soit méconnue, elle est au contraire largement répandue, dans les jeux vidéo, par exemple, ou dans les pilotes automatiques. Et aujourd’hui dans l’intelligence artificielle.
Le principe de la logique floue, qui est une extension de la logique booléenne, est d’introduire un degré de vérification d’une condition. En intelligence artificielle, cela se traduit par une action déclenchée si un ensemble de faits concordants est réuni. Ce ne sont donc pas des faits confirmés qui lancent une action, mais un système basé sur un ensemble de règles. Appliqué à la prise de décision, on appelle cela un système d’inférence flou.
Se pose alors la question : faut-il rejeter les données floues ?
Il est facile de décider arbitrairement d’écarter des ensembles de données imparfaites ou non validées, et de les exclure des analytiques. Pour autant, une grande partie de ces données sont aujourd’hui difficilement qualifiables, comme les données non structurées, vidéo, images, etc. Dans le même temps, des outils permettent d’exploiter ces données qui, quoi qu’il arrive, ne peuvent obtenir un niveau élevé de qualité, voire de confiance.
Le meilleur exemple, c’est l’exploitation des données extraites des réseaux sociaux, exploitées pour l’analyse des sentiments. Paradoxalement, plus le volume de ces données floues est élevé, et plus la cote de confiance des évaluations est élevée. Dans ce cas, de la masse émerge la tendance, plus que de la qualité du profilage des sources. C’est discutable, mais la loi des 20/80 nous l’a démontré depuis plus d’un siècle.
De la saisie à la cartographie de la donnée
Il ne s’agit cependant pas de réaliser des analytiques dans le vide, ou plutôt dans le trop plein ! Au contraire, l’analytique des données floues sera des plus pertinentes si elle est réalisée par des experts. Et ces derniers commenceront par établir des règles et de la documentation claire pour se défendre contre les critiques. Ils développeront également une gestion intelligente de la capture de la donnée. Et ils documenteront les techniques de cartographie des données.
Cette approche permettra d’établir une cote de confiance de la donnée accessible dans et à l’extérieur de l’entreprise. Et donc de donnée de la valeur à la donnée floue qui deviendra ainsi un élément de la prise de décision. Donc, ne jetez pas vos données, elles peuvent recéler des trésors.
Image d’entête 639762808@ iStock Shivendu Jauhari