Vous souvenez-vous aux origines du Big Data - il y a 4 à 5 ans, pas plus – après la démonstration technologique le discours basculait systématiquement sur les 4V : Volume, Variété, Vélocité et Véracité. Il est désormais temps d’y ajouter un cinquième 'V' : la Vertu.
Nous connaissons tous cette histoire : un data-scientist a construit pour la chaine américaine de grandes surfaces Target un modèle d’analyse reposant sur l’identification de 25 produits qui, achetés ensemble, aboutit à la prédiction de la grossesse. Et d’expédier à la cliente ainsi identifiée des offres personnalisées de promotion en relation avec la naissance prochaine.
Mais voilà qu’un père furieux est entré dans un magasin Target en brandissant des coupons félicitant une adolescente pour sa grossesse et lui offrant des rabais sur les couches. Son père venait d’apprendre par ce biais qu’il allait être grand-père, et donc que sa chère jeune fille était enceinte !
Cette histoire a deux conclusions : la première est que le Big Data lié à l’analyse de très gros volumes de données se révèle efficace, confirmant par là même la pertinence du modèle construit par le data-scientist. Mais dans le même temps, l’histoire a porté un lourd préjudice à l’image de Target, les magasins qui, en plus de se faire dérober des dizaines de milliers de coordonnées bancaires de ses clients, se permet de compulser et d’exposer même accidentellement des informations privées.
Le Big Data à l’index
Ce que l’affaire Target vient confirmer sur le Big Data, c’est que l’exposition massive des données offre aux organisations un accès aux renseignements personnels comme jamais auparavant. Et que si cette information peut être bénéfique, elle peut également être mise à profit… des entreprises en priorité.
Si le consommateur confie à l’entreprise, souvent à son insu, des informations qui relèvent de la vie privée, il appartient aux organisations de respecter cette vie privée en assurant l’intégrité et une utilisation morale des données. La réalité nous apprend qu’il n’en est souvent rien !
Il ne s’agit pas ici de jeter la pierre aux entreprises, certaines pratiques d’enrichissement des bases de données s’exercent depuis bien longtemps en dehors de tout cadre déontologique, même si celles et ceux qui les pratiquent le font de bonne foi… Le plan éthique soulève ainsi deux questions : la propriété de la donnée et la responsabilité sur ces données ?
Aux Etats-Unis, le débat rebondit sur les questions de santé. Que doit-on faire des prédictions sur les conditions de santé préexistantes ? C’est à dire, que faire lorsqu’un faisceau d’informations permet de prédire qu’un individu est prédisposé pour développer une maladie ou subir un événement de santé catastrophique, comme un arrêt cardiaque ?
Les assureurs américains ont apporté un élément de réponse à cette question, en construisant un modèle d’analyse prédictive pour identifier les risques et proposer dans le meilleur des cas une couverture adaptée, évidemment à un prix lui aussi adapté, voire dans le pire des cas en refusant la couverture et en mettant fin à des contrats ! Ces pratiques soulèvent des questions d’éthique…
La réponse de l’Europe
Entre l’explosion des volumes de données et l’augmentation également exponentielle de la puissance des traitements, d’une part les données sont une ressource de plus en plus précieuse, avec des modèles usages qui se multiplient, mais également un problème épineux et complexe sur la propriété de ces données.
L’Union européenne a commencé à apporter sa réponse en régulant les grands volumes de données au travers du RGPD (GDPR), le règlement européen sur la protection des données personnelles. Cette réponse très officielle et réglementaire, se fait critique pour la plupart des organisations. D’ailleurs, la majorité d’entre elles ne seront pas en conformité en mai prochain ! Espérons qu’elles auront a minima engagé les réflexions et les transformations pour aller dans ce sens, sinon le volet répressif risque de faire très mal… (lire : « La GDPR-RGPD et le cloud, entre idée fausse et bon plan »).
La démarche éthique est un sérieux problème qui se pose aux entreprises et aux organisations tant européennes qu’en dehors de la Communauté. Le principal risque si elles reproduisent les modèles de Target ou des assurances américaines étant d’être mis à l’index des clients ou consommateurs, et donc de casser leurs marques. Une démarche critique, donc, qui s’accompagne de la nécessité pour les pratiquants du Big Data et des analytiques de revoir leurs stratégies et leurs pratiques, dans une démarche vertueuse.
D’où la proposition de revenir sur les 4V du Big Data, le Volume, la Variété, la Vélocité et la Véracité, de les remettre au goût du jour, et de les compléter d’un cinquième ‘V’ : la Vertu.
Image d’entête 637325436 @ iStock TarikVision