Elle n’est pas la seule, et il est mathématiquement impossible de prouver que la ré-identification d’un individu est impossible. Une bonne raison pour les professionnels de ne recueillir que les informations strictement nécessaires et de réfléchir aux recoupements possibles.
La pointure de chaussure est l’un des indices susceptibles d’être utilisés par la police scientifique dans le cadre d’une enquête. La dimension des semelles de chaussures dont les traces ont été relevées sur une scène de crime peut fournir des informations nombreuses : la marque, le type de chaussure, la pointure de l’individu… Il existe par ailleurs des méthodes pour calculer approximativement la taille d’un individu à partir de sa pointure. Les traces de semelles confèrent aussi des indices tels que les déplacements effectués sur le lieu du crime et leur vitesse.
Dans le monde réel, les traces de pas contribuent ainsi à dresser le profil physique d’un suspect et participent de son éventuelle identification.
Dans le monde virtuel, la pointure d’une chaussure permet aussi d’identifier des individus, pour la plupart innocents de tout crime ou forfait.
Et il se trouve qu’il est sans doute plus facile de trouver les traces laissées par une chaussure en ligne que dans le monde réel. La raison en est simple : les informations sont enregistrées dans des bases de données en ligne qui renseignent le profil d’un utilisateur de site ecommerce.
La pointure de chaussures est en effet l’un des très nombreux identifiants indirects qu’on laisse en ligne. Si ces données ne sont pas identifiantes par nature, elles peuvent le devenir par assemblage avec d’autres données indirectes.
Parmi elles, l’âge, la date de naissance, le genre, le code postal, mais aussi les goûts cinématographiques, gastronomiques, les équipements de la maison, du jardin, les animaux domestiques, le type de véhicule, les numéros plaques d’immatriculation, les antécédents médicaux.
Il ne s’agit bien sûr que de quelques exemples. Les identifiants indirects sont si nombreux et si variés que l’on estime qu’il est mathématiquement impossible de prouver qu’un jeu de données est parfaitement anonyme.
C’est le principe de l’inférence qui permet de ré identifier un individu par le regroupement de plusieurs identifiants indirects, il s’ajoute à la singularisation (dans tout jeu de données, il existe des valeurs marginales ré-identifiantes) et au recoupement.
Pour inciter les responsables du recueil, de la gestion et du traitement d données au sein des entreprises privées et publiques, le RGPD (Règlement Général pour la Protection des Données) indique (récital 26) que « pour déterminer si une personne physique est identifiable, il convient de prendre en considération l’ensemble des moyens raisonnablement susceptibles d’être utilisés par le responsable du traitement ou par toute autre personne pour identifier la personne physique directement ou indirectement, tels que le ciblage ».
La formule, assez sibylline, a le mérite de prendre en compte l’impossibilité d’assurer l’absence de réidentification, et incite à une réflexion poussée sur le risque.
Anonymiser, à savoir masquer ou remplacer des informations personnellement identifiables (PII) ou des données commercialement sensibles au sein d’une base de données est souhaitable, mais ne peut pas suffire.
Il faut aller plus loin et c’est là que la notion de privacy by design prend tout son sens.
Les principes essentiels qui s’appliquent lorsque l’on réalise cet effort sont les suivants :
- réduire la surface d’attaque, limiter la propagation des données, un principe parfaitement en ligne avec la limitation du stockage des données qui ne sont pas utiles (en ligne également, faut-il le rappeler avec des considérations environnementales et notamment la réduction de l’empreinte carbone de l’économie numérique)
- réfléchir de manière transversale au sein des entreprises et administrations aux spécificités de chaque secteur, chaque métier et envisager les recoupements possibles avant de demander aux utilisateurs d’un service de renseigner des identifiants indirects qui seront ensuite stockés dans une base de données
- le faire de manière régulière : chaque nouvelle fuite de données rebat les cartes de l’inférence, chaque nouvelle technologie est susceptible de remettre en cause un niveau de sécurité considéré jusque-là comme satisfaisant (quid du recours au quantum computing, à l’intelligence artificielle par les cybercriminels ?)
Il est impossible de garantir l’anonymisation parfaite d’un set de données, en revanche il est possible de parvenir à atteindre des risques de réidentification assez faibles, à condition de prendre en compte ces trois paramètres.
Pensez-y la prochaine fois que vous aurez à intégrer un champ « pointure de chaussures » un formulaire, une base de données ou quand vous renseignerez votre pointure dans un site de vente en ligne.
Par Damien Clochard, DBA PostgreSQL chez Dalibo