La DINUM, la direction interministérielle du numérique, chargée de la stratégie de l’État dans le domaine du numérique, a publié la semaine dernière un outil open source utilisant une intelligence artificielle pour pseudonymiser des documents. Développé par le Lab IA d’Etalab, l’API est disponible à l’essai ainsi qu’un guide de pseudonymisation qui détaille les étapes de la démarche. L’utilisateur charge ou fait glisser un document dans la fenêtre de la page web, de type .doc, .docx ou .txt d’une taille maximale de 100 Ko. L’outil détecte les données personnelles dans le texte et marque les entités repérées qui sont affichées avec des codes couleur vert ou rouge.
Cette initiative s’inscrit dans le cadre de la loi République Numérique, promulguée en octobre 2016, et qui fait de l’ouverture des données publiques, Open data, la règle par défaut. Et comme les administrations sont tenues d’occulter les données à caractère personnelles, la pseudonymisation est une étape indispensable. Elle consiste en un traitement de données personnelles réalisé de manière à occulter les données d’identification de personnes physiques sans avoir recours à des informations supplémentaires.
En pratique, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro dans un classement, etc.). En pratique, il est toutefois bien souvent possible de retrouver l’identité de ceux-ci grâce à des données tierces. C’est pourquoi des données pseudonymisées demeurent des données personnelles. L’opération de pseudonymisation est réversible, contrairement à l’anonymisation.