Les données sont à la fois source de forces et de risques et leur volume en entreprises n’est pas près de décroître.
Idéalement, une entreprise est en mesure d'exploiter ses données pour obtenir des informations qui lui permettront de se développer et de mieux servir ses clients. Dans le même temps, une organisation se doit de protéger ses données contre le vol ou l'utilisation abusive. Il s'agit d'un choix difficile, principalement parce que peu d'entreprises ont une idée claire de ce que contiennent leurs données et de l'endroit où elles sont conservées.
La classification des données offre une résolution à ce dilemme. La pratique de la découverte de données attribue des classifications de données, telles que « sensible », « contient des informations personnelles identifiables » (PII), « propriété intellectuelle » (IP) et ainsi de suite.
Il y a toutefois un problème : les processus de classification des données existants ne sont pas à la hauteur de la tâche. La classification manuelle des données est désespérément lente et demande beaucoup de travail. Les processus automatisés sont plus rapides, mais ne sont généralement pas assez précis.
Une nouvelle approche, connue sous le nom de classification dynamique des données, fonctionne mieux. Elle utilise le machine learning (ML) pour classer les données en fonction de ce qu'elles contiennent et non de règles imposées de l'extérieur.
Comprendre la classification des données
Avant de se pencher sur la classification dynamique des données, il convient de revoir ce que l'on entend par classification des données en général. La classification des données est un processus qui analyse les données, structurées ou non, et les organise en catégories en fonction de leur contenu, du type de fichier et d'autres critères prédéfinis.
Les données structurées se trouvent dans les bases de données. Les données non structurées comprennent les documents tels que les PDF, les messages électroniques etc. Parce qu'elles sont générées par les utilisateurs et très variées, les données non structurées peuvent être difficiles à classer avec précision.
Il existe différentes solutions pour effectuer la tâche de classification des données. Certaines sont spécialement conçues à cet effet. D'autres font partie des solutions de prévention des pertes de données (DLP).
Faire confiance aux collaborateurs pour la classification manuelle
Les utilisateurs peuvent classer eux-mêmes leurs données. Si un employé crée un PDF, il peut lui attribuer une catégorie, à condition qu'un système ait été mis en place pour étiqueter et classer les nouveaux fichiers. Dans certains cas, le système de classification manuelle est intégré au DLP pour empêcher le stockage de données sensibles au mauvais endroit, par exemple en bloquant le téléchargement d'un fichier contenant une adresse IP dans Dropbox.
La classification manuelle est bonne, en théorie, car les gens comprennent les données qu'ils regardent, surtout s'ils les ont créées. Le problème est que la classification manuelle des données est lente et fastidieuse. C’est typiquement le genre de taches que les collaborateurs oublient. Personne ne classifie jamais rétroactivement les données après qu'elles ont été générées. S'appuyer exclusivement sur la classification manuelle des données conduira inévitablement à une catégorisation incomplète des dossiers.
Investir dans les bons outils de classification automatique
La classification automatique des données se fait par le biais d'une sorte de moteur de classification, c'est-à-dire un logiciel qui fait correspondre les chaînes de données (c'est-à-dire les mots) de chaque fichier à un ensemble de paramètres de recherche définis. C'est un processus beaucoup plus rapide et efficace que la classification manuelle. Le problème de la classification automatique des données est que sa précision peut être inégale.
Utiliser la classification dynamique des données, pour quoi faire ?
La classification dynamique des données est un outil très utile. Avoir une compréhension plus complète et plus précise de vos données, et de l'endroit où elles sont stockées, offre plusieurs avantages. Il contribue à la sécurité, à la conformité et à l'atténuation des risques. La prise de décision s'améliore, et l'utilisation rentable des données par une entreprise peut également se généraliser.
Bien menée, la classification dynamique des données permet aux parties prenantes de comprendre l'importance relative des différents éléments de l'ensemble des données de l'entreprise. Toutes les personnes qui ont besoin de savoir sauront avec certitude quelles données sont sensibles et lesquelles ont de la valeur.
À partir de là, ils peuvent prendre des décisions éclairées sur la sécurité des données. Par exemple, une classification précise et dynamique des données révèle les types de données qui seront exposés à un risque en cas de violation. Étant donné que la sécurité des données a un coût, une entreprise qui sait quelles données nécessitent le plus haut niveau de protection évitera de dépenser trop pour la sécurité des données.
Des données bien classées contribuent également à la mission de l'analyse des données. À un certain niveau, une entreprise axée sur les données ne peut analyser que les données qu'elle connaît. Si les données sont perdues parce qu'elles ne sont pas classifiées - et sont donc invisibles - elles ne peuvent pas offrir les avantages de l'analyse.
La classification des données profite également au service informatique. Le stockage et la gestion des données représentent des investissements importants. Grâce à la classification dynamique des données, les responsables informatiques et du stockage peuvent avoir une idée précise de la quantité de chaque type de données qu'ils doivent gérer. Les données les plus prioritaires sont généralement stockées sur des supports plus performants et plus coûteux. Le fait de connaître la quantité de données nécessitant un stockage de niveau supérieur permet d'éviter de dépenser trop pour ce type de stockage, pour ne citer que cet avantage. La classification peut également aider à trouver les données en double, ce qui se traduit par des économies sur les coûts de stockage et de sauvegarde.
Par Luc Manigot, Directeur centre d’excellence chez Sinequa