Aujourd’hui, les données sont probablement une des plus grandes richesses, et incarne la nouvelle ruée vers l’or. Mais, malheureusement, de nombreuses entreprises peuvent se retrouver dans la situation du roi Midas et réaliser que l’abondance d’une richesse peut devenir un véritable cauchemar.
En effet, tout comme ce roi mythologique à ses débuts, les entreprises du siècle dernier étaient avides de connaissances et de données exploitables sur lesquelles baser leurs décisions. À la recherche de cette denrée rare, elles n’ont alors pas hésité à accumuler toute information leur permettant de pouvoir, in fine, bénéficier d’un certain avantage concurrentiel.
Pour ces entreprises, la recherche de données exploitables et interprétables faisait l’objet d’un travail minutieux et d’analyses laborieuses. Typiquement, les magasins n’ont pu connaître les habitudes d’achat de leurs clients qu’après l’arrivée de solutions de capture de données reliant les codes-barres aux cartes de fidélité. En plus de prévoir les habitudes d'achat, les acteurs du secteur ont pu ajuster les stocks en fonction des besoins et de la saisonnalité ou encore réduire les pertes et les gaspillages alimentaires. Si cette innovation a marqué le début d'un âge d'or en matière d’exploitation des données, elle a également ouvert la voie à une infinité de nouvelles opportunités. Mais l’histoire ne s’arrête pas là et les données continuent d’être exploitées, aidant ainsi de nombreux secteurs. Les médecins disposent de dossiers médicaux plus détaillés pour établir leurs diagnostics, les systèmes de navigation par satellite nous permettent de contourner les accidents de circulation et de nous rendre au travail à l'heure, ou encore les sociétés de divertissement peuvent prédire nos goûts et nous recommander de la musique ou des films. Que ce soit dans ce type de situations – ou encore dans d’autres, il s’agit du nec-plus-ultra des bénéfices tirés de la data pour nos sociétés contemporaines.
L’excès participe à la chute du système
Toutefois, de nombreuses entreprises constatent aujourd'hui que le fait d'obtenir tout ce qu'elles voulaient - et plus encore - peut être une arme à double tranchant. Les données ne sont puissantes que si elles sont exactes. Par conséquent, si les données sont manquantes, corrompues ou indisponibles, c'est tout le système qui s'écroule. En outre, plus il y a de données, plus elles sont difficiles à gérer. La situation est comparable à une partie de Tetris : c’est facile au début, mais lorsque les briques tombent plus vite et en plus grand nombre, on peut finir par être dépassé et c’est le« Game over ».
À l’instar de Midas, dans un monde où il est presque impossible de toucher quoi que ce soit sans créer des données, de nombreuses entreprises en reçoivent plus sur leurs réseaux qu'une équipe humaine ne peut en surveiller. Noyée dans les informations du Big Data, la prise de décision basée sur les données commence à devenir problématique. La quantité massive de données non-traitées engendre donc des manques, qui obscurcissent la prise de décision. Un médecin peut-il poser le bon diagnostic lorsque les résultats de certains tests sont manquants ? Est-il possible de se déplacer rapidement et en toute sécurité sans disposer des données relatives au trafic et à certains axes routiers majeurs ?
Face à l’amoncellement de données variées et innombrables, les entreprises choisissent bien souvent l'option la plus simple : se concentrer sur les données qu'elles estiment importantes et stocker les autres sur le cloud pour juger de leur pertinence et les traiter ultérieurement le cas échéant. Cependant, selon une récente étude, seules 16 % des données dont disposent les entreprises sont « exploitables » et utilisées, alors que le reste de ces data sont au mieux des « ROSI » (redondant, obsolète ou sans intérêt) ou au pire des dark data.
Le stockage de toutes ces données inutilisées a un coût, et pas seulement financier. À l'échelle mondiale, ces serveurs de stockage nécessitent d'énormes quantités d'électricité, qui participent à l’augmentation des quantités de CO2rejetés dans l’atmosphère – pour ainsi dire ils génèrent une forte pollution dans un contexte où notre environnement climatique change. Pour la seule année 2020, le stockage des données non-exploitées a contribué à l'émission de 5,8 millions de tonnes de CO2 rejetés dans l'atmosphère. À titre de comparaison, il s’agit de la même empreinte carbone générée par l’activité de 80 pays.
Pour changer les choses, la stratégie de réévaluation rétroactive des données stockées ne pourra continuer de fonctionner qu’à la seule condition que l’environnement de l’entreprise n’ait pas profondément changé. Pour celle-ci, deux options s’offrent à elle ; soit l’entreprise doit endiguer le flux de données entrant, soit elle a besoin de plus de ressources pour le traiter. Et pour cause, les volumes de données sont loin de diminuer : la croissance continue des volumes de données atteint un taux de croissance annuel moyen de 23 %. De plus, les entreprises manquent de spécialistes IT pour faire face aux actions les plus critiques ; elles auraient besoin d’embaucher en moyenne 27personnes pour assurer la protection de leurs données, sans parler des problèmes plus généraux de gestion des données.
S’allier à la technologie
L’accumulation rapide des dark data nécessiterait un être surhumain pour en venir à bout. Pourtant, face à cette problématique, la réponse ne réside pas tant dans le fait d’avoir une personne dotée de super-pouvoirs mais plutôt dans celui de disposer d’une équipe avec des compétences accrues. Si l'Homme est doué de créativité et d’une prise de décision hors norme, la technologie l'est particulièrement pour le traitement rapide d'un grand nombre d'informations dans un contexte de Big Data. Exploiter l'Intelligence Artificielle (IA) ou encore le Machine Learning (ML), et les utiliser pour renforcer les compétences de l'équipe informatique existante, est la voie à suivre non seulement pour assurer une prise de décision efficace basée sur les données, mais aussi pour réduire l'impact environnemental du stockage.
C’est ici qu’intervient la notion de gestion autonome des données. Elle repose sur des plateformes technologiques qui apprennent les pratiques de gestion des données et les appliquent de manière indépendante à de nouveaux ensembles de données. Historiquement, l’application de ces politiques était une tâche manuelle : Quelqu'un devait indiquer à un système où les données devaient être stockées, comment elles devaient être utilisées et quand, finalement, elles devaient être supprimées. Il était donc fréquent que les entreprises adoptent une approche plus globale de la gestion des données, en mettant en œuvre une politique « pour toutes les données créées en Europe », par exemple. C'est ainsi que s'accumulaient les données inutilisées (et probablement inutilisables) qui restent ad vitam aeternam sur des serveurs inaccessibles qui consomment lentement et inutilement de l’énergie.
Toutefois, lorsque la gestion autonome des données prend le relais, l'IA peut permettre une prise de décision proactive et l'application de politiques à un niveau beaucoup plus granulaire. Elle peut apprendre les particularités des différents types de données et appliquer les politiques de stockage, de protection ou de suppression qui s'imposent. Ainsi, lorsque de nouvelles données sont créées, elles sont automatiquement protégées, stockées de manière sécurisée, rendues accessibles à qui de droit, et sont supprimées au bon moment.
L’heure du régime a sonné… pour réduire le poids des données
En adoptant une vision pérenne, les entreprises peuvent contribuer à réduire radicalement le volume de données stockées et la pollution qui y est associée. Non seulement elles peuvent supprimer les données dont elles sont sûres de ne pas avoir besoin, mais elles peuvent également réduire l'espace de stockage qui leur est nécessaire en optimisant la façon dont les données sont conservées.
De nombreuses informations détenues par les entreprises sont dupliquées plusieurs fois. Par exemple, si on détient un contrat et qu’on envoie une copie à un collègue par email, non seulement on disposera du document original mais aussi d’une copie dans le dossier des éléments envoyés. Dès lors, le collègue destinataire en aura une dans sa boîte de réception. Et dans l’hypothèse où cet échange est envoyé en copie à l’équipe juridique, à une personne du service financier et à trois autres membres de l’équipe qui travaillent sur ce compte, cela fait maintenant huit copies du même fichier qui sont toutes stockées - probablement pendant des années, sur les serveurs de l’entreprise.
Dans le monde des dark data, chacun de ces fichiers doit être conservé séparément car personne ne sait qu'il s'agit du même document. C'est comme avoir huit enveloppes scellées : tant que vous ne regardez pas à l'intérieur, vous ne pouvez pas savoir si les lettres qu'elles contiennent sont identiques ou différentes. Avec la gestion autonome des données, la technologie est utilisée pour surveiller les fichiers dans toute l'entreprise, en indexant les données identiques, en ne stockant que les données uniques et en remplaçant les doublons par des liens vers les versions originales.
Cette déduplication est particulièrement utile pour la sauvegarde des données, où les solutions ADM-driven[1] sont parfois capables de réduire d'environ 95 % la quantité d'énergie nécessaire au stockage de ces données, et dans le même temps les émissions de CO2 associées.
Il faut remarquer que pour les entreprises qui ont mis en œuvre des projets de transformation numérique pendant la pandémie, s'attendaient à ce qu'il y ait un décalage de deux ans entre le déploiement de nouvelles applications et la mise en place d'une protection pour les sécuriser. Cela représente deux ans de vulnérabilité aux ransomwares :deux ans de violations potentielles de la conformité mais aussi deux ans de risques qui pourraient être rapidement éliminés grâce à la gestion autonome des données.
L'Autonomous Data Management a le potentiel de restaurer les pouvoirs de décision des Big Data et de redonner le contrôle aux entreprises. Loin de se faire dépasser par la quantité et le potentiel des données dont disposent les entreprises, cette perspective annonce également un nouvel « âge d'or » des données et une vision plus claire pour les dirigeants en quête de perspectives et de nouvelles conquêtes.
Par Mark Nutt, Senior Vice President for International Sales chez Veritas Technologies
[1]Solution de pilotage et gestion de distribution d’application, (Application Delivery Management)