La donnée est considérée comme « le pétrole du XXIe siècle ». Ce n'est donc pas une surprise si les entreprises sont tentées de la thésauriser, c'est à dire d'en faire un trésor. Ce qui implique évidemment de déployer les bons outils pour les bons usages... ou les bons utilisateurs !

La thésaurisation des données est une tendance majeure dans l'entreprise, qu'elle soit imposée par la volonté de conserver la donnée, ou qu'elle soit issue du comportement généralement conservateur des utilisateurs. Le stockage des données est évidemment impacté par cette pratique. Stéphane Estevez, responsable senior du marketing produits pour les régions EMEA chez Quantum, a répondu à nos questions.

IT Social : La thésaurisation des données est-elle une réalité dans l'entreprise ?

Stéphane Estevez : Les sociétés et leurs employés pratiquent la thésaurisation des données, c'est une réalité qui se confirme étude après étude. Les thésaurisateurs ne s’assument pas toujours et se montrent souvent curieux de connaître les options possibles. Contrairement à une croyance répandue, ce type de comportement est tout à fait admissible. Il est parfois nécessaire, et très souvent les données sauvegardées ont beaucoup de valeur aux yeux de l’entreprise. Une représentation claire de la mission et des besoins de l'organisation éclairera sur les meilleures pratiques pour maximiser la valeur du contenu conservé.

Existe-t-il des profils de thésaurisateurs ?

Oui, et on distingue quatre profils de thésaurisateurs - le pacifiste, le captif, l’opportuniste et le capitaliste - auxquels correspondent des meilleures pratiques et technologies associées.

Le profil « pacifiste » décrit une personne ou une organisation considérant qu’il est pertinent de tout conserver, même si rien ne l’y oblige. Il n’existe pas de politiques ni de directives formelles régissant la suppression des données. Ces utilisateurs ne prennent pas le temps de supprimer leur contenu et le service informatique n’est pas habilité à réaliser ces suppressions. Le risque et le coût associés au fait de ne rien changer sont supportables à tous les niveaux. Les coûts de stockage et de protection sont acceptables et les fenêtres de sauvegarde satisfaisantes ; garder tout ce contenu n’expose à aucun risque juridique et rien ne motive une réduction des coûts du stockage ou de l’infrastructure. C'est le nirvana pour les plus chanceux.

Le profil « captif » est celui de nombreuses organisations des secteurs de la finance et de la santé. Depuis des années, voire des décennies, ce sont les réglementations et les politiques d’entreprise qui régissent la thésaurisation des données. La valeur commerciale au quotidien du contenu préservé est négligeable. Les mesures du temps d’accès aux données et des performances, si elles existent, vont aider à choisir une technologie.

L'« opportuniste » génère et acquiert un précieux contenu. Il consent à des investissements considérables pour développer le contenu et il serait immoral que celui-ci ne soit pas disponible à l’avenir lorsqu’une utilisation parfaite émergera. Il veut souvent disposer de données plus construites que les snapshots collectés au fil du temps ou profiter d’une occasion qui se présente pour monétiser le contenu. En règle générale, l’utilisation du contenu thésaurisé par l’opportuniste n’est pas planifiée. Une occasion se présentera et pourra s’évanouir rapidement s’il n’est pas aisé d’obtenir le contenu pertinent. L’organisation qui saura faire preuve d’agilité et puiser régulièrement dans le passé pourra se procurer un avantage énorme. Celles qui ne se limiteront pas à exploiter le contenu actuel seront les championnes de la performance.

Le contenu est roi. Le « capitaliste » en a fait son métier et génère ou capture un contenu qu’il est difficile, voire impossible de reproduire. Il commercialise, vend et monétise le contenu.  Les données et le contenu sont au cœur de sa stratégie commerciale ; sa réussite se mesure à la vitesse à laquelle il peut fournir le contenu, au coût du stockage de ce contenu tant qu’il n’est pas utilisé, qui doit être aussi bas que possible, et même au volume du dépôt de données dont il provient.

Quelles sont les exigences et les technologies liées à la thésaurisation ?

À chaque profil correspond un ensemble d’exigences pour les architectures de stockage des données. Un temps d’accès aux données plus long est acceptable pour certains et totalement inenvisageable pour d’autres. Cependant, dans presque tous les cas, lorsque de gros volumes de contenu sont thésaurisés, le principal écueil à éviter est le recours à un stockage hautes performances onéreux.

Il existe de nombreux outils formidables pour évaluer le pourcentage du contenu non actif d’une entreprise (50 à 80 % en général) et démontrer que celui-ci devrait être stocké sur un niveau moins cher. Par exemple la bande LTFS, le disque pour le stockage objets ou le cloud. En revanche, un équipement NAS bon marché n’est pas un choix judicieux dès lors que le coût de protection du contenu est pris en compte ; il faudra prévoir un logiciel de protection et un matériel pour la réplication, ce qui fera grimper le coût de possession et alourdira l’infrastructure.

Lorsque l’on évoque les meilleures pratiques, faire référence à des choix de technologies de stockage spécifiques est inévitable. Avoir une vision complète des meilleures pratiques de thésaurisation suppose de bien comprendre ce que sont les data movers et les technologies de stockage.

Quelles sont les meilleures technologies pour chaque profil ?

Pour le pacisfiste et le captif, il faut exploiter pleinement le processus de stockage. Les données conservées ne sont pas stratégiques et les investissements doivent donc être axés sur la protection des données actives et l’optimisation de ce processus pour la rétention à long terme. La sauvegarde sur disque avec déduplication ou sur bande sont deux possibilités tout à fait acceptables. L’accès rapide au contenu conservé n’est pas essentiel et il est donc acceptable de s’appuyer sur les travaux de sauvegarde pour la rétention, en copiant la sauvegarde sur bande vers un archivage à long terme (deep archive), ou en envoyant une copie des données de sauvegarde pour l’archivage dans un Cloud.

Pour l'opportuniste, il faut déployer une archive active et économique. Vous voulez tirer parti du contenu quand vous en avez besoin mais vous ne pouvez pas prévoir quand cela se produira ? Une bande LTFS ou un disque combiné au stockage objets sont très économiques pour thésauriser le contenu. Ces choix technologiques permettent un accès aisé (archive active) au contenu. Lorsqu’une forte croissance, un déploiement à plus grande échelle et un accès global sont importants, le choix du stockage objets s’impose, bien qu’une infrastructure d’accès globale faisant appel à la bande LTFS reste une option à envisager.

Pour le capitaliste, il faut intégrer l'accès actif et la protection du contenu. La sauvegarde sur disque s’impose lorsque l’aspect est essentiel, mais sauvegarder un contenu très volumineux n’est pas toujours pratique. Certains jeux de contenu représentent un volume de dizaines ou de centaines de téraoctets. Pour ces environnements, l’archivage et la protection doivent aller de pair. Le stockage objets avec dispersion des données est parfait dans ce cas de figure. Il est possible de stocker les données et de les protéger en même temps, de manière économique. Les plus petits environnements (moins de 200 To de données) pourront bien s’accommoder de la bande LTFS mais les environnements plus vastes doivent envisager le stockage objets.

Comme vous pouvez le constater, la thésaurisation des données se justifie pour beaucoup de bonnes raisons, et lorsque les motivations qui incitent à adopter ce comportement sont clairement identifiées, le choix de la meilleure méthode pour gérer les données devient lui aussi évident. La question qu'il faut se poser, c'est quel type de thésaurisateur êtes-vous ?