Le rapport annuel 2024 sur les pannes des centres de données de l'Uptime Institute offre une vision mitigée des pannes en 2023 : alors que le nombre et l’empreinte des centres de données augmentent, les pannes sont moins nombreuses. Les fluctuations de l’alimentation, les pannes de réseau et les erreurs humaines restent les principales causes de dysfonctionnement.

La société moderne repose sur les communications et les flux continus des personnes, des marchandises et des biens. D’ailleurs, les gouvernements disposent de plans d’urgence pour sécuriser les infrastructures vitales comme les routes, les canaux, les voies ferrées, les réseaux de fournitures en eau et en électricité… Le passage à une économie postindustrielle, celle des services et du savoir, ont mis les infrastructures numérique sur un pied d’égalité avec les infrastructures précité, qualifiées de vitales. Elles sont devenues les socle sur lequel repose l’économie et la société modernes : hyperconnectée, mobile et distribuée. Elles facilitent les échanges, la communication, le stockage et le traitement des données à une échelle sans précédent.

Cependant, cette dépendance croissante aux infrastructures numériques soulève également des enjeux cruciaux en termes de maintenance et de sécurité. Garantir leur fonctionnement optimal et leur résilience face aux dysfonctionnements et aux cybermenaces est devenu une priorité absolue. En effet, toute défaillance ou interruption de service peut avoir des conséquences désastreuses, tant sur le plan économique que social.

L'Analyse Annuelle des Pannes de l'Uptime Institute 2024 met en lumière les principaux facteurs contribuant aux pannes des centres de données, offrant des aperçus précieux pour les acteurs de l'industrie. Pour ne prendre en compte que les pannes des centres de données et non les pannes de services informatiques, les chercheurs d’Uptime ont interrogé les répondants sur les pannes survenues dans l'installation spécifique qu'ils connaissent le mieux, plutôt que sur le site le plus important au sein de l'organisation de l'opérateur du centre de données. Cela peut avoir entraîné certains changements dans les données - cependant, les questions de contrôle suggèrent que l'effet sur les comparaisons longitudinales a été mineur.  

Plus de centres de données, mais moins de pannes

« Alors que l'empreinte des centres de données s'étend pour répondre à la demande, le nombre total de pannes liées aux centres de données devrait augmenter », commente le rapport. Cependant, c’est le contraire qui survient. Les données d’Uptime révèlent une tendance constante à la baisse de la fréquence et de la gravité des pannes au regard de la croissance continue des centres de données. Cette tendance est observée depuis plusieurs années.

Plus de la moitié (55 %) des opérateurs ayant répondu à l'enquête de 2023 de l'Uptime Institute déclarent avoir subi une panne au cours des trois dernières années. Ce chiffre est à mettre en relation avec les 60 % déclarés en 2022 et les 69 % en 2021. Dans le même temps, seule une panne sur 10 en 2023 a été qualifiée de sérieuse ou grave. Il s'agit d'une amélioration de 4 % par rapport aux réponses de 2022 et d'une amélioration de 10 % par rapport à 2021.

Malgré l'augmentation des facteurs de risque, les taux de pannes par installation est en baisse. L'étude Uptime révèle que, d'une année sur l'autre, la plupart des organisations investissent davantage dans les domaines de la redondance de l'infrastructure physique.  

La qualité des réseaux de distribution énergétique en cause

D’après le rapport, les problèmes liés à l'alimentation en énergie sont un défi persistant, avec les fluctuations de tension et les interruptions de courant identifiées comme la principale cause des pannes impactantes. Selon les répondants, ces pannes comptent pour 52 % des pannes totales, le refroidissement arrive en seconde position avec 19 % des pannes, puis viennent les pannes dues aux fournisseurs tiers avec 9 %. C’est seulement à la quatrième place qu’on retrouve les pannes informatiques (hard et soft) avec 8 %, suivies par les pannes réseau avec 7 %.

« Dans un secteur fortement dépendant de l'alimentation électrique ininterrompue, traiter les vulnérabilités liées à l'alimentation est crucial pour maintenir la continuité opérationnelle », notent les rédacteurs de l’étude. Alors que la demande de services de centres de données continue de croître, la résilience énergétique reste un domaine d'intérêt crucial pour les entreprises cherchant à atténuer les risques de temps d'arrêt.

Outre les fluctuations de l’alimentation, les défaillances liées au réseau (7 %) représentent un autre aspect critique des incidents, soulignant l'importance d'une infrastructure réseau robuste pour soutenir les opérations des centres de données. Avec la complexité croissante des écosystèmes numériques et l'essor des services cloud, garantir la fiabilité du réseau est essentiel pour une connectivité fluide et un accès aux données. Les volumes de trafic de données augmentent, les entreprises doivent donc prioriser la résilience du réseau pour maintenir les niveaux de service et l'expérience utilisateur.

Les défaillances d'équipements de refroidissement, bien qu’en seconde position, sont presque trois fois moins fréquentes que les problèmes d'alimentation. Elles peuvent avoir des répercussions significatives sur les performances des centres de données. Alors que ceux-ci luttent contre l'augmentation des charges thermiques provenant de l'informatique haute performance, optimiser les systèmes de refroidissement est impératif pour prévenir les perturbations liées à la température.  

Le facteur humain, une préoccupation persistante

Sur le plan humain, les opérateurs de centres de données sont confrontés à des défis considérables lorsqu'il s'agit de prévenir et d'atténuer les temps d'arrêt causés par l'erreur humaine. Les chiffres recueillis indiquent que 39 % des incidents sont imputables aux humains. La première des cause de ces erreurs est le non-respect des procédures (48 %), les erreurs de processus (45 %), les problèmes d’installation (23 %), aux problèmes de formation (20 %) et aux sous-effectifs (15 %).

Selon l’étude, outre la formation, ces incidents soulignent l’importance cruciale de l'adhésion du personnel aux procédures et la nécessité de protocoles opérationnels robustes. À une époque où les interactions homme-machine sont essentielles aux opérations des centres de données, investir dans des programmes de formation complets et des améliorations procédurales peut atténuer les risques associés à la faillibilité humaine.

Les problèmes liés aux fournisseurs tiers présentent une préoccupation croissante, reflétant la dépendance croissante aux services externes dans l'écosystème de l'infrastructure numérique, affirme le rapport. Alors que les entreprises exploitent de plus en plus les services cloud, d'hébergement et de colocation, garantir la fiabilité et la responsabilité des fournisseurs tiers est essentiel pour se prémunir contre les interruptions de service et les vulnérabilités des données.

Alignée sur les tendances actuelles du secteur des centres de données, l'analyse de l'Uptime Institute souligne les besoins évolutifs des entreprises en matière de solutions d'infrastructure résilientes et agiles. Avec la prolifération des technologies basées sur les données et l'accent croissant sur la transformation numérique, les organisations recherchent des stratégies innovantes pour améliorer les performances des centres de données et atténuer les risques de temps d'arrêt.

Pour répondre aux besoins émergents des entreprises, l'Uptime Institute préconise une gestion proactive, une optimisation des processus et une formation continue pour renforcer la résilience des centres de données. En mettant l'accent sur l'importance de meilleures pratiques de gestion et de configuration, les entreprises peuvent anticiper les déclencheurs potentiels de pannes et améliorer l'efficacité opérationnelle.