En juillet, près de 8,5 millions produits et services étaient affectés par des incidents causés par la mise à jour du logiciel CrowdStrike Falcon intégré aux solutions de Microsoft. Ce fiasco est notamment dû à un défaut de contrôle qualité et à la concentration croissante des fournisseurs IT.

Le problème qui a induit des perturbations massives à une échelle inédite ne tient pas du hasard, il était tout à fait plausible. Milliers de vols annulés et des retards considérables, services financiers hors service pour les clients finaux, fonctions IT fortement dégradées dans les hôpitaux, les conséquences ont représenté d’importants coûts et dommages.

Falcon de Crowstrike est une solution de cybersécurité intégrée entre autres à Azure et à la suite 365 de Microsoft. Elle est déclinée en plusieurs produits basés sur le machine learning et comprend un EDR, un antivirus de nouvelle génération, le blocage des attaques
Zero-Day, etc. Autrement dit, une forteresse vendue comme imprenable mais qui a montré
ses limites.

La cause initiale de la panne était une mise à jour défectueuse de la configuration du capteur de Falcon qui affectait seulement les systèmes Windows. Une mise à niveau du fichier de canal 291 qui ne concernait que les OS Windows, ce code n’étant pas présent sur les systèmes macOS ou Linux. Il concerne le Kernel (noyau de l’OS) qui gère les ressources matérielles et logicielles d’un ordinateur.

Microsoft et et Crowdstrike se sont empressés d’éteindre le feu en publiant un communiqué rassurant mentionnant leur étroite collaboration. La firme de Bill Gates a accusé la Commission européenne d’avoir empêché Microsoft d’apporter les modifications de sécurité qui auraient permis de bloquer la mise à jour de Crowdstrike. Un argument spécieux étant acquis que Microsoft avait conclu un accord avec la Commission à ce sujet en 2009. Pourquoi la firme américaine n’a-t-elle pas alors avancé le risque mondial majeur qui s’est révélé bien réel pour négocier ce point critique de l’accord ?

Une remédiation manuelle difficile

La récupération a été difficile car les ingénieurs ont dû corriger manuellement de nombreux équipements. D’autre part, un déploiement progressif des mises à jour aurait sans doute permis de réduire l'impact de la panne. Cause aggravante, le chiffrement des supports de stockage était nécessaire mais il a complexifié la récupération des données en exigeant l'accès à la clé de récupération BitLocker pour accéder aux informations.

Il sera difficile de revenir sur la concentration des fournisseurs entre quelques mains qui a potentialisé les impacts de la panne mondiale mais cette centralisation explique
sa diffusion internationale.

Tirer les enseignements des erreurs commises

Le renforcement de l'infrastructure numérique est essentiel pour atténuer l'impact d'éventuelles cyberattaques et défaillances des infrastructures. Il ne suffit pas d’afficher une démarche qualité, encore faut-il l’appliquer et la tester régulièrement. En l’occurrence, la mise à jour incorrecte de Falcon de Crowstrike n’aurait jamais dû être publiée en l’état. Outre les impacts pénalisants sur l’activité, une telle situation de chaos numérique ouvre la porte à des attaques opportunistes.

Les plans de reprise d’activité (PRA) après incident doivent être clairs et testés pour minimiser les temps d'arrêt et les pertes potentielles de données. Des procédures qui reposent, notamment, sur des sauvegardes pertinentes et isolées du SI pour les données les plus critiques. Enfin, la confiance accordée aux procédures automatisées des EDR et autres outils ne devrait en aucun cas endormir la vigilance des développeurs
et équipes de sécurité.