« Nous avons actuellement des problèmes système, le check-in est momentanément indisponible, […] on va vous enregistrer manuellement. »

L’alerte est apparue ce matin vers 7 heures sur un des canaux Webex réunissant les volontaires de Paris 2024. Elle s’est rapidement propagée à d’autres, jusqu’à ce que l’incident soit présenté comme une « panne mondiale » perturbant la remise des accréditations aux bénévoles.

Certains auront fait remarquer que le problème n’affectait pas que les Jeux. Ainsi un volontaire belge : « Ici […], les trains et 2 hôpitaux sont impactés aussi ». Même constat pour un de ses pairs, ingénieur dans une entreprise allemande spécialisée en reconnaissance faciale. L’intéressé a accompagné son propos d’un lien vers un article de la BBC. Le titre : « Une panne informatique mondiale touche des compagnies aériennes, des hôpitaux, des médias et des banques ».

Au rang des compagnies aériennes, Air France a effectivement vu son activité perturbée. Moins, toutefois, que KLM.

Une panne informatique mondiale affecte actuellement plusieurs compagnies aériennes et aéroports dans le monde.

Nos opérations restent proches de la normale, à ce stade, seuls certains vols vers Amsterdam et Berlin sont perturbés.

Les autres vols partent et arrivent normalement… pic.twitter.com/fuQEmj13bM — Air France FR (@AirFranceFR) July 19, 2024

KLM and other airlines and airports have been affected by a global computer outage, making flight handling impossible. We realise that this is very inconvenient for our customers and staff, particularly in the midst of the summer holiday season. We’re working hard to resolve the… pic.twitter.com/O4gm7u0DIW — KLM (@KLM) July 19, 2024

Un problème origine Crowdstrike

En Inde, où la plupart des aéroports ont subi le contrecoup, on a ressorti les stylos pour réaliser les cartes d’embarquement.

The Microsoft / CrowdStrike outage has taken down most airports in India. I got my first hand-written boarding pass today 😅 pic.twitter.com/xsdnq1Pgjr — Akshay Kothari (@akothari) July 19, 2024

Comme le mentionne ce passager, l’incident implique Microsoft. Et surtout Crowdstrike : une mise à jour de son EDR Falcon a planté des postes Windows (client et serveur), entrés dans une boucle de redémarrage avec écran bleu.

Le souci n’est pas lié à l’agent lui-même, mais à une « mise à jour de contenu », affirme Crowdstrike.

CrowdStrike is actively working with customers impacted by a defect found in a single content update for Windows hosts. Mac and Linux hosts are not impacted. This is not a security incident or cyberattack. The issue has been identified, isolated and a fix has been deployed. We… — George Kurtz (@George_Kurtz) July 19, 2024

Par « mise à jour de contenu », il semble falloir entendre « fichier de définitions de virus ». Reste qu’au bout du compte, c’est bien l’agent Falcon qui plante. En tant que pilote noyau, il entraîne d’autant plus facilement l’OS dans sa chute.

BitLocker et autres complexités

En sus du correctif, Crowdstrike recommande une méthode de contournement. Elle consiste à lancer Windows en mode sans échec, à se rendre dans le dossier des pilotes et à supprimer un fichier problématique.

There is a faulty channel file, so not quite an update. There is a workaround…

1. Boot Windows into Safe Mode or WRE.

2. Go to C:\Windows\System32\drivers\CrowdStrike

3. Locate and delete file matching « C-00000291*.sys »

4. Boot normally. 1/2 — Brody (@brody_n77) July 19, 2024

Cette méthode peut s’avérer indispensable dans l’optique d’installer ledit correctif, même s’il arrive que des postes parviennent à le récupérer avant de crasher.

D’autres solutions de contournement ont émergé. L’une d’entre elles implique un script assorti d’une GPO. Une autre consiste à utiliser l’invite de commandes en mode admin pour désactiver le démarrage de l’agent. Certaines ne suppriment pas le fichier en cause, mais le renomment – lui ou son dossier parent.

This is what I did:

1. Reboot the machine in safe mode

2. Open command prompt with admin credential

3. Run the following command: sc config « csagent » start=disabled

4. Reboot normally — 🐼 (@faizinfy) July 19, 2024

BSOD > Troubleshoot > Advanced Options > Command Prompt, then run the command « move C:\Windows\System32\drivers\CrowdStrike C:\Windows\System32\drivers\CrowdStrike.bak » — Sølst1c3 (@s0lst1c3) July 19, 2024

Dans tous les cas, pour appliquer ces techniques, il faut pouvoir redémarrer en mode sans échec – avec réseau, c’est encore mieux – ou sur l’environnement de récupération Windows. Ce qui pose la question du dépannage à grande échelle. En particulier sur les machines auxquelles on n’a pas d’accès distant résistant au BSOD (boot réseau, accès niveau hyperviseur…).

C’est sans compter l’éventuel chiffrement du disque avec BitLocker. Un casse-tête dont témoignent certains. En premier lieu, ceux chez qui le serveur hébergeant les clés exécute lui-même l’EDR Crowdstrike.

De la Fnac à Canal+, des perturbations en France

La BBC n’a pas rencontré de problèmes de diffusion sur sa chaîne principale, mais sa chaîne jeunesse a connu des perturbations. La panne a été plus radicale pour Sky News. Et le rétablissement, progressif : la chaîne n’a pas tout de suite été en mesure de réaliser des incrustations.

JUST IN – Global cyber outage. Cybersecurity platform CrowdStrike is « down » worldwide, causing global IT problems, Microsoft crashes, 911 outages across several US states, and disruptions in international airlines, banks and media outlets. pic.twitter.com/8gW5RvTDNT — Disclose.tv (@disclosetv) July 19, 2024

En France, TF1 a pu assurer la diffusion de ses programmes « avec quelques dysfonctionnements ». Le problème a été plus sévère sur Canal+.

Comme beaucoup d’entreprises, le groupe TF1 est impacté par une panne informatique mondiale. Pour autant, nous sommes en mesure d’assurer la diffusion de nos programmes avec quelques dysfonctionnements. En outre, notre plateforme TF1+ n’est pas impactée. Toutes nos équipes… — TF1 (@TF1) July 19, 2024

*répercussions — INFO ABONNE CANAL+ (@InfoAbonneCanal) July 19, 2024

Le secteur de la grande distribution n’a pas été épargné. Illustration en France avec la Fnac, dont le site web est resté inaccessible pendant plusieurs heures, comme le système de retrait des commandes en magasin.

TECH OUTAGE: Self service machines across Woolworths supermarkets are not operational. Blue screen of death. #crowdstrike pic.twitter.com/RS42zcEQi2 — Archie Staines (@archiestaines9) July 19, 2024

Des systèmes critiques touchés

L’impact s’est également fait ressentir dans les transports (circulation du métro de Washington, validation de titres dans la métropole d’Auckland…). Idem dans la banque, la gestion des eaux, la distribution énergétique, les systèmes de santé publique… et les services d’urgence – dont le 911 dans plusieurs États américains.

Il y a donc, dans l’affaire, des systèmes critiques. De là, une question : jusqu’où faut-il y autoriser les mises à jour automatiques de programmes niveau kernel, y compris celles qui ne concernent que des bases de données ?

Les systèmes sous Windows 7 et Windows Server 2008 R2 ne sont pas concernés, précise Crowdstrike. La version problématique du pilote concerné est horodatée 0409UTC (soit 5 h 09 du matin à Paris), ajoute-t-il.

C’est effectivement l’heure que Microsoft mentionne sur la page de statut d’Azure. Il y adjoint trois recommandations :

– Avec le CLI, le shell ou le portail Azure, tenter de relancer les VM à plusieurs reprises (cela peut nécessiter jusqu’à 15 redémarrages)

– Sinon, restaurer une sauvegarde antérieure à la diffusion du « mauvais » correctif

– Ou bien tenter attacher le disque à une VM de dépannage pour supprimer le pilote

Microsoft 365 a aussi connu des perturbations. Si certaines sont liées à Crowdstrike (sur les Cloud PC, par exemple), c’est moins clair pour d’autres. Par exemple, celle survenue dans la nuit du 18 juillet sur la plaque États-Unis. Elle découle officiellement d’un « changement sur une partie du back-end Azure », avec pour conséquence une « interruption entre ressources de stockage et de calcul »…

We’ve completed our mitigation actions and our telemetry indicates all previously impacted Microsoft 365 apps and services have recovered. We’re entering a period of monitoring to ensure impact is fully resolved. For more information, see MO821132 within the admin center. — Microsoft 365 Status (@MSFT365Status) July 19, 2024

En pré-marché, l’action Crowdstrike avait perdu près de 20 %. Son cours est remonté depuis l’ouverture, mais elle cote toujours sous sa dernière valeur de clôture (- 10 %).

Ces crétins chez Crowdstrike ont publié un correctif alors qu’ils avaient réussi en une seule manip à bloquer les bourses, le système bancaire et les avions, risquant ainsi de sauver la planète. Tout est à refaire maintenant. — Laurent Chemla (parodie) (@laurentchemla) July 19, 2024

It’s already been changed back, but this is funny#Crowdstrike pic.twitter.com/NvPFGsv9mx — Anthony Bennett (@Anthonydownunda) July 19, 2024

Illustration © Destina – Adobe Stock