AWS en panne : des conséquences à la hauteur des parts de marché

AWS a subi, ce mercredi, une panne aux effets tangibles sur des services en ligne majeurs. La troisième du genre en l’espace de deux semaines.

Décembre délicat pour AWS. La branche cloud d’Amazon a subi, ce 22 décembre, une nouvelle panne importante. La troisième en l’espace de quinze jours.

Cette fois-ci, il s’agit d’un problème d’alimentation électrique dans l’un des datacenters de la région US-East-1 (Virginie). Il était environ 13 heures à Paris quand les premiers effets se sont fait ressentir. À la fois sur les instances EC2 et les volumes EBS.

AWS a officialisé l’incident environ une demi-heure plus tard sur la page de statut de ses services. Vers 14 heures, il a annoncé avoir restauré l’alimentation. Tout en reconnaissant que certains éléments ne pourraient pas redémarrer immédiatement. La faute à des dysfonctionnements hardware consécutifs à la coupure électrique.
Il a fallu attendre la fin de soirée pour que la situation rentre globalement dans l’ordre.

Parmi les victimes, il y a eu Slack. Au menu, des problèmes d’envoi et d’édition de messages, de chargement de fils de discussion, d’insertion de fichiers, etc. Périmètre affecté : « moins de 1 % » des utilisateurs », affirme l’éditeur.

Slack touché-coulé ?

Slack avait déjà subi la panne AWS du 7 décembre. Comme, entre autres, Coinbase, Netflix, Tinder… et beaucoup de services Amazon. Parmi eux, la marketplace, Prime Video, Kindle et les caméras Ring. Mais aussi des services internes au groupe, ce qui a perturbé sa logistique – entrepôts et transports.

Cette panne concernait aussi la région US-East-1. Elle a connu deux phases. On avait d’abord constaté, vers 15 h 30 (heure de Paris), une dégradation de performances sur divers services AWS. Dont Athena, Chime, Connect, DynamoDB, Glue et Timestream. Puis, vers 17 heures, étaient survenus des problèmes au niveau des API. On nous avait annoncé la fin de l’incident peu après minuit.

La panne du 15 décembre a touché non pas une, mais deux régions AWS. En l’occurrence, US-West 1 (Caroline du Nord) et US-West 2 (Oregon). Elle a été d’une durée nettement plus courte (moins d’une heure entre les premiers signalements et le rétablissement de l’infrastructure). Comme lors de la panne précédente, des fonctions critiques de type routage et NAT sont tombées. Mais pas seulement sur le réseau interne d’AWS. Slack faisait là aussi partie des victimes.

Lire aussi : Après Google Cloud, AWS : pourquoi ils suppriment les frais de sortie