Pour gérer vos consentements :
Categories: CloudDatacentersDSI

Pannes Facebook à répétition ou la fragilité de l’IT

C’est allé crescendo : 5 minutes le 17 septembre, 10 minutes le 24 septembre et 40 minutes la nuit dernière. Les interruptions de services de Facebook ont été abondamment commentées sur Facebook avec le hashtag #Facebookdown. Du détournement de la page d’excuse que le réseau social a publiée pour faire patienter les utilisateurs aux messages décalés (comme la police de Kingston qui demande aux utilisateurs de ne pas les appeler pour savoir d’où vient la panne et d’en profiter pour discuter avec leur famille), il est bien difficile de trouver des informations concrètes sur les raisons de cet interruption de service. Le seul élément d’extrapolation trouvé sur les réseaux sociaux est le coût engendré par le blackout du 28 septembre : 1,7 millions de dollars.

Un petit tour sur la page Facebook dédiée aux développeurs – onglet incidents – ne donne pas beaucoup d’éléments supplémentaires. Pour la première panne, on peut lire que « la mise à jour en temps réel a provoqué un problème dans le backend », le réseau a par la suite corrigé le tir. Pour la seconde panne et celle d’hier, le même argument est avancé par le réseau social, « Facebook Graph API est indisponible, nos équipes en charge du cœur des infrastructures travaillent pour identifier le problème ».

Absence de transparence

La société Dynatrace a observé sur ses radars la panne survenue et explique notamment que le reroutage du trafic des serveurs plantés vers des équipements de délestage n’a pas fonctionné. Le spécialiste de la performance IT a constaté une surcharge sur ces serveurs de secours. Il a fallu attendre plus de 2 heures après le début de l’interruption de service pour que le réseau social soit de nouveau complètement sur pied.

La communication de Facebook sur ces différents incidents pose question sur la fragilité de l’IT de la firme de Menlo Park. L’architecture IT d’une société de cette taille est évidement complexe, mais aussi fortement résiliente. Chaque modification d’un des éléments doit être pensée, testée avant la mise en production. Autre point d’interrogation, la transparence des explications. La plupart des grands acteurs IT essayent, à des degrés variables, de donner des informations plus circonstanciées sur l’origine des pannes. Les fournisseurs de Cloud sont notamment en pointe dans ce domaine comme le montrent les récents arrêts d’AWS ou d’Azure. Les entreprises utilisatrices sont souvent plus exigeantes sur cette transparence que les utilisateurs du plus grand réseau social au monde. Facebook serait toutefois bien inspiré d’en prendre de la graine.

A lire aussi :

Le patron de Facebook plaide l’Internet pour tous à l’ONU
Facebook investit 200 millions de dollars dans un nouveau datacenter

Recent Posts

Oracle choisit l’expertise Java et SQL pour son « IA qui code »

Le voile est levé sur Oracle Code Assist. Présenté comme spécialisé en Java et SQL,…

2 heures ago

EPEI (Daniel Kretinsky) vise Atos : les axes directeurs de sa proposition

EPEI, la société d'investissement de Daniel Kretinsky, a déposé une offre de reprise d'Atos. En…

4 heures ago

Onepoint veut reprendre Atos : les grandes lignes de son offre

Onepoint, l'actionnaire principal d'Atos, a déposé une offre de reprise du groupe. En voici quelques…

7 heures ago

AWS prend ses distances avec VMware version Broadcom

Broadcom a repris seul la main sur la vente de l'offre VMware d'AWS... qui, dans…

1 jour ago

Avec ZTDNS, Microsoft essuie les plâtres du zero trust appliqué au DNS

Microsoft expérimente, sous la marque ZTDNS, une implémentation des principes zero trust pour le trafic…

1 jour ago

Atos sur la voie d’un sauvetage ? Point de situation

Accord de principe entre créanciers, propositions de reprise, discussions avec l'État... Le point sur le…

1 jour ago