Pannes Facebook à répétition ou la fragilité de l’IT

3 fois en 3 semaines, Facebook a fait l’objet d’interruptions de services. La dernière a duré 40 minutes et aurait été provoquée par un problème de configuration. Une réponse elliptique qui interroge sur la fiabilité de l’IT du réseau social.

C’est allé crescendo : 5 minutes le 17 septembre, 10 minutes le 24 septembre et 40 minutes la nuit dernière. Les interruptions de services de Facebook ont été abondamment commentées sur Facebook avec le hashtag #Facebookdown. Du détournement de la page d’excuse que le réseau social a publiée pour faire patienter les utilisateurs aux messages décalés (comme la police de Kingston qui demande aux utilisateurs de ne pas les appeler pour savoir d’où vient la panne et d’en profiter pour discuter avec leur famille), il est bien difficile de trouver des informations concrètes sur les raisons de cet interruption de service. Le seul élément d’extrapolation trouvé sur les réseaux sociaux est le coût engendré par le blackout du 28 septembre : 1,7 millions de dollars.

Un petit tour sur la page Facebook dédiée aux développeurs – onglet incidents – ne donne pas beaucoup d’éléments supplémentaires. Pour la première panne, on peut lire que « la mise à jour en temps réel a provoqué un problème dans le backend », le réseau a par la suite corrigé le tir. Pour la seconde panne et celle d’hier, le même argument est avancé par le réseau social, « Facebook Graph API est indisponible, nos équipes en charge du cœur des infrastructures travaillent pour identifier le problème ».

Absence de transparence

La société Dynatrace a observé sur ses radars la panne survenue et explique notamment que le reroutage du trafic des serveurs plantés vers des équipements de délestage n’a pas fonctionné. Le spécialiste de la performance IT a constaté une surcharge sur ces serveurs de secours. Il a fallu attendre plus de 2 heures après le début de l’interruption de service pour que le réseau social soit de nouveau complètement sur pied.

La communication de Facebook sur ces différents incidents pose question sur la fragilité de l’IT de la firme de Menlo Park. L’architecture IT d’une société de cette taille est évidement complexe, mais aussi fortement résiliente. Chaque modification d’un des éléments doit être pensée, testée avant la mise en production. Autre point d’interrogation, la transparence des explications. La plupart des grands acteurs IT essayent, à des degrés variables, de donner des informations plus circonstanciées sur l’origine des pannes. Les fournisseurs de Cloud sont notamment en pointe dans ce domaine comme le montrent les récents arrêts d’AWS ou d’Azure. Les entreprises utilisatrices sont souvent plus exigeantes sur cette transparence que les utilisateurs du plus grand réseau social au monde. Facebook serait toutefois bien inspiré d’en prendre de la graine.

Lire aussi : Open source : Facebook publie son moteur de cache hybride pour le datacenter