Projet Storm : quand Facebook se prépare à perdre un datacenter

Pour se préparer au pire – la perte d’un datacenter -, Facebook teste régulièrement la résistance de ses infrastructures aux événements extrêmes.

Lors de la conférence @Scale qui se tient cette semaine à San Jose, en Californie, Facebook a levé le voile sur les tests qu’il mène afin de s’assurer que son infrastructure résiste aux événements les plus extrêmes. Connu sous l’appellation projet Storm, le programme simule des pannes massives dans les datacenters afin de vérifier l’efficacité du PCA maison (Plan de continuité d’activité).

Comme l’explique Jay Parikh, le responsable des infrastructures chez Facebook, Storm est né après l’ouragan Sandy, qui a frappé la côte Est des États-Unis en octobre 2012. Même si les deux datacenters du réseau social en Caroline du Nord et en Virginie n’ont pas souffert de ce cyclone tropical d’une grande intensité, les ingénieurs maison ont pris conscience de la réalité de le menace et de la nécessité, pour Facebook, de garder un milliard d’utilisateurs connectés même en cas d’événement extrême comme celui-là.

Et si on coupait un datacenter ?

Facebook crée alors l’équipe Swat, deux douzaines de spécialistes chargés de piloter les équipes d’ingénierie dans une série de stress-tests permettant de mesurer la résistance des infrastructures à des chocs externes, comme un ouragan. « Nous avons résolu des problèmes auxquels personne ne s’était attaqués auparavant, des problèmes que personne n’a résolu ailleurs dans l’industrie », assure Jay Parikh, dans une interview à nos confrères de SiliconAngle. Facebook gère un trafic de plusieurs dizaines de To/s, des dizaines de Mégawatts de puissance électrique, des milliers de services logiciels.

Le projet Storm a débuté par des tests limités, consistant à mesurer les conséquences sur l’expérience utilisateur de brusques écarts de trafic réseau. Ce qui a permis aux équipes d’ingénierie de détecter et corriger des problèmes dans la gestion du trafic ou l’équilibrage de charge notamment. En 2014, l’équipe Swat s’estime armée pour le grand saut : un crash test impliquant l’arrêt d’un datacenter entier. Si les utilisateurs n’en ont pas ressenti les effets, selon l’ingénieur, les conséquences en arrière-plan sont majeures. « Un grand nombre d’éléments n’ont plus fonctionné », résume Jay Parikh. Les ingénieurs de Facebook se sont servis de cette expérience, et de la suivante de même nature, pour retravailler leur système de contrôle du trafic réseau, afin de rendre les transitions plus douces en cas d’événements exceptionnels de cette nature.

Infrastructure Facebook : si complexe…

Storm est toujours actif aujourd’hui ; des tests sont menés très régulièrement sur les infrastructures et de nouveaux scénarios de pannes sont déployés. Des scénarios que Jay Parikh s’est toutefois refusé à dévoiler pour ne pas renseigner ses concurrents sur ce sujet clef dans les infrastructures dites hyperscale. « Nous avons sans cesse des surprises », dit-il. En dehors de la préparation aux événements exceptionnels comme une catastrophe naturelle, le projet aide aussi Facebook à faire fonctionner son infrastructure au quotidien, selon Jay Parikh. Une infrastructure si complexe « qu’il n’existe pas un seul individu chez Facebook capable de comprendre comment l’ensemble du système fonctionne ».

Datacenter : Facebook prend préventivement pied en Irlande

Emmanuel Besluau (Duquesne Group) : « La panne de Delta Airlines contient des zones d’ombre »

Lire aussi : Open source : Facebook publie son moteur de cache hybride pour le datacenter