OVH : les enseignements techniques de la sale journée en data centers

ovh-deux-incidents-majeurs-gestion-crise

Entre Strasbourg et Roubaix, OVH a dû gérer deux incidents d’exploitation sérieux. Retour sur les failles des dispositifs entre installations électriques et réseaux optiques.

A la suite de la panne importante qui a touché les infrastructures d’OVH provoquant un impact direct auprès de sa clientèle en France, le fournisseurs de services Internet pour les entreprises (avec l’hébergement Web comme cœur de métier) est revenu sur les deux incidents distincts survenus hier matin.

Dans deux contributions nocturnes sur le forum de support OVH, Octave Klaba, fondateur et directeur technique, explique le contexte de la coupure électrique qui a plongé trois datacenters localisés à Strasbourg dans le noir pendant quelques heures (3h30 selon le compteur officiel).

« Le pire scénario qui puisse nous arriver », reconnaît d’emblée l’expert en réseaux dans sa première contribution post-incident.

L’expérience malheureuse de ces deux incidents distincts survenus le même jour est néanmoins riche en enseignements,en décortiquant la contribution dense d’Octave Klaba.

Strasbourg : pourquoi le système électrique a failli (bonus réflexion sur le mode hyper-croissance d’OVH)

Le site de centres de données de Strasbourg est alimenté par une ligne électrique de 20KVA (composée de 2 câbles qui délivrent chacun 10MVA) fournie par ELD (Strasbourg Électricité Réseaux, filiale d’EDF), qui construit, exploite, entretient et renouvelle le réseau public de distribution d’électricité sur le territoire du Bas-Rhin.

Jeudi matin, l’un des 2 câbles a été endommagé et le disjoncteur a coupé l’alimentation des datacentres. A priori, ce genre d’incident n’est pas anodin mais il n’est pas insurmontable. Si les groupes électrogènes installés dans les data centers d’OVH prennent le relais pour l’alimentation électrique avec l’appui d’onduleurs. Le temps qu’ELD reprennent la main sur le circuit électrique normal…

Mais OVH rencontre un gros hic : le système de basculement motorisé n’a pas fonctionné. Les équipes d’OVH cherchent à comprendre l’origine de ce dysfonctionnement. « C’est toutefois un défaut qui aurait dû être détecté lors des tests périodiques de simulation de défaut sur la source externe », évoque Octave Klaba.

Une anomalie qui aurait dû être perçue lors des procédures de vérification des équipements de secours (effectuées régulièrement) et des tests de reprise (le dernier effectué sur le site de Strasbourg remonte à mai 2017). « Et malgré tout, l’ensemble de ce dispositif n’a pas suffi aujourd’hui pour éviter cette panne », admet le fondateur d’OVH.

Au-delà de la panne de l’automate tiers (et OVH en assume la responsabilité), Octave Klaba souligne une autre faiblesse plus structurelle liée à l’exploitation de l’infrastructure localisée à Strasbourg : « Le réseau électrique de SBG a hérité des imperfections de design liées à la faible ambition initialement prévue pour le site ».

Retour en 2012 : pour se lancer à Strasbourg , OVH s’appuie sur un concept interne de nouvelle technologie de déploiement de datacentres, basée sur les containers maritimes. Avantage du dispositif : sa flexibilité.

« Nous avons voulu avoir la souplesse de déployer un datacentre sans les contraintes de temps liées aux permis de construire. A l’origine, nous voulions avoir la possibilité de valider nos hypothèses avant d’investir durablement dans un site », explique Octave Klaba sur un ton didactique.

C’est ainsi que 8 containers maritimes ont été déployés sur place pour une mise opérationnelle rapide en deux mois.  Ultérieurement, deux autres data centers locaux sont implémentés mais sur la technologie de « Tour » plus robuste.

Mais c’est justement le maintien de cette cohabitation de configurations d’exploitation de data centers qui a mal tourné pour le cas OVH, dont le développement en hyper croissance en France et dans le monde n’est pas toujours évident à superviser en prenant en compte les spécificités de sites locaux comme celui de Strasbourg.

« Le problème est qu’en déployant SBG1 [le premier site datacenter de Strasbourg, ndlr] avec la technologie basée sur les containers maritimes, nous n’avons pas préparé le site au large scale », commente Octave Klaba.

Il évoque « 2 erreurs » : les normes d’arrivées d’électricité non réactualisées et le non-renforcement de la protection du réseau électrique avec la montée en charge de l’activité du site .

C’est une exception qui lui a joué des tours : « Chez OVH, chaque numéro de datacentre veut dire que le réseau électrique est indépendant d’un autre datacentre. Partout sauf sur le site de Strasbourg. »

La journée de jeudi a été intense chez OVH avec une cellule de crise au siège à Roubaix et des équipes de maintenance nomades et locales en charge de remettre l’infrastructure en marche (une cinquantaine de personnes), avec du renfort en provenance de l’Allemagne.

« Les équipes sont toujours en train de travailler sur la remise en route des derniers clients impactés. Une fois l’incident clos, nous appliquerons les SLA prévus dans nos contrats », déclare Octave Klaba dans sa contribution nocturne après une rude journée.

Pour réactualiser l’infrastructure des data centers en lien avec l’alimentation électrique, le fondateur d’OVH évoque « un plan d’investissement de 4-5 millions d’euros » au nom de la « restauration de la confiance envers OVH », tout en s’excusant à nouveau pour la gêne occasionnée à ses milliers de clients affectés.

Roubaix : un bug software sur les équipements optiques

Parallèlement à l’incident de Strasbourg, OVH a dû gérer un deuxième cas d’urgence sur le réseau optique qui interconnecte le site de Roubaix avec 6 des 33 points de présence (POP) dispersés entre Paris, Francfort, Amsterdam, Londres et Bruxelles.

De manière synthétique, il s’agit « d’un bug software sur les équipements optiques », évoque Octave Klaba, dans sa deuxième contribution post-fin d’alerte.

« Nous allons travailler avec l’équipementier pour trouver l’origine du problème et les aider à fixer le bug. Nous ne remettons pas en cause la confiance avec l’équipementier, même si ce type de bug est particulièrement critique. »

A priori, le fondateur d’OVH fait référence à son équipementier réseau partenaire Cisco (sans le citer).

Mais OVH doit aussi se poser des questions sur ce bug. « Il y a forcement une erreur chez Ovh puisque malgré tous les investissements dans le réseau, dans les fibres, dans les technologies, nous venons d’avoir 2 heures de downtime sur l’ensemble de nos infrastructures à Roubaix. »

Là aussi, des travaux de reconfiguration avec 2 systèmes de nœuds optiques au lieu d’un seul vont être lancés à grande échelle.

« Nous pourrons commencer les travaux de configuration et migration sous 2 semaines. Vu l’incident d’aujourd’hui, ce projet devient prioritaire, pour l’ensemble de nos infrastructures, tous les DCs, tous les POPs. »

Il est prévu que l’application des engagements SLA vis-à-vis des clients soit aussi enclenchée sur ce volet.