Cloud : Google retrouve ses données… et perd la tête

Le 18 août, les ingénieurs de Google assuraient avoir perdu des données dans un incident touchant le datacenter belge de la firme. Deux jours après, la communication de Google les a retrouvées. Sans qu’on sache très bien comment Mountain View a accompli ce miracle.

Habitué à une communication des plus lisses, où un billet de blog suffit à dire la vérité de l’entreprise, Google bredouille ses classiques. Hier, après notre article sur la panne qu’a connue le datacenter belge du géant américain, un porte-parole de la société a contacté la rédaction. Et là, surprise : alors que la page de support de Google expliquait aux clients du service Cloud maison qu’une panne électrique avait provoqué une perte définitive de données – certes minimes mais bien réelle -, Google nous a assuré hier soir qu’aucune donnée n’avait en réalité été perdue. « Les données en question avaient bien disparu des serveurs touchés par l’incident, mais les systèmes de back-up ont permis de les restaurer », explique un porte-parole. Ce dernier ne donne toutefois aucun détail sur la façon dont, en pratique, ces données ont été exhumées.

Face à ces explications un peu courtes, la rédaction de Silicon.fr a demandé des compléments d’information au géant américain. Des explications circonstanciées de ses équipes techniques situées au datacenter de St Ghislain (photo), en Belgique, permettraient en effet de comprendre l’enchaînement des événements, qui aujourd’hui laisse en suspens pas mal de questions. Rappel des faits.

L’apparition d’erreurs de lecture

Le 13 août dernier, quatre éclairs s’abattent sur un local technique du réseau de distribution d’électricité, local voisin du datacenter de Google qui abrite la zone Europe de l’Ouest du Cloud de Mountain View. En résulte « une brève panne d’alimentation » provoquant, comme c’est habituel sur les datacenters, la mise en service des systèmes de secours. Sur sa page de support, ce même 13 août, Google publie plusieurs messages à intervalle régulier parlant d’un problème touchant le stockage persistant des instances Compute Engine (l’offre de puissance de calcul dans le Cloud) sur europe-west1-b, l’acronyme utilisé par la société pour désigner la zone européenne de son Cloud, soit le datacenter de St Ghislain. Deux heures après la première alerte, les ingénieurs maison parlent alors de « performances dégradées » susceptibles d’apparaître sur 1 % des disques durs de europe-west1-b.

Les 13 et 14 août, les ingénieurs du datacenter belge continuent manifestement à travailler sur le problème, parlant alors d’erreurs de lecture affectant une faible proportion de disques durs. Le 14 août, Google estime ainsi que seulement 0,05 % des disques durs du datacenter sont touchés. Et affirme que les snapshots (réalisation d’images disque) n’ont pas été affectés, pas plus que la création de nouveaux espaces de stockage permanent. Bref, l’incident semble quasiment clos. Le 16, Google annonce qu’une enquête interne sur l’incident est lancée.

Le rapport détaillé du 18 août

C’est le 18 août que Google livre un compte-rendu détaillé de l’incident, qui – on peut le supposer – est issu de cette enquête. Ce billet, qui dépeint un événement plus grave que ce qui se dessinait dans les précédentes alertes du prestataire, révèle que l’incident s’est en fait traduit par une perte définitive de données, dans de très faibles proportions (moins de 0,000001 % du volume stocké sur les disques durs de europe-west1-b, selon le rapport). Et que les conséquences de la brève interruption d’alimentation sur certains équipements de stockage se sont étalées entre le 13 et le 17 août, produisant des erreurs d’entrée/sortie ou d’écriture sur environ 5 % des disques, ainsi que l’échec de certaines opérations dont des snapshots. Autant d’éléments qui n’apparaissaient pas dans les premières alertes, publiées entre le 13 et le 16.

Les ingénieurs de Google livrent aussi une analyse des causes de cette perte de données, assez détaillée, et qui attribue cette dernière aux conséquences de la perte d’alimentation sur une partie des équipements de stockage. Même si ceux-ci sont équipés de batteries et que l’alimentation de secours du datacenter a pris le relais rapidement, quelques données récemment écrites étaient stockées sur des équipements qui se sont avérés, in fine, sensibles à la coupure de courant. « Dans presque tous les cas, les données ont été transmises avec succès à un support de stockage stable, même si une intervention manuelle a été nécessaire pour restaurer le système dans son état de service normal », écrit Google. Dans presque tous les cas mais pas dans tous : « Dans quelques cas isolés, les écritures récentes n’étaient pas récupérables, conduisant à une perte de données définitive sur les disques durs. »

Après des excuses, Google expliquait avoir lancé un programme de mise à jour des équipements de stockage, avec une technologie moins sensible aux pannes d’alimentation, et identifié en parallèle plusieurs chantiers d’amélioration, y compris dans les procédures internes de réponse aux incidents.

Les mystères de l’europe-west1-b

Entre ce rapport circonstancié du 18 et l’appel du service communication de Google, le 20 en fin d’après-midi, la firme aurait donc retrouvé les données « définitivement » perdues. Sans préciser comment elle s’y est pris. Ces informations étaient-elles stockées sur d’autres systèmes au sein du datacenter de St Ghislain, ce que semble suggérer la communication de Google sans toutefois le confirmer ? Dans ce cas, pourquoi le 18 août, après plusieurs jours d’efforts, les ingénieurs de Google ne le précisent-ils pas ? Les clients de Google concernés disposaient-ils plutôt d’une copie des données évaporées sur leurs systèmes internes, gommant ainsi les conséquences de l’incident ? A toutes ces questions, Google n’a apporté à ce jour aucune réponse.

Lire aussi : LLM et smartphones : l’exemple MobileDiffusion