Pour gérer vos consentements :

Cloud : Google retrouve ses données… et perd la tête

Habitué à une communication des plus lisses, où un billet de blog suffit à dire la vérité de l’entreprise, Google bredouille ses classiques. Hier, après notre article sur la panne qu’a connue le datacenter belge du géant américain, un porte-parole de la société a contacté la rédaction. Et là, surprise : alors que la page de support de Google expliquait aux clients du service Cloud maison qu’une panne électrique avait provoqué une perte définitive de données – certes minimes mais bien réelle -, Google nous a assuré hier soir qu’aucune donnée n’avait en réalité été perdue. « Les données en question avaient bien disparu des serveurs touchés par l’incident, mais les systèmes de back-up ont permis de les restaurer », explique un porte-parole. Ce dernier ne donne toutefois aucun détail sur la façon dont, en pratique, ces données ont été exhumées.

Face à ces explications un peu courtes, la rédaction de Silicon.fr a demandé des compléments d’information au géant américain. Des explications circonstanciées de ses équipes techniques situées au datacenter de St Ghislain (photo), en Belgique, permettraient en effet de comprendre l’enchaînement des événements, qui aujourd’hui laisse en suspens pas mal de questions. Rappel des faits.

L’apparition d’erreurs de lecture

Le 13 août dernier, quatre éclairs s’abattent sur un local technique du réseau de distribution d’électricité, local voisin du datacenter de Google qui abrite la zone Europe de l’Ouest du Cloud de Mountain View. En résulte « une brève panne d’alimentation » provoquant, comme c’est habituel sur les datacenters, la mise en service des systèmes de secours. Sur sa page de support, ce même 13 août, Google publie plusieurs messages à intervalle régulier parlant d’un problème touchant le stockage persistant des instances Compute Engine (l’offre de puissance de calcul dans le Cloud) sur europe-west1-b, l’acronyme utilisé par la société pour désigner la zone européenne de son Cloud, soit le datacenter de St Ghislain. Deux heures après la première alerte, les ingénieurs maison parlent alors de « performances dégradées » susceptibles d’apparaître sur 1 % des disques durs de europe-west1-b.

Les 13 et 14 août, les ingénieurs du datacenter belge continuent manifestement à travailler sur le problème, parlant alors d’erreurs de lecture affectant une faible proportion de disques durs. Le 14 août, Google estime ainsi que seulement 0,05 % des disques durs du datacenter sont touchés. Et affirme que les snapshots (réalisation d’images disque) n’ont pas été affectés, pas plus que la création de nouveaux espaces de stockage permanent. Bref, l’incident semble quasiment clos. Le 16, Google annonce qu’une enquête interne sur l’incident est lancée.

Le rapport détaillé du 18 août

C’est le 18 août que Google livre un compte-rendu détaillé de l’incident, qui – on peut le supposer – est issu de cette enquête. Ce billet, qui dépeint un événement plus grave que ce qui se dessinait dans les précédentes alertes du prestataire, révèle que l’incident s’est en fait traduit par une perte définitive de données, dans de très faibles proportions (moins de 0,000001 % du volume stocké sur les disques durs de europe-west1-b, selon le rapport). Et que les conséquences de la brève interruption d’alimentation sur certains équipements de stockage se sont étalées entre le 13 et le 17 août, produisant des erreurs d’entrée/sortie ou d’écriture sur environ 5 % des disques, ainsi que l’échec de certaines opérations dont des snapshots. Autant d’éléments qui n’apparaissaient pas dans les premières alertes, publiées entre le 13 et le 16.

Les ingénieurs de Google livrent aussi une analyse des causes de cette perte de données, assez détaillée, et qui attribue cette dernière aux conséquences de la perte d’alimentation sur une partie des équipements de stockage. Même si ceux-ci sont équipés de batteries et que l’alimentation de secours du datacenter a pris le relais rapidement, quelques données récemment écrites étaient stockées sur des équipements qui se sont avérés, in fine, sensibles à la coupure de courant. « Dans presque tous les cas, les données ont été transmises avec succès à un support de stockage stable, même si une intervention manuelle a été nécessaire pour restaurer le système dans son état de service normal », écrit Google. Dans presque tous les cas mais pas dans tous : « Dans quelques cas isolés, les écritures récentes n’étaient pas récupérables, conduisant à une perte de données définitive sur les disques durs. »

Après des excuses, Google expliquait avoir lancé un programme de mise à jour des équipements de stockage, avec une technologie moins sensible aux pannes d’alimentation, et identifié en parallèle plusieurs chantiers d’amélioration, y compris dans les procédures internes de réponse aux incidents.

Les mystères de l’europe-west1-b

Entre ce rapport circonstancié du 18 et l’appel du service communication de Google, le 20 en fin d’après-midi, la firme aurait donc retrouvé les données « définitivement » perdues. Sans préciser comment elle s’y est pris. Ces informations étaient-elles stockées sur d’autres systèmes au sein du datacenter de St Ghislain, ce que semble suggérer la communication de Google sans toutefois le confirmer ? Dans ce cas, pourquoi le 18 août, après plusieurs jours d’efforts, les ingénieurs de Google ne le précisent-ils pas ? Les clients de Google concernés disposaient-ils plutôt d’une copie des données évaporées sur leurs systèmes internes, gommant ainsi les conséquences de l’incident ? A toutes ces questions, Google n’a apporté à ce jour aucune réponse.

A lire aussi :

Le Cloud moins cher que la DSI… seulement dans certains cas
Grâce aux conteneurs, Google Cloud va rattraper Amazon Web Services (tribune)
Google Cloud Platform : opération séduction sur les utilisateurs Windows

Recent Posts

GenAI : le Royaume-Uni poursuit ses investigations sur les partenariats de Microsoft et Amazon

L'Autorité de la concurrence et des marchés (CMA) a lancé la phase de recherche de…

22 heures ago

Clients de VMware : les raisons de la colère

Broadcom remplace pas moins de 168 logiciels VMware par deux grandes licences de location correspondant…

23 heures ago

Laurent Carlier – BNP Paribas Global Market : « L’IA permet de modéliser des relations plus complexes, mais il faut rester prudent »

La banque d’investissement de BNP Paribas utilise l'IA pour proposer des stratégies d’investissement individualisées, en…

1 jour ago

Open Compute Project : les datacenters partagent des bonnes pratiques pour l’environnement

OVHCloud partage ses efforts environnementaux au sommet de l’Open Compute Project qui se tient à…

2 jours ago

Phi-3-mini : Microsoft lance son premier SLM

Avec Phi-3-mini, Microsoft lance un SLM conçu pour attirer une clientèle disposant de ressources financières…

2 jours ago

Apple : l’UE serait prête à approuver son plan pour ouvrir l’accès NFC

La Commission européenne serait sur le point d'approuver la proposition d'Apple visant à fournir à…

2 jours ago