Cloud : la foudre fait perdre des données à Google

Une brève coupure d’électricité a provoqué un incident sur les équipements de stockage du Cloud de Google, en Europe. Au final, une faible part des données associées aux instances Compute Engine sont définitivement perdues…

C’est une histoire belge dont Google se serait bien passé : une série d’éclairs s’abattant sur les équipements du réseau électrique en Belgique ont eu un impact sur le datacenter que Google exploite outre Quiévrain, à St Ghislain. Une installation hébergeant la zone Europe de l’Ouest du Cloud de Mountain View, la Google Cloud Platform. L’épisode a abouti à une perte de données, certes minime mais bien réelle. Un événement rarissime chez les géants du Cloud.

D’après le rapport publié par Google, la foudre a causé le 13 août dernier « une brève perte d’alimentation » pour les systèmes de stockage sur disque associés au service Compute Engine du géant, son service de calcul dans le Cloud. « Même si les systèmes auxiliaires ont restauré l’alimentation rapidement et si les systèmes de stockage intègrent des batteries de secours », certaines données écrites récemment ont été définitivement perdues. Selon Google, moins de 0,000001 % des données stockées sur les disques durs de europe-west1-b, le nom de code du datacenter de St Ghislain. Soit, si le site stockait 1 Po de données, moins de 10 Mo évaporés. Une part certes faible, mais un coup de canif dans l’image d’absolue fiabilité des grands services de Cloud.

Auto-flagellation… et conseil de bon sens

Dans le détail, après l’orage du 13 août, des erreurs d’entrées/sorties sont apparues de « façon sporadique » sur les instances Compute Engine reliées aux disques durs ayant souffert de la panne d’alimentation. Entre le 13 et le 17 août, environ 5 % des disques durs du datacenter ont connu, au moins, une erreur d’entrée/sortie ou d’écriture. Les opérations de restauration ont permis de récupérer l’essentiel des données, sans toutefois atteindre les 100 %. Google précise que les disques SSD et les snapshots de disques ne sont pas concernés par l’incident.

Dans son message aux utilisateurs, la firme de Mountain View assume « l’entière responsabilité » de la panne, tout en rappelant à ses clients qu’opter pour un stockage persistant dans une zone unique comporte des risques inhérents à ce type d’architecture. Pour le maximum de sécurité, la duplication des données dans une autre zone est nécessaire. La firme assure avoir lancé un programme de mise à jour des équipements de stockage, avec une technologie moins sensible aux pannes d’alimentation, et identifié en parallèle plusieurs chantiers d’amélioration, y compris dans les procédures internes de réponse aux incidents.

Panne grave, mais prise de conscience lente

Les différents messages postés sur la page de support de Google montrent d’ailleurs que la firme a tardé à prendre pleinement conscience de la gravité de l’incident. Quelques heures après la panne d’alimentation dont ont souffert ses baies de stockage, Google parlait ainsi seulement de performances dégradées. Le 14, les ingénieurs de Mountain View pensaient que « pas plus de 1 % » des disques durs seraient touchés et ne mentionnaient pas l’éventualité de pertes de données. Le 16, dans un message, Google estime même que l’incident est clos, en raison « du faible taux d’erreurs de lecture » sur les disques. Avant un message posté le 18 qui, cette fois, reconnaît la réalité de la perte définitive de certaines données.

Les conséquences de la panne sur certains équipements de stockage ont donc été détectées tardivement. « Dans presque tous les cas, les données ont été transmises avec succès à un support de stockage stable » au moment de la coupure de courant, écrit Google. C’est visiblement lors des opérations de restauration de ces données que les ingénieurs de la firme se sont aperçus que ces procédures de secours avaient fonctionné dans « presque tous les cas », mais pas dans 100 % des cas.

Le géant californien n’a pas précisé le nombre d’entreprises qui, dans la panne, ont perdu des informations. Ni la criticité de ces dernières. Pas plus que les conséquences juridiques probables d’une telle mésaventure…

A lire aussi :

Le Cloud moins cher que la DSI… seulement dans certains cas
Grâce aux conteneurs, Google Cloud va rattraper Amazon Web Services (tribune)
Google Cloud Platform : opération séduction sur les utilisateurs Windows