Panne des services web d’Amazon: le modèle du cloud remis en cause?

La plupart des sites Web ayant souffert de la panne survenue sur un data center d’Amazon dédié à ses services cloud sont de nouveau opérationnels. Après de longues heures d’inactivité.

Accès distant, mise en place de services à la demande, gestion dynamique des ressources… L’offre Cloud possède nombre de qualités qui poussent toujours plus d’entreprises (notamment les PME européennes) à y basculer une partie de leurs actifs dans le nuage. Mais lorsque le centre de ressources qui les héberge tombe en panne, c’est toute l’activité des entreprises qui en pâtit.

C’est ce qui s’est passé, le 21 avril dernier, à travers l’interruption de service qui a touché un centre de données des Web Services (AWS) et offre d’hébergement Elastic Compute Cloud (EC2) d’Amazon en Virginie du Nord (lire l’article de notre confrère ITespresso.fr sur le sujet). Des milliers de sites Web clients se sont retrouvés hors-ligne. Parmi les victimes figurent Reddit (social media), HootSuite (le kit d’outils pour la gestion des réseaux sociaux), Quora (service de questions-réponses) mais aussi le fameux Foursquare (communauté et géolocalisation).

Si certains sites Internet ont été rétablis relativement vite, des problèmes persistaient sur d’autres. Foursquare ne précise pas sur son blog le temps d’inaccessibilité lié à la panne EWS mais HootSuite évoque une interruption de 15 heures. A travers son tableau de bord dédié à l’état du réseau, Amazon avait indiqué le 24 avril que la plus grande partie des sites Web affectés étaient de nouveau opérationnelles. Le groupe Internet s’est également engagé à fournir un bilan précis sur les graves perturbations rencontrées avec son service cloud.

Le 25 avril, Amazon a réactualisé son diagnostic. Il reste encore quelques soucis. « Nous avons achevé le volet de la reprise d’activité. L’ensemble des sites et des données sont rétablis mais nous rencontrons encore des problèmes avec une petite portion (0,07 % du volume global de la côte Est des Etats-Unis). Nous contactons les clients qui restent affectés pour les tenir informés de l’évolution de la situation. » De quoi jeter un froid sur l’adoption de la stratégie cloud.

Malgré cette panne importante, Gartner rejette les inquiétudes relatives aux capacités de résilience du cloud et considère qu’Amazon est resté dans le cadre fixé par son niveau de service garanti (SLA). Néanmoins, le cabinet d’études considère que ce type d’incident devrait amener les entreprises à réfléchir davantage à l’architecture de leurs infrastructures Web.

« A mon avis, cela ne changera rien à la courbe d’adoption du cloud. Les clients, qui s’appuient sur Amazon pour faire du business, devraient se concentrer sur le volet de la résilience des architectures, commente Lydia Leong, vice-présidente Etudes chez Gartner. Des clients vont-ils quitter Amazon ? Certains vont-ils se désengager du cloud ? Probablement certains. Mais, de manière pragmatique, nous parlons de centre de données et d’infrastructures. Amazon n’est pas épargné par les pannes, comme toute société. »

Et d’ajouter que « si vous souhaitez éviter une interruption de service, il faut faire le nécessaire au niveau de votre architecture pour que vos applications soient déployées sur plusieurs data centers dans le sens de la continuité d’activité. Quelle que soit la configuration (gestion de son propre data center, services hébergés ou cloud), vous serez confrontés à ce problème. »

Ce n’est pas la première fois que les services cloud d’Amazon sont perturbés à grande échelle. En mai 2010, la plate-forme EC2 avait souffert d’un problème d’alimentation électrique lié à un data center (lui-même tombé en rade à cause d’un accident d’une centrale électrique qui avait entraîné un black-out au niveau local). Ce qui avait plongé le service EWS dans le noir pendant une heure. Amazon avait également été confronté à une interruption de service en juin 2009, suite à un violent orage.

(Adaptation française d’un article d’eWeek.co.uk : Websites Back Online Following Amazon Cloud Outage.)