Panne Azure, Microsoft incrimine une mise à jour du stockage

Microsoft a donné des détails sur les raisons des dysfonctionnements de la plateforme Azure. En cause, une mise à jour de la performance des services de stockage.

Azure, le Cloud de Microsoft, a eu quelques problèmes en début de semaine. Plusieurs dysfonctionnements ont été constatés. Les premières difficultés ont entraîné des problèmes d’accès au Xbox Live (impossibilité de se connecter), mais aussi l’indisponibilité prolongée de la solution Visual Studio Online… et des machines virtuelles. Selon la théorie des dominos, d’autres services Microsoft ont été affectés : côté grand public, le portail MSN ou encore le Windows Store; côté entreprises, le serveur mail Exchange et l’environnement collaboratif SharePoint. Les problèmes ont été ressentis en Amérique, mais également en Europe. Cet été déjà, les services cloud de l’éditeur avait été l’objet d’une succession de problèmes.

Après avoir annoncé une reprise progressive des différents services, Microsoft a choisi la voie du blog pour donner les premiers éléments de réponse sur les causes de la panne. Jason Zander, vice-président d’Azure, précise que la raison se trouve dans « la mise à jour de performance de la couche Azure Storage et le stockage blob (binary large object) du front end a provoqué une boucle infinie qui n’avait pas été observée lors des tests ». Car, le dirigeant indique que « cette mise à jour a fait l’objet d’une évaluation et de test pendant plusieurs semaines pour résoudre les problèmes ». La conséquence de cette boucle est que les services de stockage ont été incapables de gérer le trafic supplémentaire.

Un retour progressif à la normale

L’équipe de Microsoft explique « qu’une fois le problème découvert, les modifications ont été rapidement apportées, mais un redémarrage des services de stockage front end était nécessaire ». La firme de Redmond affirme que les services sont revenus progressivement dans l’ensemble des régions. Cependant, elle admet que certains clients pourraient encore rencontrer quelques problèmes intermittents.

Les pannes des datacenters des fournisseurs de Cloud sont relativement rares, mais quand elles arrivent les clients sont directement impactés (indisponibilité, baisse du chiffre d’affaires). Une majorité de ces pannes trouve leur origine dans une défaillance humaine ou dans des causes naturelles (foudre, inondation, coupure d’électricité, etc.). Un rapport de plusieurs chercheurs avait estimé en mars 2014 entre 480 et 670 millions d’euros le coût des pannes dans le Cloud, avec un total de 2600 heures cumulées d’interruption de services. La plupart des fournisseurs de Cloud mettent en place des procédures de redondance, de résilience pour éviter ce genre d’évènement. La panne d’Azure montre que le zéro défaut n’existe pas encore au sein des datacenters.

A lire aussi :

Gigantesque panne pour Creative Cloud d’Adobe
L’infogérance est-elle soluble dans le Cloud ?

Crédit Photo @alphaspirit-Shutterstock