Au cœur des pannes de SSD des datacenters de Facebook

Une étude a montré les problèmes rencontrés par les mémoires flash déployées à grande échelle dans les datacenters. Ceux de Facebook ont servi de modèles pour les travaux de recherche.

Si on connaît la croissance des ventes des SSD dans le monde et les bénéfices en matière de performance, leur comportement au sein d’un datacenter était peu analysé. C’est chose faite avec une étude « à grande échelle des défaillances des mémoires flash »  menée par des chercheurs de l’Université Carnegie Mellon (Justin Meza et Onur Mutlu) et des salariés de Facebook (Qiang Wu et Sanjeev Kumar). Le choix du réseau social n’est pas anodin. Facebook est un pionnier dans les technologies flash en pariant notamment sur les cartes PCIe de Fusion-IO (depuis racheté par SanDisk).

Sur le plan méthodologique, les SSD utilisés sont classés par ancienneté (1ere et seconde génération), mais par contre il n’y a pas de comparaison en fonction des constructeurs. Pour leurs tests, ils ont étudié différentes caractéristiques des SSD : volume de données écrites et lues depuis la puce flash, comment la donnée est référencée dans le plan d’adressage du SSD, la quantité de données copiées, effacées et jetées par le contrôleur, la température et l’alimentation du bus.

Une sensibilité à la chaleur et gourmand en énergie

Les résultats de cette étude montrent plusieurs causes de défaillances sur la technologie flash utilisée intensivement et à grande échelle. Ainsi sur la température, les SSD sont plus sensibles à ce paramètre que les disques durs traditionnels. En effet, la chaleur impacte leur performance et augmente le taux d’échec. Les chercheurs constatent que des techniques de ralentissement opérationnel des SSD peuvent compenser les effets de la chaleur. Dans l’étude, les SSD de première génération ont été le plus touchés en l’absence de ces techniques de compensation.

Sur la partie consommation énergétique, les SSD sont gourmands avec des pics de 8 à 14,5 W pour les SSD de 2ème génération en raison des fréquences plus élevées. L’étude montre une corrélation entre cette consommation et la température au point de proposer que l’alimentation du bus serve de proxy pour ajuster les performances du SSD en fonction de la chaleur et réduire ainsi les erreurs.

Des imperfections habituelles et des problèmes d’adressage

Autre enseignement du rapport, le taux d’échec des SSD n’augmente pas de manière linéaire avec l’usure des puces flash. Ces défaillances sont très variables en fonction de plusieurs paramètres leur apparition et leur détection. Par ailleurs, le niveau d’écriture est corrélé avec les taux d’échec, car une écriture intensive demande de la puissance. Les chercheurs recommandent notamment pour les applications gourmandes en écritures de privilégier les disques durs traditionnels.

Les défaillances de SSD sont relativement habituelles, 99,8% des SSD rapportent des erreurs non corrigées (qui entraînent des pertes de données) dès la première semaine et une autre la semaine d’après. Enfin, dernier élément, l’implantation des données (notamment les données non-contigües), via le plan d’adressage du SSD, rentre en conflit avec la translation d’adressage de la mémoire tampon (DRAM) interne au SSD.

A lire aussi :

Les SSD de 6 To arrivent bientôt
HGST Ultrastar SN100 : des SSD PCI Express NVMe pour datacenters
Intel livre des SSD PCI Express à moins de 1 dollar le Go

crédit photo © dotshock – shutterstock