Conférence SNIA, stockage (3): protection des données, sur disque

La protection de données peut se fier au stockage sur disque! C’est une réalité aujourd’hui incontournable. Un exemple: Morgan Stanley, la célèbre banque d’affaire américaine abandonne la bande au profit du disque

Comment peut-on se dispenser du stockage sur bande? Est-ce possible ? Il y a au moins une raison : le modèle de protection se fondant sur le disque est moins coûteux que celui des bandes, et il est mieux maîtrisable s’agissant du volume à croissance vertigineuse des données. Dans le cas de Morgan Stanley, il convient d’ajouter la perte de médias externalisés sans aucune protection, c’est-à-dire sans chiffrement. Ainsi, un nombre importants d’e-mails se sont retrouvés dans la nature.

Mais revenons à la raison essentielle de cette rupture technologique dans l’industrie du stockage qui chamboule les idées reçues depuis plusieurs décennies. Chronologiquement, la disponibilité sur le marché de technologies de disque bon marché de type ATA a été le premier déclencheur. Ensuite, la considération de ces unités de disque en tant qu’espaces de « cache », de transit ou de stockage temporaire, pour aboutir à un processus plus souple et rapide des sauvegardes. Et certains industriels ont même rendu possible l’émulation ou la virtualisation des librairies de bandes et lecteurs sur disque permettant de modifier peu ou pas du tout les procédures de sauvegarde en place. Le marché a baptisé cette catégorie par le sigle VTL pour Virtual Tape Library. Les gains sont significatifs mais dans ces derniers cas, la bande demeure le lieu de résidence des données en fin de cycle. Néanmoins, ces technologies disques ont permis d’améliorer sensiblement la qualité du service des procédures de sauvegarde. Plus de 80% des restaurations demandées sollicitent un jeu de données sous les 48 heures, faisant ainsi la part belle à cette approche. Pour des images à rétentions plus longues, le support bande devient inévitable. Le problème du coût du disque supérieur à la bande dans le domaine de la protection de données est très lié à la répétition de l’information dans les différentes images générées par l’outil de sauvegarde. Il n’est pas rare d’avoir plusieurs images complètes stockées simultanément sur le périphérique et associées à plusieurs images incrémentales qui toutes partagent statistiquement les mêmes blocs de données. Sinon cela voudrait dire que les données sur le serveur en question sont toutes nouvelles. Les dernières innovations touchent ce domaine et introduisent des techniques de réduction de données et non de compression de données. Ces dernières donnent souvent des taux de l’ordre de 1.5 à 2 pour 1 alors que la réduction de données appliquées à des stratégies de sauvegarde délivre des taux de l’ordre de 20 à 25 pour 1. On comprend alors aisément qu’une information n’est jamais stockée deux fois sur le périphérique. Ainsi pour protéger 20 To de données cumulées, l’utilisateur peut disposer de seulement 1To de disque sur son unité de backup. Cette technique est inimaginable sur des supports bandes qui engendreraient une énorme activité d’entrées/sorties sur la librairie. La comparaison revient à analyser le coût d’une librairie de bandes avec la capacité de médias pour stocker 20To à une unité de disque de 1To que le marché propose aujourd’hui à quelques milliers d’euros associée à une intelligence de déduplication de l’information. La société utilisatrice profite de cet apport sur le plan financier et atteint un retour sur investissement rapide et touche un niveau de qualité de service jusqu’ici non réalisable satisfaisant ainsi ses propres utilisateurs. En termes d’approche technologique, deux philosophies s’opposent: -la première utilise des algorithmes de cryptographie du type MD5 ou SHA1 pour calculer une signature sur les blocs de données entrants et ainsi les comparer aux blocs suivants arrivant eux-aussi dans le système ; -la seconde s’appuie sur un contrôle supplémentaire par comparaison des flux de données entre eux. Cette dernière méthode garantit 100% de réussite dans la déduplication de l’information alors que la première peut présenter des « collisions » même si la probabilité est faible. On assiste donc sur le marché à l’apparition d’offres logicielles ou matérielles proposant les mécanismes VTL et de réduction de données par une série de startup qui comme souvent proposent des solutions innovantes. La conclusion est alors immédiate, la sauvegarde ne se fera plus sur bande mais bien sur disque et les fournisseurs traditionnels de librairie l’ont bien compris puisqu’ils proposent depuis quelques temps des unités disques tampons. Un rapide tour d’horizon des fournisseurs établit l’offre à plus de vingt solutions sur le marché. Souvenez-vous des utilisateurs qui souriaient il n’y a pas si longtemps quand l’industrie leur indiquait sous forme de slogan : Backup = Disque, Archive = Bande. (*)Président, fondateur de l’association SNIA France