Comment la déduplication permet d’abaisser les coûts du stockage

Souvent associée à la sauvegarde des données, la déduplication se généralise dans le stockage. Les gains d’espace considérables apportés font ainsi merveille avec les baies de stockage 100 % Flash.

Avec des gains de l’ordre de 10, 20, 50 ou plus selon les usages, la déduplication apporte une solution efficace à la montée des volumes de données à stocker. Elle a déjà fait ses preuves pour la protection des données. « Des données de type bases de données, bureautique et systèmes de fichiers sont de bonnes candidates pour la déduplication, de même que les machines virtuelles », souligne Olivier Tant, Storage Division Category Manager chez Hewlett-Packard Enterprise.

Le taux de déduplication varie fortement en fonction des types de données. L’Américain, qui propose la solution HPE StoreOnce, enregistre un taux moyen réel de 14 pour 1 sur les données de l’ensemble de ses clients. « Attention à ne pas être obnubilé par le taux de déduplication. La seule recherche du meilleur taux n’est pas justifiée. Tout d’abord parce qu’un taux de 100 pour 1 produit 99 % de réduction quand un taux de 10 pour 1 produit déjà 90 % de réduction : l’économie de surface de stockage devient donc vite infime », précise notre interlocuteur.

Le taux de déduplication n’est pas le seul critère de choix

Plusieurs critères conditionnent la puissance et la performance d’une technologie de déduplication : déduplication à la source ou à la cible seulement, déduplication en ligne ou en post-processing, hachage par bloc fixe ou par bloc variable, etc. « La technologie StoreOnce combine toutes les conditions permettant de délivrer la déduplication la plus puissance du marché : en ligne, avec hachage par blocs variables pouvant descendre à 4 Ko ». La déduplication StoreOnce est dite « fédérée » et peut travailler à tous les niveaux : à la cible (avec une approche « scale-out » haute disponibilité sur les systèmes haut de gamme), à la source (serveur, application primaire), en interaction avec les baies de stockage primaire HPE et les solutions « Software-Defined » (StoreOnce Virtual Storage Appliance).

La déduplication permet, certes, de réduire le nombre de disques à acheter pour sauvegarder les données – ce qui répond à une exigence économique – mais elle permet aussi d’optimiser les processus de backup des données, ce qui apporte des vraies réponses fonctionnelles : économie de temps, de besoins réseaux… Beaucoup d’entreprises se voient en effet confrontées à des fenêtres de backup de plus en plus longues ce qui, notamment lorsqu’on dispose d’établissements susceptibles de travailler avec les applications sans interruption, pose des problèmes insolubles aux administrateurs de sauvegarde. La déduplication va alors permettre de réduire les volumes de données à échanger sur les machines, sur le réseau, notamment via des mécanismes de sauvegarde synthétique. « On peut soit en profiter pour réduire les fenêtres de backup, soit au contraire mettre en place des infrastructures plus légères et moins couteuses », ajoute Olivier Tant. HPE va plus loin encore en proposant la déduplication au niveau des serveurs applicatifs eux-mêmes grâce à des plug-ins pour Oracle, SQL Serveur, SAP, etc.

Le couple Flash et déduplication envahit maintenant le stockage primaire

La déduplication n’est donc plus la seule affaire des appliances secondaires et prend une place plus en amont sur la chaine de la donnée, en se positionnant au niveau du serveur, des applications, mais aussi du stockage primaire. Les baies de stockage, comme les baies HPE 3PAR StoreServ, intègrent désormais la déduplication sur disque Flash et savent, en complément, proposer des mécanismes de protection – avec une cohérence vis-à-vis des applications stockées – combinant les mécanismes de snapshots et la déduplication à la volée StoreOnce.

Cette protection « intégrée », offerte par le logiciel HPE StoreOnce Recovery Manager Central, est en ligne avec une projection du Gartner selon qui, d’ici 2018, près de 50 % des flux de sauvegardes sur les données lourdes et critiques transiteront via des modes « direct » entre applications et cible de sauvegarde dédupliquée.