Ne confondez pas le Big Data avec un data warehouse géant

Certains voudraient appliquer les principes d’un data warehouse aux flux Big Data. C’est mal comprendre ce qu’est le Big Data. L’inverse, c’est-à-dire traiter sur un mode Big Data des entrepôts de données non structurées, est toutefois aujourd’hui rendu possible par les data lake.

Un entrepôt de données, ou data warehouse, est un modèle classique et efficace de traitement d’informations business. Les données sont tirées de diverses sources. Après la collecte, elles sont triées et stockées, avant de servir de base aux solutions décisionnelles.

Un data warehouse utilise un processus d’ETL (« Extract-Transform-Load ») en entrée pour capter les données issues de systèmes tiers. Lors de la définition de nouveaux scénarios de traitement des informations, la DSI s’aperçoit parfois que les données stockées dans l’entrepôt ne présentent pas tous les attributs nécessaires. Il faut alors repenser la phase d’ETL.

Le Big Data est différent. Les requêtes analytiques s’effectuent directement sur le flot de données non structurées, sans extraction et stockage préalable au sein d’un data warehouse. Les utilisateurs gagnent ainsi en souplesse dans leurs requêtes. S’ils veulent appliquer un nouveau type de traitement aux données, il leur suffit de créer une nouvelle requête.

Problème du Big Data, si vous voulez rejouer une requête, ce n’est pas possible, car les données sont traitées au fil de l’eau, sans être conservées. Beaucoup ne comprennent pas cette nuance entre les deux approches et essaient de stocker l’ensemble des flux Big Data, pour pouvoir rejouer leurs requêtes à volonté. N’y allons pas par quatre chemins : dans les cas les plus extrêmes, cela reviendrait à vouloir assécher un fleuve avec une paille.

Le data lake en juge de paix ?

Que faire alors ? Changer complètement de paradigme ou rester figer sur les anciennes méthodes ? Un peu des deux.

Pour des informations critiques, sur lesquelles vous voulez tester divers scénarios, un data warehouse reste une valeur sûre. Pour faire de l’analytique au fil de l’eau sur de vastes ensembles de données, le Big Data est tout indiqué.

Et pour ceux qui tiennent à conserver certains flux Big Data, une solution existe. Un data lake permet de stocker des données non structurées. Des requêtes analytiques de type Big Data pourront y être appliquées par la suite. Contrairement à un data warehouse classique, l’entreprise fait ici l’économie de la phase d’ETL, au prix toutefois de besoins en stockage supérieurs, puisque c’est un flux non transformé qui est ici enregistré.

Le data analyst est chargé de mettre en place la bonne procédure d’ETL utilisée par un data warehouse, en coordination avec un data warehouse architect. Avec le Big Data, il faut savoir formuler ses requêtes avec soin : le travail du data scientist. Pour un data lake, il sera bon de faire appel à la fois à un data scientist et un data analyst pour savoir choisir quelles données extraire, afin de ne pas faire exploser la facture stockage.

David Feugey, ex-rédacteur en chef de Silicon.fr