Data Lake : la tentation du Cloud

Snowflake Data Cloud Summit
0

Les données d’entreprise connaissent une nouvelle révolution avec l’adoption massif du  cloud public. Avec leurs promesses de capacité et de puissance de calcul infinie, les offres de data lake managées dans le cloud attirent de plus en plus d’entreprises

Quand, à partir des années 1990, les entreprises ont commencé à accumuler des données, elles ont dû investir dans de vastes infrastructures de stockage afin de se doter de data warehouse et d’exploiter la valeur de cette donnée. Que ce soit dans les télécoms, la grande distribution et, évidemment, le monde bancaire, les générations d’appliances se sont succédé, les technologies de stockages ont évolué, mais beaucoup de ces grands data warehouse sont toujours bien présents.

Toutefois, les technologies open source tel qu’Hadoop et la baisse du prix du stockage ont fait exploser ce modèle, en permettant de stocker et, surtout, d’analyser de la donnée beaucoup plus librement et à moindre coût. Ce fut la révolution du big data du début des années 2010.

Julien Assemat – Octo

Une dizaine d’années plus tard, la data connaît sa nouvelle révolution, celle du cloud.

« Nombreux sont ceux qui voient dans la migration vers le cloud l’opportunité de tourner la page Hadoop, malgré des existants bien ancrés. L’accélération technologique est l’un des bénéfices promis et atteint par les fournisseurs cloud, mais il faut être conscient qu’elle a le plus souvent un prix, celui de la portabilité, c’est-à-dire de la capacité pour une application à être indépendante d’un fournisseur cloud », explique Julien Assemat, Data Senior Manager au sein de l’équipe « Nouvelles architectures de données »,  chez Octo Technology.

Les hyperscalers en tête

En tant que « champions » de la data, tous les cloud providers ont rapidement mis en place des offres managées afin d’héberger les data lake des entreprises. Qu’il s’agisse de BigQuery chez Google, d’Azure Data Lake de Microsoft ou d’Amazon Redshift et les innombrables offres Hadoop managées des fournisseurs cloud.

Depuis, tous les « historiques » du monde du data warehouse, à commencer par Oracle, IBM et Teradata, ont réagi et intégré le cloud public à leur stratégie. Ainsi, Teradata a engagé sa stratégie « Cloud First » voici trois ans avec une relocalisation des efforts de R&D et le développement de la plateforme Teradata Vantage dans le cloud.

L’américain tire aujourd’hui pleinement bénéfice de ce virage stratégique ; il a enregistré une croissance de +165 % de ses revenus cloud au quatrième trimestre 2020. Ceux-ci représentent désormais le tiers de son chiffre d’affaires.

« Aujourd’hui, la grande majorité de nos clients parlent du cloud et nous expliquent qu’ils prévoient d’y gérer tout ou partie de leurs données », déclare Jean-Marc Bonnet, Sales Technology Director chez Teradata. Les grands clients de Teradata, comme Groupe ou Hertz, ont migré leurs entrepôts de données vers Vantage dans le cloud, avec une approche as-a-service portée par AWS.

Néanmoins le responsable ajoute : « Certains de nos clients, tels que des banques et des organisations du secteur public préfèrent une installation de Vantage sur site ou hybride (cloud et sur site). Ce type d’offres « on premise » nécessite un engagement dans le temps sur la base d’une tarification locative, pouvant être associée à un paiement à l’usage. Si par la suite le client souhaite migrer tout ou partie de son patrimoine dans le Cloud, il pourra le faire de par la portabilité technique (même code source logiciel) et économique (transfert des licences). »

L’offre Vantage est disponible sur les principaux services cloud publics, à savoir AWS, Google Cloud et Microsoft Azure.

Des nouveaux entrants aux dents longues

Teradata joue la carte de l’hybride sur un marché sérieusement bousculé par les pure player cloud, notamment par Snowflake qui s’appuie sur une architecture technique réellement « cloud native ».

« L’architecture de Snowflake a été pensée pour le cloud avec une séparation complète du stockage et du calcul. Celle-ci permet d’apporter une simplicité, des performances et une sécurité accrues avec des coûts réduits pour les charges de travail de type data lake. Snowflake est un service qui couvre l’ensemble des charges de travail et évite ainsi aux entreprises de gérer les tâches fastidieuses, comme le provisionnement et le paramétrage des serveurs, la priorisation des requêtes, etc. La séparation du « compute » et du stockage associé à la scalabilité infinie du cloud, permet ainsi de proposer des performances toujours élevées, quels que soient la complexité ou le nombre de requêtes et d’utilisateurs en concurrence », argumente Nicolas Lerose, Senior Sales Engineer de Snowflake.

Pour l’éditeur, sa capacité à ingérer en continu des données structurées et semi-structurées avec la fonction Snowpipe, ainsi que la scalabilité et les performances apportées par l’architecture cloud de Snowflake en font un excellent candidat pour porter les grands data lake des entreprises.

Un marché de 31,5 milliards $

Nicolas Maillard – Databricks

Autre éditeur qui challenge sérieusement les acteurs historiques de ce marché : Databricks. « Notre architecture lakehouse combine le meilleur des data warehouse et des data lake », affirme Nicolas Maillard – senior Director Field Engineering Central & SEMEA chez Databricks.

« Elle fournit une solution unique pour tous les principaux data workloads et répond à de nombreux cas d’usage, de la BI jusqu’à l’IA, la data science et l’analytique en streaming. Notre plateforme est simple, ouverte et collaborative. »

La plateforme Databricks est disponible sur tous les principaux cloud et l’éditeur mise sur un modèle « ouvert » pour se démarquer de concurrents aux technologies propriétaires et s’appuyer sur les innovations issues des communautés open source.

Avec un taux de croissance annuel supérieur à 20 % sur la période 2017-2019 selon le cabinet Grand View Research, le marché du data lake atteindra 31,5 milliards $ au niveau mondial à l’horizon 2027. Une manne dont une bonne part sera glanée par les acteurs du cloud

Retex Euronext – Dataiku 

Sébastien Bérard – Euronext 

Euronext opère les bourses de Paris, Amsterdam, Bruxelles, Dublin, Lisbonne, Milan et Oslo. L’opérateur gère les données de trading, soit plusieurs centaines de millions d’ordres par jour, mais également des données référentielles sur les entreprises afin de générer des indices.

C’est dans le cadre de cette activité qu’Euronext a déployé il y a un an la solution Dataiku Datalab. « Depuis 2 ans maintenant, Euronext a opéré un virage stratégique en axant notre création d’indices sur les critères ESG (Environnementaux, Sociaux et de Gouvernance) « résume Sébastien Bérard, responsable des projets et de l’innovation au sein de l’unité Advanced Data Services d’Euronext. 

« Ces indices sont calculés en fonction d’un historique de données sur 15 ans et qui portent sur l’ensemble des entreprises majeures en Europe, mais aussi dans les zones Asie et Amérique du Nord. Nous avons multiplié par 10 le nombre de métriques que nous analysons et encore par 10 le nombre d’entreprises suivies, si bien que les anciennes solutions dont nous disposions arrivaient à leurs limites. « 

Suite à un appel d’offres et l’évaluation de plusieurs plateformes, le choix d’Euronext s’est finalement porté sur DataLab de Dataiku afin de gérer, monitorer l’agrégat de données issues de sources multiples. « Notre objectif dans la mise en place de cette plateforme était de gagner en agilité. Nous sommes dans un domaine où la donnée est extrêmement réglementée et surveillée. Nous n’avons pas le droit à l’erreur. Pour autant, nous avions besoin de plus d’agilité pour accélérer notre cycle d’innovation, développer de nouveaux cas d’usage. « 

La vente de données constitue une importante source de revenus d’Euronext et la plateforme permet à l’équipe de Sébastien Bérard de créer de nouveaux jeux de données, les tester auprès des clients, itérer rapidement avec eux, puis place le processus de traitement en production lorsque la donnée est commercialisée.

Déployée en juin 2020, la plateforme compte 20 utilisateurs à même de créer des modèles de traitement des données et une vingtaine qui sont des utilisateurs finaux qui viennent la consulter. Une trentaine de cas d’usage ont déjà été créés en un an d’exploitation de DataLab.

« Nous avons été nous-mêmes surpris par le nombre de cas d’usage déjà développés. La plateforme offre des plug-ins vers n’importe quelles sources de données, ce qui nous permet de nous concentrer sur la valeur ajoutée et aller très vite dans le développement de nouveaux cas d’usage « explique l’expert.

« La séparation entre la plateforme dédiée au design et celle à l’automation avec une grande facilité de basculer des versions de l’une à l’autre. Pour résumer, Dataiku a été un vrai Game Changer pour nous et plusieurs autres lignes métiers s’y intéressent aujourd’hui. Trois nouveaux métiers vont monter sur la plateforme très prochainement et pour toutes ces raisons on peut dire que ce déploiement est un succès pour Euronext. «