Big Data Hadoop : MapR séduit les investisseurs

Auteur d’une des trois distributions majeures de Hadoop, MapR porte à 59 millions de dollars les fonds levés depuis sa création en 2011.

La société MapR figure aux côtés de Hortonworks et de Cloudera dans la famille encore réduite des distributions de Hadoop. Mais dans cette famille, la start-up se place à son extrémité la plus commerciale. Tandis que Hortonworks conserve la démarche open source fondatrice de Hadoop. Et que Cloudera se place à mi chemin, avec une partie de sa distribution qui est propriétaire, mais en demeurant un des plus gros contributeurs au code du projet.

Lorsque nous avions rencontré MapR sur la Silicon Valley, la start-up n’avait pas caché sa volonté de se différencier du mouvement Hadoop en adoptant une approche clairement commerciale. Et en exploitant les travaux de la communauté pour construire son offre sur le noyau open source de Hadoop.

La démarche semble sourire à MapR. Sans doute moins en Europe où c’est plutôt Cloudera qui fait parler d’elle, qu’aux Etats-Unis où la start-up a en particulier séduit EMC, qui a mis la distribution à son catalogue, ainsi que Amazon AWS et Google qui ont retenu la technologie pour supporter leur offre Hadoop. La moitié des clients de MapR seraient dans le cloud et le web, l’autre moitié dans la finance, le manufacturing et les télécoms.

MapR séduit… les investisseurs

Les investisseurs semblent en tout cas vouloir suivre MapR. La start-up, qui avait levé 29 millions de dollars depuis sa création en 2011, vient de réaliser un troisième tour de table (Series C) de 30 millions de dollars. C’est Mayfield Fund qui a principalement mis la main au pot, suivi des investisseurs des deux premiers rounds, Lightspeed Venture Partners, NEA et Redpoint Ventures. 59 millions de dollars levés en moins de 3 ans, décidément le Big Data Hadoop attire l’attention !

Rappelons que Clouera a levé 65 millions de dollars en Series E en janvier dernier (lire « Cloudera, l’état de l’art d’Hadoop et du Big Data analytique »), et qu’Hortonworks fricote avec Microsoft avec Hortonworks Data Platform for Windows qui ouvre un accès aux données en big data à Windows Server et Excell (lire « Microsoft et Big Data avec Hortonworks Data Platform for Windows »).

MapR vs HDFS

Mais qu’est-ce qui différencie MapR de ses concurrentes ? La start-up a été la première à prendre ses distances avec HDFS (Hadoop Distributed File System), le système de fichier de base et open source du projet Hadoop. Elle l’a remplacé par HBase, un file system également basé sur HDFS dont elle propose une version propriétaire, et dont la performance et la fiabilité auraient été améliorées par des développements internes.

La démarche n’est pas nouvelle, et de nombreuses voix s’élèvent pour pointer certaines faiblesses de HDFS, justifiant ainsi l’intégration d’un autre file system dans la stack Hadoop. Cette approche est parfois justifiée, par exemple lorsque Scality la remplace par sa couche SOFS (Scale-out File System) pour améliorer la solution Hadoop en lui donnant accès à son stockage RING (lire « Le RING de stockage cloud Scality embrasse Hadoop »), mais Scality n’a pas la prétention de se substituer à une distribution Hadoop, qui d’ailleurs ne figure pas à son catalogue.

En réalité, chez MapR, l’argumentation technologique paraît bien faible, et le remplacement du file system par un autre dont les bases open source sont les mêmes se révèle être un argument plutôt marketing et commercial…

MapR et Drill

Plus intéressante est la contribution majeure de MapR au projet Apache Drill. Version open source du projet Dremel de Google, Drill est destiné à permettre de poser des requêtes sous modèle SQL sur les données Hadoop. Drill est décrit comme un système distribué d’analyse interactive sur des gros volumes de données.

MapReduce, l’outil de requêtes de Hadoop, a la réputation d’être puissant mais complexe à manipuler. De plus, les requêtes doivent être redéfinies à la volée à chaque changement. L’opération est longue et complexe. Drill vient compléter MapReduce et se présente sous la forme d’une API permettant de poser plus rapidement des requêtes en se basant sur le modèle SQL.

Faire face à la concurrence

Tandis que ses deux concurrents se positionnaient sur une démarche où la R&D joue un rôle majeur mais laisse une image de produit qui n’est pas encore fini, MapR a misé sur la construction d’une stack certes fermée, mais validée, ce qui séduit les organisations. C’est, avec sa capacité de support, une des raisons de son succès.

La nouvelle levée de 30 millions de dollars devrait lui permettre de renforcer sa stratégie commerciale, et d’affronter de nouveaux concurrents : Greenplum chez EMC et, plus inattendu, Intel qui vient de se fendre de sa distribution (lire « Le Big Data s’enrichit d’une nouvelle distribution Hadoop signée Intel »).

Alors MapR s’est peut-être placée dès le départ à la marge de la communauté open source qui contribue au noyau Hadoop, qu’elle ne se gène pas de piller, mais c’est là aussi qu’est la force de l’open source. Une démarche sans état d’âme qui lui réussit…


Voir aussi

Dossier : le Big Data va-t-il forcer le modèle L.A.M.P. à muter ?