Big Data : MapR surfe sur la vague Spark pour consolider Hadoop

L’éditeur Hadoop MapR met sur le marché sa propre distribution Spark, la technologie de processing temps réel de la fondation Apache. Objectif principal : simplifier l’exploitation de la nouvelle coqueluche du Big Data.

MapR, qui commercialise une distribution Hadoop, entend accompagner l’extension des stratégies Big Data des entreprises vers le temps réel avec le lancement de sa propre distribution Spark, le projet Open Source le plus en vue du moment. « L’objectif est le même qu’avec notre distribution Hadoop : fournir une solution adaptée aux attentes des entreprises, plus facile à déployer et plus facile à maintenir que celle offerte par le code communautaire seul », résume Tugduall Grall, évangéliste technique chez MapR.

Pour l’expert, le temps réel est le sujet du moment dans l’univers du Big Data, même s’il reconnaît que la plupart des entreprises restent cantonnées au stade exploratoire pour le moment. « Notamment car elles font face à la problématique du manque de compétences sur ces nouvelles technologies que sont Kafka (capture d’événements, NDLR) et Spark (processing temps réel, NDLR). Un déficit de compétences en développement un peu, mais surtout en production, juge l’évangéliste. Car il faut des spécialistes pour gérer ces clusters, leur sécurité. Quand ces applications passent en production, se pose la question de l’intégration de l’authentification, celle de la gestion de profils… » MapR Spark a par exemple été retenu par Silca, le GIE de production informatique du Crédit Agricole, qui a intégré la technologie à son offre Big Data as-a-service.

Un cluster pour le temps réel et les batch

Pour l’éditeur de la distribution Hadoop, cette irruption du temps réel est aussi une façon de trouver de nouveaux usages aux clusters Hadoop et d’en faire, graduellement, une infrastructure centrale dans le paysage informatique des entreprises. « Bon nombre de projets Big Data sur Hadoop sont nés du besoin d’amener davantage de flexibilité aux datawarehouse ou de la volonté d’analyser de nouvelles sources de données, comme les logs du Web, résume Tugduall Grall. La logique est similaire avec Spark, poussé par une volonté d’améliorer l’existant. Car cette technologie ouvre la porte à des traitements temps réel mais aussi au Machine Learning pour des applications prédictives. Cette richesse plaît beaucoup aux entreprises. »

Pour les éditeurs de solutions constituées autour des projets Apache, comme MapR mais aussi Cloudera et Hortonworks, l’enjeu est d’amener de plus en plus de données vers la plate-forme Big Data, en mettant en avant les bénéfices de cette dernière en termes de coût et de flexibilité. « Avec notre plateforme, une entreprise a la capacité à gérer à la fois ses processus batch et ses processus temps réel sur le même cluster », avance Tugduall Grall.

Encore de l’Open Source ?

Dévoilée à l’occasion du Spark Summit, début juin, la distribution de MapR propose en standard un stockage via le File System maison (MapR FS, une technologie maison au code source propriétaire, mais compatible HDFS), la base de données maison (MapR DB) ou HBase. Spark offrant par ailleurs des connecteurs pour se greffer à d’autres File System ou bases de données.

« Avec notre distribution, le code Spark est 100 % identique à celui de la version communautaire, assure Tugduall Grall. Les éléments qui peuvent varier résident dans l’exploitation du cluster ou dans la sécurité. » Par exemple, stocker des données au format JSon dans MapR entraînerait une migration obligatoire en cas de transition vers la version communautaire pure. « Tout simplement parce qu’il s’agit là d’un nouveau développement que nous avons réalisé et que le standard n’existe pas en la matière, dit l’évangéliste. Nous avons par contre placé en Open Source l’API de cette technologie. » Et de balayer le procès en sorcellerie parfois fait à MapR, accusé de détourner l’esprit de l’Open Source. « Nous offrons une version communautaire de notre distribution. Simplement, avec cette édition, la haute disponibilité doit être gérée manuellement », dit l’évangéliste. « Ce n’est pas différent de nos concurrents », ajoute-t-il.

Tour d’horizon des 11 technologies prometteuses du Big Data

Big Data : IBM lance Data Science Experience, basé sur Spark