MapR, qui commercialise une distribution Hadoop, entend accompagner l’extension des stratégies Big Data des entreprises vers le temps réel avec le lancement de sa propre distribution Spark, le projet Open Source le plus en vue du moment. « L’objectif est le même qu’avec notre distribution Hadoop : fournir une solution adaptée aux attentes des entreprises, plus facile à déployer et plus facile à maintenir que celle offerte par le code communautaire seul », résume Tugduall Grall, évangéliste technique chez MapR.
Pour l’expert, le temps réel est le sujet du moment dans l’univers du Big Data, même s’il reconnaît que la plupart des entreprises restent cantonnées au stade exploratoire pour le moment. « Notamment car elles font face à la problématique du manque de compétences sur ces nouvelles technologies que sont Kafka (capture d’événements, NDLR) et Spark (processing temps réel, NDLR). Un déficit de compétences en développement un peu, mais surtout en production, juge l’évangéliste. Car il faut des spécialistes pour gérer ces clusters, leur sécurité. Quand ces applications passent en production, se pose la question de l’intégration de l’authentification, celle de la gestion de profils… » MapR Spark a par exemple été retenu par Silca, le GIE de production informatique du Crédit Agricole, qui a intégré la technologie à son offre Big Data as-a-service.
Pour l’éditeur de la distribution Hadoop, cette irruption du temps réel est aussi une façon de trouver de nouveaux usages aux clusters Hadoop et d’en faire, graduellement, une infrastructure centrale dans le paysage informatique des entreprises. « Bon nombre de projets Big Data sur Hadoop sont nés du besoin d’amener davantage de flexibilité aux datawarehouse ou de la volonté d’analyser de nouvelles sources de données, comme les logs du Web, résume Tugduall Grall. La logique est similaire avec Spark, poussé par une volonté d’améliorer l’existant. Car cette technologie ouvre la porte à des traitements temps réel mais aussi au Machine Learning pour des applications prédictives. Cette richesse plaît beaucoup aux entreprises. »
Pour les éditeurs de solutions constituées autour des projets Apache, comme MapR mais aussi Cloudera et Hortonworks, l’enjeu est d’amener de plus en plus de données vers la plate-forme Big Data, en mettant en avant les bénéfices de cette dernière en termes de coût et de flexibilité. « Avec notre plateforme, une entreprise a la capacité à gérer à la fois ses processus batch et ses processus temps réel sur le même cluster », avance Tugduall Grall.
Dévoilée à l’occasion du Spark Summit, début juin, la distribution de MapR propose en standard un stockage via le File System maison (MapR FS, une technologie maison au code source propriétaire, mais compatible HDFS), la base de données maison (MapR DB) ou HBase. Spark offrant par ailleurs des connecteurs pour se greffer à d’autres File System ou bases de données.
« Avec notre distribution, le code Spark est 100 % identique à celui de la version communautaire, assure Tugduall Grall. Les éléments qui peuvent varier résident dans l’exploitation du cluster ou dans la sécurité. » Par exemple, stocker des données au format JSon dans MapR entraînerait une migration obligatoire en cas de transition vers la version communautaire pure. « Tout simplement parce qu’il s’agit là d’un nouveau développement que nous avons réalisé et que le standard n’existe pas en la matière, dit l’évangéliste. Nous avons par contre placé en Open Source l’API de cette technologie. » Et de balayer le procès en sorcellerie parfois fait à MapR, accusé de détourner l’esprit de l’Open Source. « Nous offrons une version communautaire de notre distribution. Simplement, avec cette édition, la haute disponibilité doit être gérée manuellement », dit l’évangéliste. « Ce n’est pas différent de nos concurrents », ajoute-t-il.
A lire aussi :
Romain Chaumais, Ysance : « le Big Data en temps réel n’est pas une exigence, c’est une libération »
Tour d’horizon des 11 technologies prometteuses du Big Data
Big Data : IBM lance Data Science Experience, basé sur Spark
Dans une interview accordée à Silicon, Emmanuelle Olivié-Paul, présidente-fondatrice du cabinet de market intelligence AdVaes,…
Silicon et KPMG lancent Trends of IT 2024, une étude co-construite avec les managers IT…
Avec son Pack cybersécurité lancé au Forum InCyber 2024, Docaposte tend une perche aux PME.…
Quels sont les impacts immédiats de l'IA générative sur la cybersécurité ? Comment le contexte…
Un éditeur attire l'attention sur des attaques exploitant l'absence d'autorisation dans une API du framework…
Après un premier financement en septembre 2023, Amazon a débloquer le reste de l'enveloppe qu'il…