Hadoop v2.8, une mise à jour orientée sécurité et Cloud

Le développement a pris son temps, 2 ans et près de 3000 commits, mais l’Apache Software Foundation (ASF) vient de publier une mise à jour de Hadoop. La plateforme Big Data se décline maintenant en version 2.8 et les améliorations se focalisent autour du Cloud et de la sécurité.

Sur le plan de la sécurité, la Fondation indique avoir corrigé plusieurs bugs. De même, elle a intégré une protection au sein de l’interface utilisateur contre les cross-frame scripting, une attaque mélangeant du JavaScript malveillant et une iframe dans le but de générer une page légitime et voler des données. Une autre solution de sécurité, via une API Rest, veut contrer les attaques de type CSRF (Cross Site Request Forgery) liées aux failles des services d’authentification web. Ces mesures sur la sécurité ne sont pas anodines. Récemment, plus de 5 Po de données d’instances Hadoop étaient visibles sur la toile, en raison d’une mauvaise implémentation. Ces instances sont également vulnérables à des demandes de rançon sous peine, en cas de non-paiement, de les faire disparaître.

Azure Data Lake et amélioration des performances sur S3

Le Cloud est l’autre chantier de la mise à jour de Hadoop. L’ASF indique que la version 2.8 supporte maintenant Azure Data Lake de Microsoft en tant que source et comme destination des données. L’intérêt est une meilleure intégration avec le Cloud Azure. Le framework Big Data n’est pas non plus ignoré du plus grand des Cloud publics, AWS. Sur la partie stockage, Hadoop renforce ses liens avec S3 via son client « S3A ». Les améliorations ont surtout concerné Hive (datawarehouse de Hadoop) et Spark.

Sur la gestion des clusters Hadoop, le framework annonce l’arrivée de YARN NodeManager Ressource Reconfiguration via une console de commandes. Ce service apporte plus de flexibilité en matière d’attribution de ressources. Idéal pour un déploiement en mode Cloud. Ces différentes évolutions doivent permettre à Hadoop de séduire plus d’entreprises.

Projets Hadoop : un échec dans 70 % des cas