Big Data : YARN remplace MapReduce et apporte la simultanéité à Hadoop 2.0

La version 2.2.0 de Hadoop comble son retard face aux distributions commerciales concurrentes, bien que basées sur le même noyau. Cette mouture amène la gestion simultanée de plusieurs applications.

L’Apache Software Foundation a annoncé que Hadoop 2.0 (en réalité la version technique 2.2.0) est disponible sous la désignation GA (General Availability).

Cette nouvelle version intègre des fonctionnalités très attendues, dont certaines déjà remarquées au sein de distributions commerciales. La communauté qui privilégie l’approche open source de la plateforme de big data analytique appréciera.

YARN prend la lace de MapReduce

La plus significative est l’intégration de YARN (Yet Another Ressource Negociator) – aussi appelé MapReduce 2.0 (MRv2) – qui prend la place de MapReduce. YARN vient se placer au dessus de HDFS (Hadoop Destributed File System) afin d’offrir des fonctionnalités de système d’exploitation pour les applications analytiques Big Data.

Cette disposition permet l’exécution simultanée de multiples applications tout en offrant un meilleur suivi de la donnée tout au long de son cycle de vie. Elle permet également de mixer des workloads en batch, interactif et en temps réel. YARN conserve également la compatibilité avec les API (Application Programming Interface) de MapReduce, ne nécessitant qu’une recompilation des applications développées pour celui-ci.

La principale différence apportée par YARN provient de la séparation en deux daemons de la gestion des ressources (RessourceManager – RM) et du pilotage des tâches ou applications (ApplicationMaster – AM). AM est un framework disposant d’une librairie spécifique qui négocie les ressources RM avec le NodeManager (NM) afin d’exécuter et de monitorer les tâches.

yarn_architecture
L’architecture YARN

 


Voir aussi

Silicon.fr étend son site dédié à l’emploi IT
Silicon.fr en direct sur les smartphones et tablettes