Intel Distribution : une nouvelle distribution Hadoop

Intel Distribution for Apache Hadoop, surnommé en interne Intel Distribution, associe les technologies Intel à la vague du Big Data.

L’engagement d’Intel dans le monde du traitement analytique de très larges volumes de données n’est pas nouveau…

Intel Distribution for Apache Hadoop (Intel Distribution) est d’abord une contribution au code du noyau Apache Hadoop, le projet open source de Big Data analytique qui alimente les distributions Hadoop, Hortonworks, Cloudera, MapR, Greenplum (EMC), Hortonworks Data Platform for Windows (Microsoft), Red Hat Storage Hadoop, Data Insight (Dell), etc.

Une contribution cependant, et c’est logique, très orientée vers les technologies Intel.

Le support des Intel Xeon

Pour mieux comprendre cet engagement d’Intel, il suffit de reprendre les éléments techniques de l’annonce d’Intel Distribution :

support des instructions Intel AES (Intel AES-NI) du processeur Intel Xeon pour le cryptage ;
support de l’optimisation des technologies de réseau et d’entrée-sortie du processeur Intel Xeon.

Les contributions d’Intel au code d’Hadoop ont principalement porté sur le système de fichiers HDFS (Hadoop Distributed File System), sur le framework de distribution des processus YARN, sur le module de requêtes SQL Hive et sur la clusterisation de la base de données HBase.

Le support des applicatifs Intel

Intel accompagne également son projet avec l’adaptation de certains de ses logiciels d’administration des systèmes, qui dans la stack Intel Distribution demeurent propriétaires :

Intel Manager pour Apache Hadoop pour le déploiement, la configuration, et la gestion de nouvelles applications ;
Intel Active Tuner pour Hadoop pour l’automatisation de la configuration et l’optimisation des performances.

Le support des Intel Labs

Enfin les Intel Labs et leurs développements liés à l’analyse des données sont également sollicités par le projet :

la bibliothèque GraphLab pour la création de graphiques à partir de grandes masses de données et la visualisation de leurs relations ;
l’optimisation de GraphData pour Hadoop afin de réduire le temps de développement en éliminant le besoin de grandes quantités de nouveau code spécifique.

Lire aussi : Intel pêche Granulate dans le vivier de l’optimisation d’infrastructure

L’écosystème est dans la boucle… mais pas complet

Écosystème oblige, Intel Distribution est supporté par un nombre important de partenaires du fondeur, mais encore loin de faire l’unanimité. Certains grands constructeurs (HP, IBM, EMC) et éditeurs (Microsoft, Oracle) manquent encore à l’appel.

La liste est cependant longue : Amax, Amazon, Cisco, Colfax, Datameer, Dell, EnPointe, Informatica, Infosys, Kitenga, LucidWorks, MarkLogic, Pentaho, Persistent, Red Hat, Revolution Analytics, SAP, SAS, Savvis, Silicon Mechanics, SoftNet, SuperMicro et TeraData.

Intel réserve le Big Data aux US et à la Chine

On regrettera toutefois qu’Intel Distribution for Apache Hadoop ne soit disponible, au moment de l’annonce, qu’aux États-Unis et en Chine. L’Europe et le reste du monde font encore une fois figure de parents pauvres de la communauté numérique.

À moins qu’Intel ne considère que le reste du monde n’ait pas la capacité de comprendre et de maitriser Hadoop, ce qui n’est pas loin de la réalité tant le Big Data analytique est complexe et nécessite des compétences qui manquent dans nos contrées… mais aussi aux États-Unis et en Chine !

Voir aussi

Silicon.fr étend son site dédié à l’emploi IT
Silicon.fr en direct sur les smartphones et tablettes

Lire aussi : Intel serait prêt à s’offrir la start-up Granulate pour 650 M$