EMC World : Greenplum Analytics Workbench, le « projet X » du Big Data

EMC World 2012

EMC Greenplum teste avec ses partenaires la plus grande architecture analytique Big Data au monde. Elle est composée de 1000 noeuds en cluster sous Hadoop et MapReduce.

Greenplum Analytics Workbench

De notre correspondant à l’EMC World de Las Vegas – Afin de redéfinir les modèles d’applications analytiques du Big Data, le projet Greenplum Analytics Workbenchva tester les limites des technologies d’infrastructure « scale out » via le cluster de 1000 noeuds installé en laboratoire.

Camouflé sous l’appellation « Projet X », accompagné d’une imagerie à la Star Trek, avant d’être dévoilé lors de la seconde journée d’EMC World, Greenplum Analytics Workbench est un projet à la fois ambitieux et innovant qui réunit EMC, Intel, Mellanox Technologies, Micron, Seagate, SuperMicro, Switch et VMware.

Le laboratoire Greenplum Analytics Workbench

Le laboratoire intègre :

  • 1000 serveurs Supermicro 2U Greenplum Hadoop;
  • 2000 processeurs Intel Xeon X5670;
  • 48 To de mémoire DDR3 Micron (192 Go de RAM par serveur);
  • 24 Po de stockage sur 12 000 disques Seagate, répartis en 24 To par noeud et 2 disques 2 To par serveur;
  • cartes Connectx 3 VPI et switch Switchx VPI 40/10 GbE de Mellanox;
  • un datacenter hébergé par Switch à Las Vegas, 3 SCIFS complets de 54 racks et 20 serveurs par rack.

 

Infrastructure du projet Greenplum Analytics Workbench

Le support des 1000 noeuds est assuré par les équipes de Rubicon, filiale de VMware, via le système de gestion du matériel et de monitoring du réseau Zabbix.

L'environnement logiciel Hadoop

Greenplum fournit le système de fichier distribué open source Hadoop, qui permet sur le cluster d'exploiter les noeuds à la fois pour le traitement et pour le stockage; et l'environnement analytique. Le système de fichier HDFS (Hadoop Distributed File System) s'occupe de la distribution des données sur le cluster tandis que les mécanismes de parallélisation des tâches (processus) sont assurés par Hadoop MapReduce, dont la complexe programmation des requêtes (appelées jobs) fournit les ressources analytiques.

L'objectif du projet est d'accélérer l'adoption d'Hadoop et donc bien évidemment du Big Data. En commençant tout d'abord par valider le code de base d'Apache Hadoop dans un environnement massif jamais encore déployé à cette échelle. En rendant les résultats des tests accessibles à la communauté open source, les porteurs du projet espèrent attirer de nouveaux acteurs vers le Big Data.

Tester, valider et former

Un autre objectif clairement déclaré est de tester les limites des technologies d'infrastructure scale-out. Tout en faisant cela, Greenplum compte faire d'une pierre deux coups en explorant au travers des tests de nouveaux modèles d'usage de l'analytique associée au Big Data.

Le cluster, qui devrait être opérationnel au cours de l'été, sera également accessible aux partenaires de Greenplum qui se forment sur Hadoop et visent la certification. Disposer d'un accès à un cluster géant de 1000 noeuds devrait pouvoir chatouiller la fibre d'innovation de la communauté Hadoop...