Pour gérer vos consentements :
Categories: Big DataCloud

EMC World : Greenplum Analytics Workbench, le « projet X » du Big Data

Greenplum Analytics Workbench

De notre correspondant à l’EMC World de Las Vegas – Afin de redéfinir les modèles d’applications analytiques du Big Data, le projet Greenplum Analytics Workbenchva tester les limites des technologies d’infrastructure « scale out » via le cluster de 1000 noeuds installé en laboratoire.

Camouflé sous l’appellation « Projet X », accompagné d’une imagerie à la Star Trek, avant d’être dévoilé lors de la seconde journée d’EMC World, Greenplum Analytics Workbench est un projet à la fois ambitieux et innovant qui réunit EMC, Intel, Mellanox Technologies, Micron, Seagate, SuperMicro, Switch et VMware.

Le laboratoire Greenplum Analytics Workbench

Le laboratoire intègre :

  • 1000 serveurs Supermicro 2U Greenplum Hadoop;
  • 2000 processeurs Intel Xeon X5670;
  • 48 To de mémoire DDR3 Micron (192 Go de RAM par serveur);
  • 24 Po de stockage sur 12 000 disques Seagate, répartis en 24 To par noeud et 2 disques 2 To par serveur;
  • cartes Connectx 3 VPI et switch Switchx VPI 40/10 GbE de Mellanox;
  • un datacenter hébergé par Switch à Las Vegas, 3 SCIFS complets de 54 racks et 20 serveurs par rack.

Infrastructure du projet Greenplum Analytics Workbench

Le support des 1000 noeuds est assuré par les équipes de Rubicon, filiale de VMware, via le système de gestion du matériel et de monitoring du réseau Zabbix.

L’environnement logiciel Hadoop

Greenplum fournit le système de fichier distribué open source Hadoop, qui permet sur le cluster d’exploiter les noeuds à la fois pour le traitement et pour le stockage; et l’environnement analytique. Le système de fichier HDFS (Hadoop Distributed File System) s’occupe de la distribution des données sur le cluster tandis que les mécanismes de parallélisation des tâches (processus) sont assurés par Hadoop MapReduce, dont la complexe programmation des requêtes (appelées jobs) fournit les ressources analytiques.

L’objectif du projet est d’accélérer l’adoption d’Hadoop et donc bien évidemment du Big Data. En commençant tout d’abord par valider le code de base d’Apache Hadoop dans un environnement massif jamais encore déployé à cette échelle. En rendant les résultats des tests accessibles à la communauté open source, les porteurs du projet espèrent attirer de nouveaux acteurs vers le Big Data.

Tester, valider et former

Un autre objectif clairement déclaré est de tester les limites des technologies d’infrastructure scale-out. Tout en faisant cela, Greenplum compte faire d’une pierre deux coups en explorant au travers des tests de nouveaux modèles d’usage de l’analytique associée au Big Data.

Le cluster, qui devrait être opérationnel au cours de l’été, sera également accessible aux partenaires de Greenplum qui se forment sur Hadoop et visent la certification. Disposer d’un accès à un cluster géant de 1000 noeuds devrait pouvoir chatouiller la fibre d’innovation de la communauté Hadoop…

Recent Posts

Après la NAND, Intel dit stop à la gamme Optane

Après avoir vendu son activité NAND, Intel tire un trait sur la technologie 3D XPoint,…

2 semaines ago

Google Analytics : la Cnil a posé les règles du jeu

Près de six mois ont passé depuis de que la Cnil a déclaré l'usage de…

2 semaines ago

Truffle 100 France : le top 20 des éditeurs de logiciels

Truffle 100 France : qui sont les 21 entreprises qui ont dépassé, en 2021, les…

2 semaines ago

Cloud : AWS brocarde les politiques de licences Microsoft

Un dirigeant d'Amazon Web Services dénonce des "changements cosmétiques" apportés par Microsoft à ses politiques…

2 semaines ago

Sécurité du code au cloud : Snyk Cloud, un joker pour développeurs

Snyk officialise le lancement de sa solution de sécurité cloud pour développeurs, Snyk Cloud, fruit…

2 semaines ago

Cegid accroche Grupo Primavera à son tableau d’acquisitions

Cegid va absorber Grupo Primavera, plate-forme de logiciels de gestion d'entreprise née dans la péninsule…

2 semaines ago