Tribune Big Data : hors Hadoop, point de salut

En moins de quatre ans, le framework open source Hadoop est devenu hégémonique sur les solutions de type Map Reduce, étouffant toute concurrence propriétaire. Une tribune signée Romain Chaumais d’Ysance.

Très rapidement, cette plateforme fédère un conglomérat d’acteurs divers animés depuis 2009 par la Fondation Apache. Ces derniers l’enrichissent et créent un écosystème complet en ajoutant chacun à leur tour de nouvelles briques. Si Hortonworks, spinoff de Yahoo et Cloudera sont parmi les éditeurs les plus actifs pour enrichir l’écosystème Hadoop (Flume, Scoop, ZooKeeper etc.), ils sont loin d’être les seuls. Pour masquer la relative complexité de l’univers Map Reduce et rendre ce dernier encore plus facile d’accès, Facebook a développé Hive, qui permet d’interroger un cluster Hadoop directement en SQL, quand Pig, autre langage de requêtage de haut niveau, est proposé par Yahoo. Il faut souligner que la liste de ces contributeurs ne cesse de s’allonger (eBay, Twitter, etc.).

Même si Hadoop n’était peut-être pas initialement la technologie la plus performante, son environnement se développe tellement rapidement qu’aucun acteur privé ne semble en mesure d’aligner seul les ressources en R&D nécessaires pour contrer cette dynamique. Résultat, la déferlante Hadoop a étouffé toute velléité de concurrence propriétaire, devenant hégémonique en à peine quatre ans d’existence. Microsoft a même fini par troquer sa technologie propriétaire Windows HPC Server (abandonnée en novembre dernier) contre une solution « Hadoop native » sur Windows Azure, tandis que la technologie Map Reduce développée par Aster Data, racheté (trop tôt ?) par Teradata, n’a eu pas le temps de percer.

À l’inverse, Amazon Web Services (AWS) a bâti son offre de Big Data sur le moteur Hadoop proposé en mode on demand tandis que Oracle installe Cloudera au cœur de sa Big Data Appliance. Finalement, il ne reste plus aux éditeurs qu’un rôle d’assemblage de briques complémentaires (administration, monitoring, sécurité…) sommées d’interagir autour du même noyau Hadoop (cf. schéma 2), à l’instar du modèle économique d’un Red Hat dans l’univers Linux.

Il aura donc fallu attendre l’avènement du Big Data pour voir des éditeurs traditionnellement aussi propriétaires que Microsoft, Oracle ou IBM bâtir des distributions autour d’un cœur en open source. Autrement dit, Hadoop a réussi sur le même modèle que Linux : hégémonie d’une technologie ouverte.

Ce constat est lourd de conséquences, pour les éditeurs, désormais obligés de partager la valeur avec leurs clients. Il l’est aussi pour les utilisateurs, qui peuvent accéder au moindre coût à des technologies complexes et avant-gardistes, avec des ROI démultipliés par rapport aux projets habituels. La voilà, la grande nouveauté : Hadoop a permis de déverrouiller le marché du Big Data dès sa genèse et le rendre accessible à tous, des grands groupes jusqu’aux TPE. Un constat qui aurait été impossible avec des outils purement propriétaires. Ce n’est pas la moindre de ses conséquences.

Crédit photo et schémas : © Ysance