Cloudera : une brève histoire d’Hadoop, de son créateur, et d’une révolution

silicon-valley

Rencontre avec Doug Cutting, l’homme qui a créé Hadoop, le framework open source destiné à la gestion intensive des données qui cartonne chez tous les acteurs du stockage et pourrait bien révolutionner l’industrie.

En direct de la Silicon Valley – Après Excite, Apple et Xerox, Doug Cutting travaille chez Google, mais regrette que tant de savoir-faire ne bénéficie pas à la communauté, le moteur de recherche se réservant ses développements. Doug est loin d’être un inconnu. Il est à l’origine d’un projet qui a rejoint la Fondation Apache, Lucene, une librairie logicielle d’indexation des recherches initialement développée en Java, et qui depuis a été portée sur les langages Delphi, Perl, C#, C++, Python, Ruby, et PHP. Lucene est par exemple le cœur du moteur de recherche de l’encyclopédie collaborative Wikipedia.

Doug Cutting est également l’auteur d’un moteur de recherche open source, un crawler ou spider (robot d’indexation des contenus web) nommé Nutch, également supporté par la Fondation Apache. Et pour aller plus loin dans ce projet, il lui faut un framework qui permette de paralléliser un très grand nombre d’opérations informatiques sur de larges clusters de serveurs, piloté par un algorithme : MapReduce. Il couche ce nouveau projet sur le papier, que Google Labs publie en décembre 2004.

Un éléphant et un cri…

Comme c’est la tradition, Doug veut donner un nom à son projet de framework et lui associer une image. Le jouet préféré de son premier fils, alors âgé de 3 ans, est un doudou, une peluche d’éléphant jaune (voir nos photos). L’idée d’un éléphant sera confortée par un ami de Doug à qui il confie la mission de lui dessiner un logo animalier, et qui sans se concerter dessinera également un éléphant. Adopté. Quant au nom, le fils de Doug une fois encore a construit un mot prononcé clairement en réclament son doudou : « hadoop ». Incompréhensible, certes, mais il est resté et sera d’autant facilement retenu par Doug Cutting qu’« il n’était pas déposé comme nom de domaine ». Nous noterons que depuis 2010 Doug est le président du conseil d’administration de l’Apache Software Foundation.

Contrairement à la légende que certains entretiennent, qui attribue à Yahoo la création d’Hadoop, c’est bien chez Google qu’est né le projet. En revanche, Doug Cutting va rejoindre Yahoo et lancer, en 2008, le premier grand projet Hadoop, le Yahoo! Search Webmap qui tourne sur un cluster de 10.000 cœurs Linux. Aujourd’hui, le plus grand cluster Hadoop s’appelle Facebook et embarque 30 Po de données.

Yahoo, Hadoop et Cloudera

En juin 2009, Yahoo rend le code source d’Hadoop public. Mais le moteur de recherche historique va mal, ce qui pousse Doug Cutting à rejoindre Cloudera, une société créée par deux de ses amis, également contributeurs à la communauté Hadoop. Ce n’est que deux années plus tard, toujours sous la pression du recul de Yahoo, que les équipes Hadoop du moteur vont créer une spin-off, Hortonworks, qui s’attribue derechef la paternité d’Hadoop, et chez qui le nom même de Cloudera est banni. Les relations entre les deux sociétés se sont depuis quelque peu aplanies, sous l’impulsion des développeurs qui contribuent en commun au projet open source.

Doug Cutting est un personnage attachant, d’une rare humilité, et toujours accessible. Il vit encore dans le village de la Valley où il est né et où il a rencontré son épouse. Ses voisins ignorent que ses développements sont en train de révolutionner l’industrie. En revanche, il demeure à la tête de la communauté Hadoop qu’il associé à une pyramide, les principaux développeurs à la pointe, les milliers utilisateurs qui ne contribuent pas à la base.

Comment différencier les projets Hadoop ?

Doug Cutting, créateur d'Hadoop, avec l'éléphant de son fils

Trois principales distributions Hadoop sont aujourd’hui disponibles : Cloudera, Hortonworks et MapR. Ces dernières semaines, de nombreux acteurs de l’informatique ont pris position en passant des accords avec certaines d’entre elles (lire nos différents articles à ce propos). Chacune est portée par des membres de la première communauté hébergée par Yahoo et qui a développé le projet. Nous avons demandé à Doug Cutting ce qui les différencie ? « Hortonworks est 100 % open source, mais est encore en développement et n’a pas de produit fini. Cloudera est également 100 % open source, sauf sur les outils d’administration propriétaires. MapR reprend le noyau open source d’Hadoop, mais l’enveloppe dans un emballage qui le rend propriétaire. »

La stabilité et l’avenir

À la vue de cette situation, peut ont définir le degré de stabilité d’Hadoop ? Doug Cutting peine à répondre à cette question. « Hadoop est un projet open source. La communauté contribue régulièrement à améliorer et à compléter le code. Il n’a donc pas vocation à être stable. Aujourd’hui le cœur du noyau ne présente quasiment plus de bug, ce qui participe à sa très large diffusion et à son succès. »

Et à quoi travaille Doug Cutting pour le futur d’Hadoop ? « Mon équipe continue de contribuer à faire évoluer le noyau d’Hadoop. Quant à moi, je me concentre sur les formats de fichiers. C’est quelque chose d’essentiel pour l’avenir de disposer de formats stables, reconnus et normalisés ». Doug conservera, jusqu’au bout de notre entretien, sa franchise et sa démarche open