En direct de la Silicon Valley – Après Excite, Apple et Xerox, Doug Cutting travaille chez Google, mais regrette que tant de savoir-faire ne bénéficie pas à la communauté, le moteur de recherche se réservant ses développements. Doug est loin d’être un inconnu. Il est à l’origine d’un projet qui a rejoint la Fondation Apache, Lucene, une librairie logicielle d’indexation des recherches initialement développée en Java, et qui depuis a été portée sur les langages Delphi, Perl, C#, C++, Python, Ruby, et PHP. Lucene est par exemple le cœur du moteur de recherche de l’encyclopédie collaborative Wikipedia.
Doug Cutting est également l’auteur d’un moteur de recherche open source, un crawler ou spider (robot d’indexation des contenus web) nommé Nutch, également supporté par la Fondation Apache. Et pour aller plus loin dans ce projet, il lui faut un framework qui permette de paralléliser un très grand nombre d’opérations informatiques sur de larges clusters de serveurs, piloté par un algorithme : MapReduce. Il couche ce nouveau projet sur le papier, que Google Labs publie en décembre 2004.
Contrairement à la légende que certains entretiennent, qui attribue à Yahoo la création d’Hadoop, c’est bien chez Google qu’est né le projet. En revanche, Doug Cutting va rejoindre Yahoo et lancer, en 2008, le premier grand projet Hadoop, le Yahoo! Search Webmap qui tourne sur un cluster de 10.000 cœurs Linux. Aujourd’hui, le plus grand cluster Hadoop s’appelle Facebook et embarque 30 Po de données.
En juin 2009, Yahoo rend le code source d’Hadoop public. Mais le moteur de recherche historique va mal, ce qui pousse Doug Cutting à rejoindre Cloudera, une société créée par deux de ses amis, également contributeurs à la communauté Hadoop. Ce n’est que deux années plus tard, toujours sous la pression du recul de Yahoo, que les équipes Hadoop du moteur vont créer une spin-off, Hortonworks, qui s’attribue derechef la paternité d’Hadoop, et chez qui le nom même de Cloudera est banni. Les relations entre les deux sociétés se sont depuis quelque peu aplanies, sous l’impulsion des développeurs qui contribuent en commun au projet open source.
Doug Cutting est un personnage attachant, d’une rare humilité, et toujours accessible. Il vit encore dans le village de la Valley où il est né et où il a rencontré son épouse. Ses voisins ignorent que ses développements sont en train de révolutionner l’industrie. En revanche, il demeure à la tête de la communauté Hadoop qu’il associé à une pyramide, les principaux développeurs à la pointe, les milliers utilisateurs qui ne contribuent pas à la base.
Trois principales distributions Hadoop sont aujourd’hui disponibles : Cloudera, Hortonworks et MapR. Ces dernières semaines, de nombreux acteurs de l’informatique ont pris position en passant des accords avec certaines d’entre elles (lire nos différents articles à ce propos). Chacune est portée par des membres de la première communauté hébergée par Yahoo et qui a développé le projet. Nous avons demandé à Doug Cutting ce qui les différencie ? « Hortonworks est 100 % open source, mais est encore en développement et n’a pas de produit fini. Cloudera est également 100 % open source, sauf sur les outils d’administration propriétaires. MapR reprend le noyau open source d’Hadoop, mais l’enveloppe dans un emballage qui le rend propriétaire. »
À la vue de cette situation, peut ont définir le degré de stabilité d’Hadoop ? Doug Cutting peine à répondre à cette question. « Hadoop est un projet open source. La communauté contribue régulièrement à améliorer et à compléter le code. Il n’a donc pas vocation à être stable. Aujourd’hui le cœur du noyau ne présente quasiment plus de bug, ce qui participe à sa très large diffusion et à son succès. »
Et à quoi travaille Doug Cutting pour le futur d’Hadoop ? « Mon équipe continue de contribuer à faire évoluer le noyau d’Hadoop. Quant à moi, je me concentre sur les formats de fichiers. C’est quelque chose d’essentiel pour l’avenir de disposer de formats stables, reconnus et normalisés ». Doug conservera, jusqu’au bout de notre entretien, sa franchise et sa démarche open…
Diverses tendances animant l'univers des LLM transparaissent en filigrane du discours de Meta sur Llama…
Mandiant a attribué un APT à Sandworm, considéré comme le principal groupe cybercriminel à la…
Les deux startup proposent un connecteur entre la platefome OpenCTI de Filigran et l’EDR de…
Des chercheurs ont mis des agents LLM à l'épreuve dans la détection et l'exploitation de…
Dans la lignée de Signal, iMessage intègre une couche de chiffrement post-quantique.
Douze fournisseurs sont classés dans le dernier Magic Quadrant des infrastructures LAN.