Criteo dédie son second datacenter à Paris à Hadoop

Criteo, spécialiste de la publicité à la performance, a réservé environ 900 m2 dans le datacenter Equinix de Pantin afin d’y installer un cluster Hadoop géant. La société, qui a bâti son propre design réseau, a fait confiance à Huawei pour la fourniture de serveurs. Visite guidée.

C’est dans le nouveau datacenter d’Equinix à Pantin (appelé PA4), au nord-est de Paris, que Criteo a ouvert son second centre de données en France, un ensemble de deux salles entièrement dédiées à un cluster Hadoop, au cœur de la stratégie du groupe français spécialiste de la publicité à la performance. Dans les 6 000 mètres carrés du datacenter de Pantin, la start-up en a réservé environ 900, répartis sur deux salles (voir schéma ci-dessous). A pleine charge, l’équipement pourra recevoir plus de 5 000 serveurs, pour une puissance de 2 MW. Pour l’instant, 600 machines sont déployées dans une des deux salles (en bleu sur le schéma).

Criteo planPour mettre en place ce nouveau cluster Hadoop, qui doit suppléer celui d’Amsterdam actuellement saturé (il compte 1 200 machines), les équipes infrastructures de Criteo ont imaginé un nouveau design, un ‘Pod’, autrement dit une unité logique regroupant 16 racks, soit 320 serveurs. Ces Pod, dont deux sont actuellement déployés, sont ensuite agrégés dans ce que la société appelle un Spine, permettant de collecter les flux. Les équipes de R&D de Criteo ont imaginé un étage supplémentaire, le Super Spine permettant l’agrégation de plusieurs Spine. Une façon d’anticiper la croissance du cluster Hadoop parisien et son éventuelle extension sur plusieurs datacenters. « On a entièrement revu l’architecture réseau, explique Matthieu Blumberg, en charge de l’infrastructure d’hébergement de Criteo. Bizarrement, on s’est basé sur un modèle des années 50, conçu pour être scalable (extensible, NDLR) à l’infini. Et permettant de nous abstraire de toute dépendance à un fournisseur en particulier. »

Hadoop : beaucoup de trafic réseau

L’architecture doit en effet prendre en compte les besoins propres des clusters Hadoop, très gourmands en trafic réseau. « Par nature, toute machine peut dialoguer avec n’importe quelle autre présente sur le réseau, explique l’ingénieur entré chez Criteo voici 4 ans précisément pour prendre en charge le développement de Hadoop. En moyenne, à Amsterdam, le cluster génère 250 Gbit/s de trafic. Et, en parallèle, sur le datacenter aux Pays-Bas, nous devons maintenir une architecture temps réel soumise à des contraintes de latence très forte. Ce qui n’est pas évident. » D’où le choix de Criteo de consacrer entièrement son infrastructure de Pantin au framework Open Source, dont le rôle central est d’ingérer un maximum de données comportementales pour améliorer l’algorithme de recommandation temps réel de la société.

Le design de la nouvelle salle a également été pensé pour une automatisation maximale et une simplification des opérations de maintenance, que Criteo sous-traite. Ce que Matthieu Blumberg appelle ‘l’opérabilité’. Les numéros de série des serveurs et les disques durs sont ainsi directement accessibles depuis la façade. « Nous gérons aujourd’hui 15 000 serveurs au total avec une équipe infrastructure de 24 personnes », avance l’ingénieur.

HP devancé par Huawei

L’ouverture de ce second centre parisien a aussi été l’occasion pour Criteo de bousculer un peu ses fournisseurs habituels, en l’occurrence HP, Cisco et F5. En juin, la société a lancé trois appels d’offre sur les parties hébergement, réseau et serveurs. « La volonté était de s’ouvrir à plusieurs vendeurs du marché en se basant sur des standards », dit Matthieu Blumberg. Suite à une batterie de tests, la société a retenu Juniper, Dell et Arista côté réseau ainsi que Huawei pour la partie serveurs. « Ce projet nous a permis de chatouiller des fournisseurs un peu trop confortablement installés », lance le responsable de l’infrastructure. Pour le constructeur chinois, jusqu’alors surtout présent en France via ses solutions réseau et télécoms, il s’agit là d’une référence de poids.

D’autant que son serveur fait désormais partie des quatre configurations référencées par la société française (745 millions d’euros de chiffre d’affaires en 2014). « Le design que nous avons mis en place pour le cluster Hadoop pourra être reproduit sur toute l’infrastructure, pour des besoins de production, de pré-production ou d’accès Internet », prévient Matthieu Blumberg. En dehors même de la croissance de ses besoins, la société va décommissionner 1 500 serveurs cette année et 3 000 l’année prochaine. Des marchés importants où HP sera donc désormais confronté à la concurrence de Huawei.

no images were found

A lire aussi :