Big Data : Criteo fait entendre sa voix dans le charivari ambiant

Le Français Criteo organise sa première conférence Big Data. Avec une approche très américaine, centrée sur les technologies et les retours d’expérience sans langue de bois.

Not Another Big Data Conference (NABDC). C’est l’appellation – un clin d’œil geek pour ce qui est évidemment une autre conférence sur le sujet hype du moment – qu’a choisie Criteo pour lancer son premier événement sur l’exploitation de la donnée. Un sujet sur lequel la société française dispose évidemment de quelques arguments, en particulier au niveau hexagonal. Le spécialiste du marketing à la performance sur les bannières publicitaires a en effet déployé ce qui est probablement le plus important cluster privé Hadoop de ce côté-ci de l’Atlantique, avec environ 40 Po de données répartis sur 1 200 serveurs dans un datacenter situé à Amsterdam. Et la société de technologies s’est lancée, voici un an, dans la construction d’un second cluster, hébergé dans un datacenter Equinix en région parisienne. Une installation qui sera capable, à terme, de recevoir plus de 5 000 serveurs.

Mais l’objectif de NABDC n’était pas d’aligner les chiffres ronflants, mais plutôt de mettre en avant des retours d’expérience sur des solutions Open Source souvent émergentes et pas toujours très matures. « Chez Criteo, nous passons notre temps à casser les choses et, la plupart du temps, à les réparer », s’amuse Justin Coffey, le chef de l’équipe R&D analytique et données de Criteo et organisateur de l’événement. Le ton de NABDC se veut donc pragmatique et en rupture avec la teinte très marketing de certaines conférences. Sans oublier quelques clins d’œil appuyés aux recrutements d’experts de la donnée par la société française.

Spark en production : pas si simple

L’approche s’inspire clairement des événements organisés par les géants de la Silicon Valley, comme Google (par ailleurs partenaire de la NABDC). « Nous voulons créer une culture d’ingénieur s’apparentant à celle des fleurons de la Silicon Valley », confirme d’ailleurs Dan Teodosiu, le vice-président de l’ingénierie de Criteo.

Illustration de cette approche, avec la présentation de Brice Arnould (en photo ci-dessus), le responsable de la fiabilité des services (SRE pour Site Reliability Engineer) de Criteo, au sujet des problèmes de production de Kafka. La société souhaite utiliser l’outil Open Source de gestion de messages pour pousser les données de ses applications de production vers son cluster Hadoop, mais aussi vers Mesos (systèmes de clusters) ou Storm (gestion de données en temps réel). Un projet qui soulève de nombreuses problématiques en production (garantie de disponibilité des partitions, applications clientes mal configurées, équilibrage de charge). Sur ce dernier point, les équipes de Criteo ont d’ailleurs développé un outil permettant de rééquilibrer la distribution des partitions Spark. Un outil que Brice Arnould se dit disposé à placer en Open Source.

L’ode à SQL de Criteo

« Clairement, en lançant ce projet, nous n’avons pas suffisamment exploré les dépendances avec d’autres systèmes, notamment des systèmes anciens, explique l’ingénieur. Des technologies comme Kafka placent énormément d’intelligence dans les applications clientes, donc ces dernières ont besoin d’un haut niveau de support. » Autre bonne pratique mise en évidence lors de ce projet, toujours en cours : ne pas tenter d’aller au-delà les niveaux de service attendus pas les utilisateurs. Le SLA des partitions Kafka est ainsi limité à 95,83 % soit une heure d’indisponibilité par jour au maximum.

De façon amusante, pour une conférence dédiée aux nouvelles technologies analytiques, NABDC a fait l’apologie du SQL, un langage créé… en 1974. « Certes, ce langage reprend la syntaxe du Cobol, mais les alternatives émanant des technologies Big Data sont beaucoup plus verbeuses », plaide François Jehl, à la tête de l’équipe en charge de la plate-forme analytique de Criteo. Le spécialiste du marketing à la performance exploite la technologie Vertica de HPE pour répondre aux besoins des analystes de la société. « Si vous avez un problème que vous pouvez résoudre via SQL, alors utilisez-le, abonde Martin Gorner, en charge des relations avec les développeurs chez Google. Mais tous les problèmes ne peuvent pas s’exprimer en SQL. »

Ce dernier présentait une alternative à MapReduce, le framework de manipulation de grands volumes de données sur des architectures distribuées. Un concept inventé par Google… et aujourd’hui totalement délaissé par la firme de Mountain View. « Dès que vous devez traiter plus d’une réduction, vous avez besoin d’un meilleur paradigme », assure Martin Gorner. Selon lui, ce nouveau concept – encore inventé par Google – serait DataFlow, un modèle de programmation basé sur Java et embarquant les logiques de réduction dans les environnements distribués. Le modèle est à la fois disponible sur le Cloud de Google, et dans un outil Open Source géré par la fondation Apache, Beam.

Comment Criteo transforme Hadoop en moteur de sa rentabilité

Criteo dédie son second datacenter à Paris à Hadoop

Lire aussi : Comment Grab a optimisé ses coûts Kafka sur AWS