Pour gérer vos consentements :

Big Data : Criteo fait entendre sa voix dans le charivari ambiant

Not Another Big Data Conference (NABDC). C’est l’appellation – un clin d’œil geek pour ce qui est évidemment une autre conférence sur le sujet hype du moment – qu’a choisie Criteo pour lancer son premier événement sur l’exploitation de la donnée. Un sujet sur lequel la société française dispose évidemment de quelques arguments, en particulier au niveau hexagonal. Le spécialiste du marketing à la performance sur les bannières publicitaires a en effet déployé ce qui est probablement le plus important cluster privé Hadoop de ce côté-ci de l’Atlantique, avec environ 40 Po de données répartis sur 1 200 serveurs dans un datacenter situé à Amsterdam. Et la société de technologies s’est lancée, voici un an, dans la construction d’un second cluster, hébergé dans un datacenter Equinix en région parisienne. Une installation qui sera capable, à terme, de recevoir plus de 5 000 serveurs.

Mais l’objectif de NABDC n’était pas d’aligner les chiffres ronflants, mais plutôt de mettre en avant des retours d’expérience sur des solutions Open Source souvent émergentes et pas toujours très matures. « Chez Criteo, nous passons notre temps à casser les choses et, la plupart du temps, à les réparer », s’amuse Justin Coffey, le chef de l’équipe R&D analytique et données de Criteo et organisateur de l’événement. Le ton de NABDC se veut donc pragmatique et en rupture avec la teinte très marketing de certaines conférences. Sans oublier quelques clins d’œil appuyés aux recrutements d’experts de la donnée par la société française.

Spark en production : pas si simple

L’approche s’inspire clairement des événements organisés par les géants de la Silicon Valley, comme Google (par ailleurs partenaire de la NABDC). « Nous voulons créer une culture d’ingénieur s’apparentant à celle des fleurons de la Silicon Valley », confirme d’ailleurs Dan Teodosiu, le vice-président de l’ingénierie de Criteo.

Illustration de cette approche, avec la présentation de Brice Arnould (en photo ci-dessus), le responsable de la fiabilité des services (SRE pour Site Reliability Engineer) de Criteo, au sujet des problèmes de production de Kafka. La société souhaite utiliser l’outil Open Source de gestion de messages pour pousser les données de ses applications de production vers son cluster Hadoop, mais aussi vers Mesos (systèmes de clusters) ou Storm (gestion de données en temps réel). Un projet qui soulève de nombreuses problématiques en production (garantie de disponibilité des partitions, applications clientes mal configurées, équilibrage de charge). Sur ce dernier point, les équipes de Criteo ont d’ailleurs développé un outil permettant de rééquilibrer la distribution des partitions Spark. Un outil que Brice Arnould se dit disposé à placer en Open Source.

L’ode à SQL de Criteo

« Clairement, en lançant ce projet, nous n’avons pas suffisamment exploré les dépendances avec d’autres systèmes, notamment des systèmes anciens, explique l’ingénieur. Des technologies comme Kafka placent énormément d’intelligence dans les applications clientes, donc ces dernières ont besoin d’un haut niveau de support. » Autre bonne pratique mise en évidence lors de ce projet, toujours en cours : ne pas tenter d’aller au-delà les niveaux de service attendus pas les utilisateurs. Le SLA des partitions Kafka est ainsi limité à 95,83 % soit une heure d’indisponibilité par jour au maximum.

Martin Gorner, Google.

De façon amusante, pour une conférence dédiée aux nouvelles technologies analytiques, NABDC a fait l’apologie du SQL, un langage créé… en 1974. « Certes, ce langage reprend la syntaxe du Cobol, mais les alternatives émanant des technologies Big Data sont beaucoup plus verbeuses », plaide François Jehl, à la tête de l’équipe en charge de la plate-forme analytique de Criteo. Le spécialiste du marketing à la performance exploite la technologie Vertica de HPE pour répondre aux besoins des analystes de la société. « Si vous avez un problème que vous pouvez résoudre via SQL, alors utilisez-le, abonde Martin Gorner, en charge des relations avec les développeurs chez Google. Mais tous les problèmes ne peuvent pas s’exprimer en SQL. »

Ce dernier présentait une alternative à MapReduce, le framework de manipulation de grands volumes de données sur des architectures distribuées. Un concept inventé par Google… et aujourd’hui totalement délaissé par la firme de Mountain View. « Dès que vous devez traiter plus d’une réduction, vous avez besoin d’un meilleur paradigme », assure Martin Gorner. Selon lui, ce nouveau concept – encore inventé par Google – serait DataFlow, un modèle de programmation basé sur Java et embarquant les logiques de réduction dans les environnements distribués. Le modèle est à la fois disponible sur le Cloud de Google, et dans un outil Open Source géré par la fondation Apache, Beam.

A lire aussi :

BI : Criteo fait de Vertica le compagnon de Hadoop

Comment Criteo transforme Hadoop en moteur de sa rentabilité

Criteo dédie son second datacenter à Paris à Hadoop

Recent Posts

Iris, un assistant d’IA conversationnelle en langue des signes

Ivès, expert en accessibilité de la surdité, s’est associé à Sopra Steria et à IBM…

3 heures ago

GenAI : le Royaume-Uni poursuit ses investigations sur les partenariats de Microsoft et Amazon

L'Autorité de la concurrence et des marchés (CMA) a lancé la phase de recherche de…

1 jour ago

Clients de VMware : les raisons de la colère

Broadcom remplace pas moins de 168 logiciels VMware par deux grandes licences de location correspondant…

1 jour ago

Laurent Carlier – BNP Paribas Global Market : « L’IA permet de modéliser des relations plus complexes, mais il faut rester prudent »

La banque d’investissement utilise l'IA pour proposer des stratégies individualisées, en termes de rendement et…

1 jour ago

Open Compute Project : les datacenters partagent des bonnes pratiques pour l’environnement

OVHCloud partage ses efforts environnementaux au sommet de l’Open Compute Project qui se tient à…

2 jours ago

Phi-3-mini : Microsoft lance son premier SLM

Avec Phi-3-mini, Microsoft lance un SLM conçu pour attirer une clientèle disposant de ressources financières…

2 jours ago