PagesJaunes se transforme avec les solutions Big Data de Dataiku

La plateforme Data Science Studio de Dataiku permet à PagesJaunes (Solocal Group), de rationaliser son approche du traitement de données massives.

Afin d’optimiser la qualité des résultats de recherche de ses utilisateurs, PagesJaunes, filiale de Solocal Group, a opté dès janvier 2013 pour Data Science Studio. Dédiée à l’innovation par la donnée, cette plateforme d’analyse de données et de construction d’applications prédictives a été conçue par la start-up Dataiku. Elle permet au spécialiste français de l’information locale et de la publicité d’accélérer ses projets Big Data. Retour d’expérience :

Le choix de l’expertise technique

« Après avoir pris connaissance de l’expertise de Dataiku en matière de traitement massif des données et d’analyse comportementale des clients, nous avons rapidement conclu que cette collaboration était la solution pour répondre à nos besoins et aborder le sujet sous un angle innovant », explique à la rédaction Erwan Pigneul, responsable de projet PagesJaunes.

La combinaison d’outils Open Source de gestion de données, de visualisation, d’analyse statistique et prédictive (Hadoop, MongoDB, Elastic Search, Scikit-learn…) au sein d’une même plateforme a attisé la curiosité de PagesJaunes. Les performances de la solution et l’expérience de Florian Douetteau, président et co-fondateur de la jeune pousse française Dataiku, ont convaincu l’organisation du potentiel de l’offre. (Lire : Florian Douetteau, Dataiku : « Le Big Data n’a pas vocation à prédire l’avenir »).

Automatiser la détection de requêtes

Il était nécessaire, selon les intéressés, de rendre la science des données (Data Science) – à savoir les informations, leur traitement automatisé et leur application pratique – « plus accessible et génératrice de valeur » au quotidien. « Nous avons mené à bien notre projet initial et le résultat a dépassé nos espérances », assure Erwan Pigneul.

PagesJaunes a d’abord choisi Data Science Studio pour automatiser la détection et la correction de requêtes. Les données issues de l’utilisation de son moteur – listes des requêtes, logs de navigation et clics, ordre des visites des pages… – sont assemblées et exploitées pour isoler les recherches infructueuses. Dataiku explique qu’un score est calculé avec un algorithme pour chaque requête afin de « prédire » celles qui donnent des réponses non-satisfaisantes aux utilisateurs. Ces requêtes sont par la suite corrigées pour améliorer l’expérience utilisateur.

Par ailleurs, les données sont « nettoyées », enrichies et exploitées. Les collaborateurs de PagesJaunes peuvent ainsi convertir les données brutes en flux de données à valeur ajoutée. « La technologie de Dataiku nous a permis de rationaliser notre approche en utilisant des statistiques basées sur des millions de requêtes », commente la filiale de Solocal Group.

Retour sur investissement

Le budget du déploiement se situe dans une fourchette de 100 000 à 200 000 euros. Aujourd’hui, après plus d’un an de collaboration, une dizaine de spécialistes de la donnée utilisent Data Science Studio pour optimiser les résultats de PagesJaunes.fr (environ 20 millions de visiteurs uniques par mois, soit un volume de 10 Teraoctets de données).

La productivité des équipes chargées de la qualité du moteur aurait été améliorée de 30%. Et le projet, qui a servi de pilote, a permis l’émergence d’autres initiatives d’innovation par la donnée. « Nous avons étendu notre utilisation de la technologie de Dataiku au champ de la prédictivité et du ‘machine learning’ », précise PagesJaunes. Les collaborateurs concernés ont été formés à l’usage d’Hadoop, des statistiques et de l’analyse prédictive via le Data Science Studio.


Lire aussi

Dossier Spécial – Le Big Data dans tous ses états