C’est l’histoire d’une application Big Data confrontée à une crise de croissance. Spécialiste des cartes et itinéraires sur le web, Mappy (10 millions de visiteurs par mois, à 45 % sur mobile) s’est lancé dans une stratégie d’analyse de données à grande échelle voici environ 3 ans. « A l’origine, on travaillait sur l’analyse de la performance de nos serveurs, avec une base SQL Server », raconte Cyril Morcrette, le directeur technique de Mappy. Rapidement, la société bascule sur Hadoop, pour réduire les temps de calcul de batch quotidiens, qui passent alors d’environ 22 heures sur une partie des données… à moins de 2 heures sur l’intégralité du jeu de données.
L’équipe technique est alors confrontée à des temps de réponse d’environ 20 secondes en moyenne. Un manque de réactivité qui pénalise les utilisateurs de la solution de dataviz « On a découvert les limites de Tableau sur les grosses volumétries », résume Cyril Morcrette. Une des solutions aurait pu consister à muscler le cluster Hadoop composé de 6 serveurs (comportant chacun 24 cœurs de processeurs). « Cela nous aurait amené à aller jusqu’à 20, voire 50 nœuds en fonction de la volumétrie anticipée », dit Nicolas Korchia. La solution viendra finalement d’une alternative, une couche d’indexation développée par un des freelances employés par Mappy, Florent Voignier (à droite sur la photo en haut de page).
« A partir du cas métier de Mappy, il a monté une solution sur ses heures perdues et nous l’a présentée », précise Cyril Morcrette. Sans modifier l’architecture, l’ajout de ce moteur d’indexation, baptisé Indexima, a ramené les temps de réponse à environ 0,1 seconde. 32 Go de mémoire ont été dédiés au moteur, fonctionnant comme une application Yarn (Yet Another Ressource Negociator, assurant la gestion des ressources de Hadoop depuis la version 2.0). « Avec 17 milliards d’affichage de points d’intérêt, sur 2,7 milliards de lignes, les requêtes SQL sont exécutées en moins de 100 ms. Les utilisateurs ne s’en rendent plus compte. Et, à ce jour, on ne voit pas de limite à l’outil », dit Nicolas Korchia. Indexima est en production chez Mappy depuis 6 mois.
Lancé officiellement lors du salon Big Data Paris (qui se tenait les 7 et 8 mars au Palais des Congrès), la solution Indexima, portée par l’entreprise du même nom, combine différentes techniques. « Elle fonctionne entre 100 et 1 000 fois plus vite, principalement grâce au cumul de trois techniques : des index multi-dimensionnels In-Memory, de la pré-agrégation et du stockage sur disque orienté colonnes », résume Florent Voignier, qui s’exprimait lors d’une conférence sur le salon parisien. Le développeur envisage désormais de passer sa technologie en Open Source, en y greffant une licence payante pour son moteur de création d’index. Une nouvelle accueillie très positivement par Mappy, « d’autant qu’il reste des éléments à stabiliser dans Indexima », note Cyril Morcrette.
Ce nouveau greffon ajouté au SI du spécialiste du Web (qui emploie quelque 80 personnes, auxquelles s’ajoute une vingtaine de prestataires) illustre le besoin des entreprises de faire perpétuellement évoluer leurs architectures Big Data. « A chaque fois qu’on finit une évolution, on se heurte au mur d’après », résume Cyril Morcrette. En deux ans, l’architecture Hadoop du spécialiste de la cartographie a connu 4 virages majeurs : le passage de Python à MapReduce pour la préparation de données, le choix de Tableau Software pour la dataviz, le remplacement des cubes par Spark In-Memory et, enfin, l’arrivée d’Indexima. « Comme toutes les entreprises, on se cherche encore beaucoup sur le sujet de la donnée », dit Cyril Morcrette.
L’équipe chargée de la donnée chez Mappy (4 développeurs, 2 analystes BI, 2 personnes du marketing auxquels s’ajoute une équipe de préparation des données) est aujourd’hui confrontée à des contraintes réseau, liées aux choix d’infrastructure passés. « Le système HDFS fonctionne sur des baies Isilon. Le cluster échange tellement avec HDFS qu’on frôle la saturation du réseau », résume Nicolas Korchia. Mais le plus gros défi réside dans les nouveaux champs d’exploitation de la donnée. « Nous allons travailler sur la géolocalisation des utilisateurs, afin de personnaliser l’application grâce au Machine Learning », dévoile Cyril Morcrette. Objectif par exemple : reconnaître automatiquement quand un utilisateur s’apprête à faire son trajet travail-domicile. « Cela nécessite de nouvelles évolutions de compétences, au niveau technique bien sûr, mais aussi au plan marketing », ajoute-t-il.
A lire aussi :
LinkedIn place en Open Source son outil Big Data, WhereHows
La Poste Courrier préposée à transformer le Big Data en or
Données inutiles ou non classées : quand le Big Data coûte bonbon
OVHCloud partage ses efforts environnementaux au sommet de l’Open Compute Project qui se tient à…
Avec Phi-3-mini, Microsoft lance un SLM conçu pour attirer une clientèle disposant de ressources financières…
La Commission européenne serait sur le point d'approuver la proposition d'Apple visant à fournir à…
Le Premier ministre a précisé les usages de l'IA dans les services de l'administration et…
Sous la marque Horizon OS, Meta va ouvrir le système d'exploitation des casques Quest à…
Après avoir essaimé dans 145 pays, la communauté de femmes de la tech Women Who…