Big Data : eBay lance Pulsar, outil d’analyse de données en temps réel

eBay a développé son propre framework d’analyse de données en temps réel et de traitement de flux. L’outil nommé Pulsar est ouvert aux contributions externes.

Tout en s’appuyant sur le framework Hadoop pour le traitement par lot (batch) de données massives, eBay a développé sa propre solution d’analyse en temps réel, Pulsar, pour étudier les comportements de ses utilisateurs. Dans un billet de blog, le spécialiste américain des enchères en ligne lève le voile sur cet outil Open Source publié sous une double licence (Apache 2.0 et GPL v2).

« Pulsar peut être utilisé pour collecter et traiter des événements en temps réel, obtenir des informations clés et réagir à l’activité de l’utilisateur en quelques secondes », indique le site dédié gopulsar.io. Outre les sessions temps réel et l’agrégation multidimensionnelle, Pulsar utilise un langage de requêtes de type SQL pour la création de flux personnalisés. Et peut s’intégrer avec d’autres solutions Open Source, dont la base NoSQL Cassandra et le data store Druid.

eBay, Google, Twitter… adoptent tous l’analyse temps réel

Selon ses promoteurs, Pulsar peut traiter « des millions d’événements par seconde » avec une disponibilité élevée. En interne chez eBay, le système serait déjà largement utilisé. « Plusieurs équipes d’eBay ont créé des solutions tirant profit de notre plate-forme. Et ce pour résoudre des problématiques liées à la personnalisation de session, la publicité, le marketing en ligne, la facturation ou encore le suivi de l’activité business », ont déclaré les principaux contributeurs de Pulsar dans un document technique.

Dans ce contexte, eBay a choisi d’étendre l’utilisation de Pulsar et ses développements ouverts à des tiers. Le site d’enchères rejoint ainsi plusieurs firmes américaines du numérique, dont Twitter avec Storm et LinkedIn avec Samza, ayant rendu Open Source leurs propres systèmes d’analyse et traitement de flux en temps réel. Google, de son côté, a présenté l’an dernier lors de sa conférence développeurs, « Cloud Dataflow », un système d’injection de flux de données à la volée.

Lire aussi :
Cloudera injecte de l’analytique dans Hadoop
Google renforce son Cloud avec Firebase, base de données temps réel
Big Data : IBM, GE, SAS, Hortonworks… forment une alliance autour de Hadoop