P. Livaudais, ParStream : « conjuguer les volumes de Hadoop et la vitesse du In-Memory »

En combinant l’indexation bitmap compressée et les traitements parallélisés sur des cœurs de processeurs, la start-up allemande ParStream propose du Big Data en temps réel de type Hadoop sur de gros volumes et à coût record. La Coface et l’Inra lui font déjà confiance.

Hadoop se trouve au cœur de solutions comme Hortonworks, Cloudera – chez qui Intel vient d’investir – ou MapR (comptant des concepteurs d’Hadoop dans leurs équipes et contribuant fortement au projet). Des solutions qui voient les investisseurs affluer. Toutefois, certaines start-ups ont conçu leur propre technologie rivalisant avec Hadoop. Ainsi, la jeune pousse allemande ParStream propose une technologie plutôt sur le terrain de chasse de SAP Hana ou de HP Vertica, mais en se limitant au traitement des index. Entretien avec Peter Livaudais, directeur des solutions ParStream en France.

Peter Livaudais - ParStream
Peter Livaudais – ParStream

Silicon.fr : Comment ParStream est-il arrivée dans l’analytique Big Data ?

Peter Livaudais : En 2007, un site d’e-commerce de voyage allemand nous a confrontés à un défi : comment assurer 20 milliards d’enregistrements, jusqu’à 1000 utilisateurs en ligne simultanés, avec une réponse aux requêtes en moins de 5 millisecondes. La société nous imposait deux contraintes : un minimum d’investissement matériel et une mise à l’échelle linéaire.

Nous avons donc lancé un projet de R&D (y compris fondamentale) visant à concevoir ce type de solution pour du temps réel. Au final, nous avons élaboré une solution basée sur une indexation bitmap compressée avec des traitements parallélisés sur de multiples cœurs. La granularité de cette infrastructure n’est ni le nœud, ni le serveur, ni le processeur, mais bien le cœur de processeur (CPU ou GPU, selon les cas). Et ces streams peuvent aussi être distribués sur des cœurs géographiquement distincts. C’est ainsi que nous avons obtenu une base de données analytique temps réel qui peut être implémentée soit en tant qu’application, soit en programmant une API (C++). Cette solution analytique ne recourt ni à des cubes, ni à du précalcul, et se montre donc plus agile et flexible grâce aux index bitmap.

Cependant, dans le cas de ParStream, seuls les index sont en mémoire…

La solution ParStream conjugue des volumes de données de type Hadoop et une vitesse d’exécution In-Memory. Certes, nous prenons en charge les index. Toutefois, ce sont bien les index qui ralentissent le plus les performances lorsqu’ils se trouvent sur un disque. Et même avec des données sur disque, les performances suffisent pour des applications critiques, comme le prouve un de nos grands clients dans la production d’énergie, par exemple.

ParStream peut traiter immédiatement un million d’enregistrements par seconde en s’installant sur un serveur x86 avec 6 Go de RAM. Notre solution offre une portabilité totale, quelle que soit la plate-forme matérielle : serveur physique ou virtuel, service Cloud comme AWS ou Numergy… y compris sur une infrastructure scale-up comme Bull Bullion. Autre point clé, l’interface SQL utilisée et la simplicité permettent une maîtrise par un administrateur de données (DBA) en moins de deux jours. Ainsi, le serveur s’installe sur 17 Mo, en deux lignes de commande. Enfin, les développeurs accèdent simplement aux données avec leurs logiciels traditionnels comme Delphi, Ruby On Rails, du mapping objet, etc.

Comment vous positionnez-vous face à SAP Hana ou HP Vertica ?

Hana et Vertica reposent sur un accès aux données de type hiérarchique plus rigide que notre approche bitmap qui offre des caractéristiques de commutation et d’association. De plus, une appliance comme Hana impose une architecture matérielle. Avec ParStream, plusieurs méthodes sont possibles pour accéder aux données : soit directement en SQL (ODBC/JDBC…), soit via un outil de restitution comme Qlik ou MicroStrategy, soit via l’API.

Qu’en est-il de votre écosystème de partenaires en France ? Quid des premières applications réalisées ?

Après les premiers déploiements en 2013, nous nous attachons à développer notre réseau de partenaires en 2014, avec des formations et programmes spécifiques. Cet écosystème comprend des prestataires techniques et/ou intégrateurs, des cabinets de consultants et des ESN (ex-SSII) ou encore des fournisseurs d’infrastructure comme Bull, Numergy, etc.

Parmi les applications visibles, la Coface a développé le portail ellicible.fr offrant au marketing des entreprises un service de recherche multicritères en temps réel sur la base de données des 9 millions fiches d’entreprises, avec plus de 1 000 attributs chacune ! Un projet que nous qualifions de “Small Big Data”. En effet, il s’agit d’un volume de moins d’un téraoctet. Toutefois, la combinaison de 9 millions de fiches d’entreprise avec 1 000 attributs chacune explique le besoin en traitements de type Big Data. Et la solution fonctionne sur deux serveurs x86 de 12 cœurs. Parmi les projets à plus grande échelle, nous travaillons avec l’Inra (Institut national de la recherche agronomique) et les équipes de Jean-Michel Batto sur le décryptage de l’ADN.


En complément

François Bourdoncle, Exalead : « la guerre commerciale du Big Data a déjà commencé »