Florian Douetteau, Dataiku : « Le Big Data n’a pas vocation à prédire l’avenir »

Dataiku, jeune pousse française, entend simplifier les applications Big Data en entreprise. Florian Douetteau, son PDG, revient sur les enjeux du Big Data dans les organisations et se penche sur les applications concrètes dans le e-commerce et les smart cities.

La start-up française Dataiku propose à ses clients Data Science Studio, une plateforme (Hadoop, MongoDB, Elastic Search, Scikit-learn…) dédiée à l’innovation par la donnée.

Son président et cofondateur, Florian Douetteau, qui a débuté sa carrière au sein du moteur de recherche Exalead et fut directeur technique d’IsCool Entertainment (social gaming), revient sur les enjeux du Big Data et s’exprime sur le traitement et l’analyse de données dans les domaines de l’e-commerce et des villes intelligentes.

Silicon.fr : Quels arguments ont motivé la création de Dataiku ?

Florian Douetteau : Dataiku a été lancé par quatre cofondateurs avec des profils différents (business, statisticien, IT) et provenant de métiers différents : biologie, marketing en ligne et grande distribution.

Dans nos précédents métiers, nous avons tous touché du doigt la grande difficulté qu’il y a à répondre à la promesse du « Big Data » dans les entreprises. Pour cette raison, nous avons voulu créer un outil qui simplifie la tâche de tous ceux qui, dans l’entreprise, doivent travailler la donnée.

Les salariés de la donnée perdent aujourd’hui un temps considérable à nettoyer des fichiers, essayer de comprendre les causes ou de faire des prévisions avec des outils qui ne sont plus adaptés à l’univers Web et Big Data. Avec le Data Science Studio, nous cherchons tout simplement à mettre l’état de l’art de la technologie à disposition des Data Scientists, et ce avec une interface aussi simple qu’un tableur.

Nous constatons un grand enthousiasme pour ce type d’approche. Et nous avons comme clients des e-commerçants comme Ventes Privées ou Cdiscount, mais aussi des acteurs des infrastructures de villes comme Parkeon.

Quelle est votre définition de la science des données (Data Science) ?

La Data Science correspond à une rupture dans la manière d’exploiter les données dans la conception d’un produit, cela a été popularisé notamment par les équipes américaines de LinkedIn… La Data Science peut se résumer par la formule suivante : Data Science = (Big) Data(s) + apprentissage automatique + application pratique.

« Big » est entre parenthèses, parce que la donnée n’a pas besoin d’être « grosse ». « Datas » est au pluriel, car la plupart des projets qui portent de la valeur consistent à créer des liens entre des données qu’on n’avait pas imaginés d’emblée ou que l’on ne pouvait pas relier auparavant. L’apprentissage automatique (Machine Learning) est un principe qui consiste à utiliser un algorithme qui va permettre d’apprendre ou d’analyser automatiquement les données.

L’application pratique : comme son nom ne l’indique pas, la science de la donnée n’est pas une science. Dans un projet de Data Science, il s’agira souvent de produits, d’une prédiction utilisable immédiatement sur un site web, une application mobile, ou dans un processus industriel.

Vous êtes intervenu à l’Open World Forum 2013. L’ouverture est-elle une des clés du Big Data ?

Dans l’univers du Big Data, l’ouverture est plus qu’une clé, c’est un état de fait. Les grands acteurs du numérique ont contribué de manière massive à des technologies, comme le fameux Hadoop, fournies en Open Source. Tout l’écosystème du Big Data se construit autour de cet univers, au point que le sujet consiste parfois plus à s’y retrouver parmi une pléthore de solutions technologiques disponibles.

Dans ce nouvel univers, il y a tout intérêt à être polyglotte du point de vue des technologies, c’est à dire à pouvoir choisir la meilleure technologie, Open Source ou propriétaire, par rapport à son besoin. Dois-je faire du SQL ou du NoSQL ? Dois-je faire de l’Hadoop ou du fichier ? Python ou R ? C’est dans cette perspective que nous avons développé notre Studio, pour fournir à l’utilisateur un point d’entrée unique à l’univers Open du Big Data.

Le Big Data permet-il de « prédire l’avenir » ? Qu’en est-il dans le e-commerce et les villes intelligentes ?

En l’état actuel des technologies, le Big Data n’a pas vocation à prédire l’avenir, mais à fournir une meilleure vue de ce qui peut avoir une plus grande probabilité d’arriver. Un élément toujours étonnant dans les projets.

Dans le e-commerce, il s’agira de comprendre quels sont les facteurs qui permettent de mieux cibler l’envie d’un client pour ne lui proposer que les produits qu’il est vraiment susceptible d’apprécier. Dans ce cadre, l’aspect Big Data consiste à capter de manière plus systématique les comportements utilisateurs. L’aspect « apprentissage automatique » consiste à laisser la machine apprendre qu’un visiteur du site, qui a acheté précédemment un futon par exemple, préférerait qu’on lui suggère, dans le rayon livres de voyages, des ouvrages sur le Japon !

On parle parfois de technologies prédictives pour les algorithmes utilisés pour effectuer ces apprentissages. Dans ce cas, il ne s’agit au fond que d’une manière qu’à la machine de mimer le comportement d’anticipation qu’à intuitivement un vendeur dans un magasin physique.

Dans le cas des villes intelligentes (smart cities), ces technologies peuvent permettre de mettre davantage en cohérence tout ce qu’on sait sur la ville : trafic, parking, commerces, activités économiques, loyers, populations, et leur évolution dans le temps. Et ce pour comprendre s’il y a des corrélations qui permettent d’améliorer différentes problématiques, du stationnement à la gestion du trafic.

Avant le Big Data, ce type d’analyse correspondait à des questions scientifiques (modélisation urbaine). Avec les nouvelles technologies, on s’oriente de plus en plus vers des applications concrètes, mobiles, de telles analyses.


Voir aussi

Dossier Spécial – Le Big Data dans tous ses états

Quiz Silicon.fr – Connaissez-vous les logiciels open source ?