Cloudera Josh Wills 1

Josh Wills, ‘data scientist’ chez Cloudera

En direct de la Silicon Valley : rencontre inattendue avec le Data Scientist de la première plateforme Hadoop Big Data analytique open source, Cloudera.

Josh Wills

Josh Wills, data scientist chez Cloudera

Palo Alto : Il est parfois des rencontres inattendues qui rythment nos voyages. Ainsi, lors de notre visite à Cloudera, nous avons rencontré Josh Wills, qui exerce le métier – nouveau et très recherché – de data scientist, qui plus est chez le leader du Big Data Hadoop…

Josh Wills est un jeune statisticien. Sa première approche du monde IT, il la doit à Google. À l’époque, le moteur de recherche rencontrait une difficulté majeure : comment exploiter la masse des informations alimentée par son service Analytics ? Difficile de démarrer sous de meilleurs auspices, à condition d’avoir la santé ! Depuis, Josh Wills se déclare meilleur en statistiques qu’en ingénierie logicielle.

Qu’est-ce qu’un data scientist ?

« Je suis d’abord un ‘nerd des maths’ qui trouve que la visualisation c’est cool ! », nous a affirmé Josh Wills. Pour lui, un data scientist doit d’abord passer beaucoup de temps à nettoyer la donnée. « Plus propre elle sera, plus efficace sera l’analytique. Nous devons penser à résoudre des problèmes et à basculer les données dans un environnement opérationnel. Je passe mon temps à essayer de multiples idées, à paralléliser tout ce que je fais, à trouver des solutions en 6 mois contre plusieurs années auparavant, et à réaliser des recherches reproductibles. »

Cloudera Josh WillsComme personne ne peut maitriser tous les processus technologiques, la première étape d’un projet analytique sera de créer une équipe. « Informaticiens et statisticiens ne parlent pas le même langage. Ils devront pourtant créer un modèle, tout mesurer, expérimenter, tester encore et toujours. Puis trouver de nouveaux modèles. Avec le risque de créer un modèle complexe que personne ne comprendra ! »

La complexité tient souvent dans l’étendue des volumes de données à traiter. C’est pourquoi, pour amortir les coûts, les acteurs de l’analytique doivent créer de l’automatisation. Un point de vue auquel adhère Josh Wills, qui se veut cependant prudent : « Optimiser un modèle ne se traduit pas toujours par l’optimisation du business. Nous ne croyons que dans la production, mais il existe un gap entre le business model et machine model. »

Un métier en devenir

Selon l’étude McKinsey « Global Institute Big Data Report », de 140.000 à 190.000 postes de data scientist devraient être créés aux États-Unis, principalement dans la santé. « Les outils sont là, mais les gens ne savent pas les utiliser, ni établir les passerelles pour cela. Toutes les universités dans le monde devraient avoir un cursus data scientist ».

Quant aux difficultés qu’il rencontre dans l’exercice de son métier, Josh Wills les exprime sans ambages : « Le volume est un problème, le rythme de changement l’est également. Tout le monde a des problèmes d’ETL. Et nous n’avons pas besoin de programmeurs Java… », probablement un retour d’expérience malheureux… Et comment démarrer un projet ? « La recherche est le premier ‘use case’ d’Hadoop, car toute information a un document. »

Cloudera Josh WillsNotre dernière question portera sur le prix d’un data scientist sur le marché ? « Le prix dépend de l’activité. Par exemple dans la pub c’est très cher, mais ce n’est pas défini ». Et de nous rappeler qu’une rémunération peut être indexée à un résultat, comme par exemple à un chiffre d’affaires réalisé à la suite d’une analyse…

Ses yeux se mettent alors à briller. Les bons data scientists (et les data scientists eux-mêmes) sont une denrée rare, et pour quelques années encore avant que les cursus de formation ne crachent leurs diplômés, formés mais inexpérimentés.

Un métier qui n’a pas de prix… pour le moment !

Quant aux développeurs et autres consultants informatiques qui prétendent à l’expertise du statisticien pour exploiter les Big data, la concurrence ne sera pas rude avant longtemps. Ce n’est pas pour rien que Josh Wills nous quitte en conservant l’éclat brillant de ses yeux et son sourire entendu.

Il se murmure même chez Cloudera que le million de dollars en rémunération d’une mission de data scientist n’a rien d’extravagant au vu du service rendu. Les IT ont encore de quoi nous faire rêver…


Voir aussi

Quiz Silicon.fr – Le vocabulaire du cloud

Quiz Silicon.fr – 10 questions sur Alan Turing

Cloud : Accélérateur de Business

Tout savoir sur les atouts Cloud pour la DSI !
Accédez au site Cloud : Accélérateur de Business et découvrez les dossiers et articles dédiés au Cloud, visualisez les vidéos interviews et témoignages clients et téléchargez gratuitement les études et livres blancs.

Derniers commentaires




0 replies to Josh Wills, ‘data scientist’ chez Cloudera

Laisser un commentaire

  • Les champs obligatoires sont indiqués avec *,
    Votre adresse de messagerie ne sera pas publiée.

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

X
Connexion S'enregistrer

Connectez-vous pour accéder à tout notre contenu.
Si vous n'avez pas encore de compte,
S'enregistrer GRATUITEMENT

perdu ?
Connexion S'enregistrer

Enregistrez-vous gratuitement pour avoir un accès illimité à tout notre contenu.

Vérifiez votre email

Merci de votre enregistrement. Nous venons de vous envoyer un email contenant un lien pour confirmer votre adresse.
(si vous ne recevez pas l'email dans quelques minutes, vérifiez votre boîte spam).

Oh, vous avez perdu votre mot de passe ?

Pour recevoir votre mot de passe, entrez l'adresse email utilisée pour vous inscrire.

Ou essayer de vous connecter à nouveau.