Pour gérer vos consentements :
Categories: Cloud

Josh Wills, ‘data scientist’ chez Cloudera

Josh Wills, data scientist chez Cloudera

Palo Alto : Il est parfois des rencontres inattendues qui rythment nos voyages. Ainsi, lors de notre visite à Cloudera, nous avons rencontré Josh Wills, qui exerce le métier – nouveau et très recherché – de data scientist, qui plus est chez le leader du Big Data Hadoop…

Josh Wills est un jeune statisticien. Sa première approche du monde IT, il la doit à Google. À l’époque, le moteur de recherche rencontrait une difficulté majeure : comment exploiter la masse des informations alimentée par son service Analytics ? Difficile de démarrer sous de meilleurs auspices, à condition d’avoir la santé ! Depuis, Josh Wills se déclare meilleur en statistiques qu’en ingénierie logicielle.

Qu’est-ce qu’un data scientist ?

« Je suis d’abord un ‘nerd des maths’ qui trouve que la visualisation c’est cool ! », nous a affirmé Josh Wills. Pour lui, un data scientist doit d’abord passer beaucoup de temps à nettoyer la donnée. « Plus propre elle sera, plus efficace sera l’analytique. Nous devons penser à résoudre des problèmes et à basculer les données dans un environnement opérationnel. Je passe mon temps à essayer de multiples idées, à paralléliser tout ce que je fais, à trouver des solutions en 6 mois contre plusieurs années auparavant, et à réaliser des recherches reproductibles. »

Comme personne ne peut maitriser tous les processus technologiques, la première étape d’un projet analytique sera de créer une équipe. « Informaticiens et statisticiens ne parlent pas le même langage. Ils devront pourtant créer un modèle, tout mesurer, expérimenter, tester encore et toujours. Puis trouver de nouveaux modèles. Avec le risque de créer un modèle complexe que personne ne comprendra ! »

La complexité tient souvent dans l’étendue des volumes de données à traiter. C’est pourquoi, pour amortir les coûts, les acteurs de l’analytique doivent créer de l’automatisation. Un point de vue auquel adhère Josh Wills, qui se veut cependant prudent : « Optimiser un modèle ne se traduit pas toujours par l’optimisation du business. Nous ne croyons que dans la production, mais il existe un gap entre le business model et machine model. »

Un métier en devenir

Selon l’étude McKinsey « Global Institute Big Data Report », de 140.000 à 190.000 postes de data scientist devraient être créés aux États-Unis, principalement dans la santé. « Les outils sont là, mais les gens ne savent pas les utiliser, ni établir les passerelles pour cela. Toutes les universités dans le monde devraient avoir un cursus data scientist ».

Quant aux difficultés qu’il rencontre dans l’exercice de son métier, Josh Wills les exprime sans ambages : « Le volume est un problème, le rythme de changement l’est également. Tout le monde a des problèmes d’ETL. Et nous n’avons pas besoin de programmeurs Java… », probablement un retour d’expérience malheureux… Et comment démarrer un projet ? « La recherche est le premier ‘use case’ d’Hadoop, car toute information a un document. »

Notre dernière question portera sur le prix d’un data scientist sur le marché ? « Le prix dépend de l’activité. Par exemple dans la pub c’est très cher, mais ce n’est pas défini ». Et de nous rappeler qu’une rémunération peut être indexée à un résultat, comme par exemple à un chiffre d’affaires réalisé à la suite d’une analyse…

Ses yeux se mettent alors à briller. Les bons data scientists (et les data scientists eux-mêmes) sont une denrée rare, et pour quelques années encore avant que les cursus de formation ne crachent leurs diplômés, formés mais inexpérimentés.

Un métier qui n’a pas de prix… pour le moment !

Quant aux développeurs et autres consultants informatiques qui prétendent à l’expertise du statisticien pour exploiter les Big data, la concurrence ne sera pas rude avant longtemps. Ce n’est pas pour rien que Josh Wills nous quitte en conservant l’éclat brillant de ses yeux et son sourire entendu.

Il se murmure même chez Cloudera que le million de dollars en rémunération d’une mission de data scientist n’a rien d’extravagant au vu du service rendu. Les IT ont encore de quoi nous faire rêver…


Voir aussi

Quiz Silicon.fr – Le vocabulaire du cloud

Quiz Silicon.fr – 10 questions sur Alan Turing

Recent Posts

Étude Trends of IT 2024 : comprendre les mutations de l’environnement IT

Silicon et KPMG lancent Trends of IT 2024, une étude co-construite avec les managers IT…

2 heures ago

Guillaume Poupard, DGA de Docaposte : « Le plus de l’offre, c’est notre position comme acteur de confiance »

Avec son Pack cybersécurité lancé au Forum InCyber 2024, Docaposte tend une perche aux PME.…

3 heures ago

Quels impacts de l’IA générative sur le monde de la cybersécurité ? : regards croisés entre Onepoint, Wavestone et Fortinet

Quels sont les impacts immédiats de l'IA générative sur la cybersécurité ? Comment le contexte…

6 heures ago

Des serveurs IA cyberattaqués : le vecteur s’appelle Ray

Un éditeur attire l'attention sur des attaques exploitant l'absence d'autorisation dans une API du framework…

10 heures ago

Amazon débloque la deuxième tranche de son investissement dans Anthropic

Après un premier financement en septembre 2023, Amazon a débloquer le reste de l'enveloppe qu'il…

12 heures ago

Les logiciels libres entrés au SILL au premier trimestre 2024

D'Alpine Linux à XPipe, voic les dernières entrées au SILL (Socle interministériel de logiciels libres).

1 jour ago