Palo Alto : Il est parfois des rencontres inattendues qui rythment nos voyages. Ainsi, lors de notre visite à Cloudera, nous avons rencontré Josh Wills, qui exerce le métier – nouveau et très recherché – de data scientist, qui plus est chez le leader du Big Data Hadoop…
Josh Wills est un jeune statisticien. Sa première approche du monde IT, il la doit à Google. À l’époque, le moteur de recherche rencontrait une difficulté majeure : comment exploiter la masse des informations alimentée par son service Analytics ? Difficile de démarrer sous de meilleurs auspices, à condition d’avoir la santé ! Depuis, Josh Wills se déclare meilleur en statistiques qu’en ingénierie logicielle.
« Je suis d’abord un ‘nerd des maths’ qui trouve que la visualisation c’est cool ! », nous a affirmé Josh Wills. Pour lui, un data scientist doit d’abord passer beaucoup de temps à nettoyer la donnée. « Plus propre elle sera, plus efficace sera l’analytique. Nous devons penser à résoudre des problèmes et à basculer les données dans un environnement opérationnel. Je passe mon temps à essayer de multiples idées, à paralléliser tout ce que je fais, à trouver des solutions en 6 mois contre plusieurs années auparavant, et à réaliser des recherches reproductibles. »
La complexité tient souvent dans l’étendue des volumes de données à traiter. C’est pourquoi, pour amortir les coûts, les acteurs de l’analytique doivent créer de l’automatisation. Un point de vue auquel adhère Josh Wills, qui se veut cependant prudent : « Optimiser un modèle ne se traduit pas toujours par l’optimisation du business. Nous ne croyons que dans la production, mais il existe un gap entre le business model et machine model. »
Selon l’étude McKinsey « Global Institute Big Data Report », de 140.000 à 190.000 postes de data scientist devraient être créés aux États-Unis, principalement dans la santé. « Les outils sont là, mais les gens ne savent pas les utiliser, ni établir les passerelles pour cela. Toutes les universités dans le monde devraient avoir un cursus data scientist ».
Quant aux difficultés qu’il rencontre dans l’exercice de son métier, Josh Wills les exprime sans ambages : « Le volume est un problème, le rythme de changement l’est également. Tout le monde a des problèmes d’ETL. Et nous n’avons pas besoin de programmeurs Java… », probablement un retour d’expérience malheureux… Et comment démarrer un projet ? « La recherche est le premier ‘use case’ d’Hadoop, car toute information a un document. »
Ses yeux se mettent alors à briller. Les bons data scientists (et les data scientists eux-mêmes) sont une denrée rare, et pour quelques années encore avant que les cursus de formation ne crachent leurs diplômés, formés mais inexpérimentés.
Quant aux développeurs et autres consultants informatiques qui prétendent à l’expertise du statisticien pour exploiter les Big data, la concurrence ne sera pas rude avant longtemps. Ce n’est pas pour rien que Josh Wills nous quitte en conservant l’éclat brillant de ses yeux et son sourire entendu.
Il se murmure même chez Cloudera que le million de dollars en rémunération d’une mission de data scientist n’a rien d’extravagant au vu du service rendu. Les IT ont encore de quoi nous faire rêver…
Voir aussi
Quiz Silicon.fr – Le vocabulaire du cloud
Quiz Silicon.fr – 10 questions sur Alan Turing
Silicon et KPMG lancent Trends of IT 2024, une étude co-construite avec les managers IT…
Avec son Pack cybersécurité lancé au Forum InCyber 2024, Docaposte tend une perche aux PME.…
Quels sont les impacts immédiats de l'IA générative sur la cybersécurité ? Comment le contexte…
Un éditeur attire l'attention sur des attaques exploitant l'absence d'autorisation dans une API du framework…
Après un premier financement en septembre 2023, Amazon a débloquer le reste de l'enveloppe qu'il…
D'Alpine Linux à XPipe, voic les dernières entrées au SILL (Socle interministériel de logiciels libres).