Valorisation de la donnée : pourquoi adopter la datascience

Big DataBusiness IntelligenceData & Stockage

Une priorité pour les entreprises est de se construire une expérience en datascience, quelle que soit la méthode : recrutement, assistance externe, DIY et test and learn.

Conversation avec Siri ou Alexa, antispam de messagerie, itinéraires temps réel, recommandation produits, publicité personnalisée : aussi étrange que cela puisse paraître à voir le nombre d’algorithmes qui nous assistent au quotidien, seulement 15% des entreprises ont déjà mis en production une application d’intelligence artificielle.

Et le BCG nous prévient : l’écart entre les pionniers et les retardataires se creuse. Les 2 populations se concentrent sur les mêmes sujets en matière d’IA, mais la différence se fait essentiellement dans la capacité de mise en production et passage à l’échelle des algorithmes.

Alors, si ce n’est déjà fait…

Lancez-vous !

Nous le savons, nous le vivons : les métiers se transforment. 65% des enfants qui entrent à l’école primaire vont occuper des emplois qui n’existent pas encore (World economic forum).
Mounir Majhoubi, secrétaire d’Etat au numérique, l’a également rappelé au Salon Big Data 2019 : il est du devoir des entreprises de former pour ne pas licencier les employés dont le métier devient obsolète (cas du cariste dans la logistique par exemple).

Le monde digital est friand d’algorithmes : impossible en 2019 d’être une entreprise même modeste sans connaissance minimale sur le sujet. Une priorité pour les entreprises, tous services confondus, est de se construire une expérience en datascience, quelle que soit la méthode : recrutement, assistance externe, DIY et test and learn.

Si c’est une assistance externe qui est choisie pour démarrer, le travail pourra être repris à 100% ensuite par une recrue. Celle-ci sera alors mieux recrutée car les questions relatives aux prévisions mises en œuvre seront mieux maîtrisées. Et si les prévisions s’avèrent simples il sera même possible de recruter un datascientist jeune diplômé et faire ponctuellement appel à un cadrage externe pour les cas métiers nécessitant une séniorité plus importante.

Rappelons les 3 raisons qui freinent le recrutement des datascientists : les DS sont rares, les DS sont chers, les DS sont volatiles.

Ne négligez pas le savoir-faire du datascientist

On pourrait être tenté de se passer de datascientist grâce à l’apparition d’outils de vulgarisation d’IA. Or la datascience revêt des pièges tels que l’overfit, et la robustesse des modèles demandent tout de même un savoir-faire mathématique pour être certifiée. Les plateformes qui permettent à monsieur tout-le-monde de faire une prévision sont intéressantes à condition que les personnes du métier agissant en autonomie aient un référent datascientist qui valide la démarche.

Les premiers résultats d’une prédiction sont souvent faciles à atteindre : quelques jours ou semaines. Par contre les scores robustes, exploitables dans un processus récurrent dit de production, nécessitent plus de temps de travail (quelques mois).

Pour des sujets aussi sensibles que la prévision de CA le recours à un datascientist est indispensable : en marge de la construction du modèle principal, le datascientist est amené à traiter des problèmes mathématiques secondaires relatifs à des questions métiers sous-jacentes :

– Quelles sont les variables qui participent le plus à l’explication du résultat (analyse en composantes principales) ?

– Quelles sont les variables qui peuvent être retirées du modèle pour le simplifier sans avoir d’impact sur le résultat ?

– Comment modéliser les activités ayant une forte volatilité, comme la vente de yachts par exemple ?

– Faut-il un modèle généraliste pour tous les marchés, donc plus facilement comparable ou bien un modèle intégrant des variables locales ?

La donnée, matière première du datascientist

On a coutume de dire que 80% du travail du datascientist réside dans la manipulation des données. Il est très difficile de décorréler la préparation de données de la production de l’algorithme.

D’une part à cause de l’impact de la qualité de données : le diable se cache dans les détails contenus dans les variables. Les outliers ont des effets particulièrement négatifs sur les résultats des modèles.

D’autre part les « features » créées par le datascientist sont des variables explicatives qui vont permettre de rendre le modèle plus précis. Seul lui sait déterminer méthodologiquement quels sont les concepts qu’il faut renforcer pour obtenir de meilleurs résultats.

Ce lien fort entre préparation de données et datascience pousse les entreprises à adopter des datalakes dans lesquels la donnée est stockée sans retraitement.

En marge de la préparation et de la qualité des données, le volume est sans doute le critère le plus important pour améliorer la précision des résultats. Exemple (vécu) : en passant d’un dataset d’apprentissage de 100 documents classifiés à 1000 documents classifiés le score de notre modèle a bondi de 0,75 à 0,85 sans réviser l’algorithme.

La datascience est pratiquée en continue

Une fois introduite dans un processus, la datascience en devient la pierre angulaire. Ce n’est pas une activité pratiquée ponctuellement. Lorsque l’apprentissage a commencé, les besoins en datascience deviennent quotidiens car :

1. des données nouvelles entrent en permanence et avec elles de nouveaux biais et de nouvelles tendances

2. c’est une science qui optimise des fonctions de coûts : le maximum n’est jamais atteint. Les équipes déterminent un optimum pour trouver le niveau satisfaisant de précision. Les efforts déployés sur chaque nouvelle boucle d’amélioration du score (jugement de la performance de l’algorithme) sont exponentielles alors que l’amélioration sera, elle, de plus en plus relative.

Cas métier illustratif : la prévision de chiffre d’affaires

Comprendre la démarche datascience est fondamentale car le point de départ consiste à transformer la problématique métier en problème mathématique.

Dans le cas du chiffre d’affaires la prévision va se baser sur l’observation des données du passé. Comme évoqué 80% du travail du datascientist va être concentré sur la préparation de la donnée : suppression d’outliers, normalisation de variables, traitements des valeurs manquantes, binarisation de critères, intégration de données tierces…

La modélisation de chiffre d’affaires appartient à la catégorie de l’apprentissage supervisé, car l’entraînement du modèle repose sur un jeu de données historiques. Dans ce dataset on observe les corrélations déjà établies entre des variables sélectionnées et une cible : le chiffre d’affaires. Ces corrélations sont projetées sur de nouvelles combinatoires des mêmes variables pour approximer la valeur de la variable cible.

La prévision la plus simple en termes de calcul est la fonction affine de type y=ax+b où y est le CA et x le temps et ce dans un contexte d’évolution constante et régulière.

Le datascientist applique des modèles dérivés, plus évolués :
– séries temporelles,
– régression linéaire,
– régression logistique,
– gradient boost
– …
– des combinaisons des modèles pré-cités

puis compare les résultats obtenus de ces modèles pour faire son choix selon :

– la performance des modèles

– l’interprétabilité et l’auditabilité des résultats

-l’objectif business relatif à la prévision : précision maximum ou minimisation du risque d’erreur

Le prédictif n’est qu’une étape vers le prescriptif

Connaître le chiffre d’affaires attendu pour la période à venir a indéniablement une valeur pour le pilotage, mais la finalité de la datascience est de rendre actionnables les prévisions établies. C’est le domaine du prescriptif.

Ex: le CA est estimé en hausse de 15% (prédiction) grâce à une contribution de +50% du produit MonBelObjet qui est plébiscité par les résidentes chinoises de 20 à 40 ans. Les publicités on line ciblées seront automatiquement mises à jour pour pousser cette collection auprès de la population ciblée (prescription).

Le datascientist n’est pas un magicien

En guise de conclusion : évitez de recruter un datascientist sans avoir une mission précise liée à la valorisation de la donnée. La datascience n’est pas de la magie. Pour qu’elle produise un effet, il faut que la donnée soit disponible, qu’elle soit de qualité, et que l’objectif business soit clair. Ce qui sous-entend que le datascientist interagisse avec les équipes métiers et donc que celles-ci se sensibilisent au sujet pour développer un sens critique.

C’est dans cette mesure que l’entreprise commencera à développer sa culture data et son apprentissage d’une science nouvelle impactant toutes les professions, tous les âges, tous les grades.

Alors se poseront de nouvelles questions relatives à un niveau de maturité plus avancé et à la mise en production du modèle :

– Comment automatiser la mise en qualité des données ?

– Comment rendre compréhensible le modèle établi ?

– Comment assurer l’adhésion et maintenir la responsabilisation sur les prévisions ?

– Comment animer l’adhésion et la performance autour de cet approche ?

– Quelle communication / visibilité donner aux utilisateurs sur l’évolution du modèle ?


Auteur
En savoir plus 
Data strategist
Cabinet de conseil PMP
Olivier Leroy est Data strategist au sein du cabinet de conseil PMP et professeur à l’ESCP.
En savoir plus 

Livres blancs A la Une