Machine Learning contre statistiques « classiques » : qui remportera le match ? (tribune)

Big DataData & Stockage

Le Machine Learning et ses algorithmes auto-apprenants vont-ils supplanter définitivement les méthodes statistiques plus traditionnelles ? Les prédictions de Nicolas Glady, professeur à l’Essec.

En matière de prédictions basées sur des données, le Machine Learning semble avoir le vent en poupe. Ses partisans mettent en avant l’adaptabilité de ces méthodes et leur capacité à produire des prédictions meilleures que la plupart des méthodes alternatives. Ses détracteurs lui opposent l’opacité de ses mécanismes sous-jacents qui sont à la base de ces algorithmes… Qui a raison ?

Le Machine Learning ou Apprentissage Automatique

Issues des techniques d’intelligence artificielle, les méthodes du Machine Learning (en français « Apprentissage Automatique ») permettent à une machine « d’apprendre » d’une manière plus ou moins autonome. Cet apprentissage est basé sur des algorithmes très complexes – parfois chaotiques – où les meilleures prédictions (ou comportement si on fait l’analogie avec un organisme pensant) sont encouragées et renforcées.

Le Machine Learning, c’est la mise en œuvre systématique du principe du Chien de Pavlov. Imaginons qu’un robot soit mis au centre d’un labyrinthe à la recherche d’un objet. Si son comportement est positif, par exemple s’il trouve l’objet rapidement, la machine est « récompensée » et la méthode « gagnante » est renforcée. A l’inverse, tant que le comportement n’est pas jugé satisfaisant, la machine peut être « punie » et l’algorithme « continuera à chercher ».

A force d’essais et d’erreurs, la machine pourra alors déterminer la manière systématique d’arriver à son objectif, et apprendre une façon de faire, c’est-à-dire un modèle. L’une des méthodes les plus célèbres est par exemple l’Arbre de Décision, qui a une structure que l’on peut résumer à une série de «  Si… Alors… » ; chaque condition constituant les « branches » de l’arbre.

Il faut noter que dans cette recherche systématique du meilleur algorithme, le hasard a une part importante. Le Chien de Pavlov recherche son os, mais il ne sait pas toujours où chercher. Il peut donc partir dans une direction qui n’est pas la bonne dans un premier temps et son comportement peut avoir l’air erratique. Si, petit à petit, il finira par converger vers son objectif, le processus dans son ensemble n’en est pas moins chaotique…

L’objet de l’apprentissage automatique peut être de nature diverse. On peut chercher à optimiser un comportement : les exemples récents les plus célèbres sont les voitures robots qui « apprennent à conduire » de cette manière. Mais on peut aussi utiliser ces techniques pour qu’un ordinateur « apprenne à prédire » des valeurs plus abstraites, comme un scoring marketing par exemple.

Des qualités d’adaptabilité et de précision inégalées…

Et c’est là la première grande force du Machine Learning : il peut s’appliquer à toute sorte de prédictions. De la médecine au marketing en passant par la conduite, les ordinateurs peuvent nous aider dans bien des domaines, et quand ils sont capables « d’apprendre automatiquement » les applications sont virtuellement infinies. Rien qu’en marketing, du scoring crédit à la prédiction d’un comportement d’attrition, les algorithmes de Machine Learning ont démontré leur utilité depuis de nombreuses années.

Et c’est là la deuxième grande force du Machine Learning : sa capacité à prédire mieux que la plupart des autres méthodes les comportements futurs. Quand on compare la précision des prédictions fournies, ces méthodes sont quasiment systématiquement en tête des classements par rapport aux techniques de statistiques « classiques ».

Leur précision est encore améliorée quand plusieurs algorithmes sont mis en parallèle et leurs prédictions comparées lors de ce qu’on appelle des méthodes d’ensemble. Un des exemples les plus anciens est utilisé dans l’aviation : il est possible de faire atterrir un avion automatiquement à l’aide d’un ordinateur. Mais comme c’est un problème complexe, pourquoi ne pas plutôt utiliser trois ordinateurs qui donnent chacun leur avis sur la meilleure façon d’atterrir et prendre le choix « le plus sûr » ? Faire « voter » un ensemble d’algorithmes garantit la qualité de la prédiction. C’est ce qui a donné ses lettres de noblesses à l’une des méthodes les plus utilisées dans ce domaine, ou des centaines d’arbres de décisions (des forêts aléatoires) sont mis en concurrence pour trouver la solution optimale.

… au prix de la clarté et de la fiabilité

Mais ceci amène à un premier problème : les algorithmes se complexifiant, il ne devient rapidement plus possible pour un être humain de comprendre ce que fait l’ordinateur. Comprendre comment un arbre de décision est déterminé par l’algorithme est envisageable quand le nombre de branches (les conditions « Si… Alors… ») est limité. Mais lorsque chaque arbre contient des centaines de branches, et que l’on utilise une méthode d’ensemble réunissant des centaines d’arbres, l’être humain s’y perd. On se retrouve face à une boite noire qu’il est impossible de déchiffrer.

Le problème est renforcé si la prédiction donnée par la boite noire n’est pas fiable. Ce qui peut arriver sans que l’on puisse s’en rendre compte…

En effet, le deuxième problème des méthodes de Machine Learning découle directement de leur adaptabilité. Puisque ces méthodes peuvent toujours trouver des liens entre deux événements, elles le feront même s’il n’y en a en réalité aucun ! C’est ce qu’on appelle le surapprentissage (overfitting).

Imaginons que notre Chien de Pavlov soit récompensé juste après un événement qui n’avait en fait rien à y voir : il s’est gratté l’oreille juste avant de trouver son os. Le chien risque de croire que c’est ce comportement inopportun qui en aura été à l’origine. Il « apprendra » donc que se gratter l’oreille amène à une récompense… A l’identique, l’apprentissage automatique – si on n’y prend garde – pourra toujours trouver des liens de causes à effet… même quand il n’y en a pas !

Mesure de l’incertitude : la force des statistiques classiques

A contrario, la grande force des statistiques « classiques » est justement de comprendre quand quelque chose peut être affirmé, ou quand l’incertitude est trop grande pour que la statistique (moyenne, tendance, etc.) soit fiable. La variance ou la valeur p (une mesure de significativité) sont des outils qui structurent les statistiques classiques et qui sont en réalité des manières d’évaluer la fiabilité d’un résultat. Et – malgré de nombreuses tentatives – il n’existe pas vraiment d’alternative quantifiable pour être capable de dire si une prédiction est fiable ou non.

Et c’est justement la tâche à laquelle se sont attelés les chercheurs en Apprentissage Automatique depuis quelques années : intégrer les outils statistiques au corpus du Machine Learning. Par exemple en utilisant des méthodes de ré-échantillonnage afin de réduire l’erreur sur les prédictions obtenues ou en construisant des arbres de décision autour du concept de cette fameuse valeur p…

La seconde force des statistiques est directement issue de la première. Parce qu’elles nous permettent d’identifier ce qui est certain et ce qui ne l’est pas, elles nous éclairent sur les phénomènes observés. C’est là une qualité primordiale pour les décideurs ! A un niveau stratégique, il est souvent plus important d’identifier les tenants et les aboutissants d’un phénomène, que de pouvoir prédire (même précisément) son futur sans pouvoir le changer faute de le comprendre…

Une forme de convergence

Le Machine Learning est issu des techniques d’intelligence artificielle et donc de l’informatique et du monde des ingénieurs. Les statistiques classiques sont plutôt issues des mathématiques et des probabilités, et sont – même étymologiquement – un ensemble d’outils pour les décideurs et gouvernants. Ces disciplines ont des origines historiques distinctes et ont longtemps été opposées.

En réalité, les deux approches ont des qualités différentes. Le Machine Learning permet une adaptabilité à toute sorte de situations et fournit des prédictions plus précises. C’est un avantage opérationnel et tactique incontestable. Les statistiques quant à elles permettent de mieux comprendre la fiabilité des analyses et apportent donc une hauteur (stratégique ?) aux résultats obtenus. La précision s’obtient donc au prix de la clarté ; la capacité d’adaptation au prix de la fiabilité…

Cependant, quand on voit les développements récents en la matière, on constate que les techniques de Machine Learning utilisent les statistiques pour renforcer la fiabilité de leurs méthodes. Et les statisticiens quant à eux sont forcés de constater que les méthodes Nicolas Gladyd’Apprentissage Automatique fournissent souvent des prédictions plus précises. Les méthodologies les plus récentes s’inspirent donc des deux disciplines. Au final, on voit apparaître un phénomène bien connu en statistique de « regression toward the mean » : les extrêmes qui semblaient opposés convergent avec le temps vers des solutions communes…

Par Nicolas Glady, titulaire de la Chaire Accenture Strategic Business Analytics de l’Essec

A lire aussi :

Les précédentes tribunes de N. Glady :

Prédire la valeur d’un client : tout est question de modèle ! (tribune)
Sans que nous nous en rendions compte, le Cloud change le monde

Crédit photo : agsandrew / Shutterstock

Lire la biographie de l´auteur  Masquer la biographie de l´auteur