Le Big Data peut-il se montrer plus fiable que les sondages quant il s’agit de prédire les résultats du premier tour d’une des présidentielles les plus incertaines de la 5ème République ? C’est le pari de 5 étudiants de l’école Télécom Paris Tech, associés au magazine Le Point. Ces étudiants (Mohamed Al Ani, Davy Bensoussan, Alexandre Brehelin, Bertrand de Véricourt et Raphaël Vignes) ont mis au point une méthode expérimentale, appelée Predict The President, qui tente d’affiner les études d’opinion via l’approche Big Data. Une méthode qui donne Marine Le Pen (avec plus de 24 %) et François Fillon (près de 22 %) vainqueurs du premier tour de dimanche prochain, devant Emmanuel Macron (plus de 20 %) et Jean-Luc Mélenchon (près de 19 %). Benoit Hamon serait, lui, largement distancé (à peine plus de 5 %).
Sur la base de ces hypothèses, et d’une analyse département par département, les algorithmes permettent d’attribuer un pourcentage de vote à chaque bloc, avec une marge d’erreur de 2,5 % si on se réfère à l’élection de 2012. La seconde étape du travail des étudiants consiste à tenter de mesurer l’influence de la personnalité des candidats sur ces grands équilibres. En injectant les données des sondages, celles de Twitter et les recherches sur Google. Sur le réseau social, les étudiants ont collecté des tweets publiés entre les 10 et 15 avril, sur lesquels ils ont appliqué une analyse de sentiment, pour mesurer l’opinion des twittos vis-à-vis de chaque candidat. Un segment où François Fillon, très populaire sur le réseau social malgré le #PenelopeGate, fait jeu égal avec Marine Le Pen.
Mais, pour les Data Scientists de Télécom Paris Tech, école qui a lancé un mastère spécialisé en Big Data, l’analyse du très politisé réseau Twitter ne saurait suffire. Les étudiants notent ainsi que « l’un des rares indicateurs à avoir prédit la victoire de Donald Trump était bien Google », l’actuel président des États-Unis y bénéficiant d’un bien plus grand nombre de recherches que sa concurrente, Hillary Clinton. Sur ce terrain, ce sont cette fois Marine Le Pen et Jean-Luc Mélenchon qui se détachent.
C’est en combinant les trois approches que les étudiants parviennent à leur duel entre le candidat LR et la présidente du Front National. « L’algorithme que nous avons construit pour prédire les résultats des blocs est certes performant pour 2012, mais il ne se base que sur les variables que nous avons construites et des hypothèses que nous avons prises », avertissent toutefois les Data Scientists. Ceux-ci notent ainsi que l’écart entre le second – François Fillon, selon leur modèle – et le troisième –Emmanuel Macron – reste dans la marge d’erreur. « Tous nos modèles de pondération donnent cependant Marine Le Pen au second tour », notent toutefois Mohamed Al Ani et Raphaël Vignes, deux des étudiants de Télécom Paris Tech dans les colonnes du Point.
A lire aussi :
Open Data : le service public de la donnée ouvre ses portes
Numérique et Présidentielle, un débat hélas sans candidats
François Hollande veut protéger la présidentielle des cyberattaques
OVHCloud partage ses efforts environnementaux au sommet de l’Open Compute Project qui se tient à…
Avec Phi-3-mini, Microsoft lance un SLM conçu pour attirer une clientèle disposant de ressources financières…
La Commission européenne serait sur le point d'approuver la proposition d'Apple visant à fournir à…
Le Premier ministre a précisé les usages de l'IA dans les services de l'administration et…
Sous la marque Horizon OS, Meta va ouvrir le système d'exploitation des casques Quest à…
Après avoir essaimé dans 145 pays, la communauté de femmes de la tech Women Who…