Le Big Data peut-il se montrer plus fiable que les sondages quant il s’agit de prédire les résultats du premier tour d’une des présidentielles les plus incertaines de la 5ème République ? C’est le pari de 5 étudiants de l’école Télécom Paris Tech, associés au magazine Le Point. Ces étudiants (Mohamed Al Ani, Davy Bensoussan, Alexandre Brehelin, Bertrand de Véricourt et Raphaël Vignes) ont mis au point une méthode expérimentale, appelée Predict The President, qui tente d’affiner les études d’opinion via l’approche Big Data. Une méthode qui donne Marine Le Pen (avec plus de 24 %) et François Fillon (près de 22 %) vainqueurs du premier tour de dimanche prochain, devant Emmanuel Macron (plus de 20 %) et Jean-Luc Mélenchon (près de 19 %). Benoit Hamon serait, lui, largement distancé (à peine plus de 5 %).
Sur la base de ces hypothèses, et d’une analyse département par département, les algorithmes permettent d’attribuer un pourcentage de vote à chaque bloc, avec une marge d’erreur de 2,5 % si on se réfère à l’élection de 2012. La seconde étape du travail des étudiants consiste à tenter de mesurer l’influence de la personnalité des candidats sur ces grands équilibres. En injectant les données des sondages, celles de Twitter et les recherches sur Google. Sur le réseau social, les étudiants ont collecté des tweets publiés entre les 10 et 15 avril, sur lesquels ils ont appliqué une analyse de sentiment, pour mesurer l’opinion des twittos vis-à-vis de chaque candidat. Un segment où François Fillon, très populaire sur le réseau social malgré le #PenelopeGate, fait jeu égal avec Marine Le Pen.
Mais, pour les Data Scientists de Télécom Paris Tech, école qui a lancé un mastère spécialisé en Big Data, l’analyse du très politisé réseau Twitter ne saurait suffire. Les étudiants notent ainsi que « l’un des rares indicateurs à avoir prédit la victoire de Donald Trump était bien Google », l’actuel président des États-Unis y bénéficiant d’un bien plus grand nombre de recherches que sa concurrente, Hillary Clinton. Sur ce terrain, ce sont cette fois Marine Le Pen et Jean-Luc Mélenchon qui se détachent.
C’est en combinant les trois approches que les étudiants parviennent à leur duel entre le candidat LR et la présidente du Front National. « L’algorithme que nous avons construit pour prédire les résultats des blocs est certes performant pour 2012, mais il ne se base que sur les variables que nous avons construites et des hypothèses que nous avons prises », avertissent toutefois les Data Scientists. Ceux-ci notent ainsi que l’écart entre le second – François Fillon, selon leur modèle – et le troisième –Emmanuel Macron – reste dans la marge d’erreur. « Tous nos modèles de pondération donnent cependant Marine Le Pen au second tour », notent toutefois Mohamed Al Ani et Raphaël Vignes, deux des étudiants de Télécom Paris Tech dans les colonnes du Point.
A lire aussi :
Open Data : le service public de la donnée ouvre ses portes
Numérique et Présidentielle, un débat hélas sans candidats
François Hollande veut protéger la présidentielle des cyberattaques
Un temps pressenti pour constituer le socle d'une suite bureautique AWS, Amazon WorkDocs arrivera en…
Eviden regroupe cinq familles de serveurs sous la marque BullSequana AI. Et affiche le supercalculateur…
Le dernier Magic Quadrant du SSE (Secure Service Edge) dénote des tarifications et des modèles…
Formats de paramètres, méthodes d'apprentissage, mutualisation GPU... Voici quelques-unes des recommandations de l'ANSSI sur l'IA…
À la grogne des partenaires VMware, Broadcom répond par diverses concessions.
iPadOS a une position suffisamment influente pour être soumis au DMA, estime la Commission européenne.