Le machine learning pour détecter les tweets en état d’ébriété

La réalité dépasse souvent la fiction dans le domaine de l’IT. Dans le film « Les stagiaires », les protagonistes envisageaient de créer une application pour des fêtards capable de mesurer leurs capacités de réaction et de réflexion, après des soirées trop arrosées. Nabil Hossain et d’autres étudiants de l’Université de Rochester se sont un peu inspirés du film en se focalisant sur Twitter. L’objectif est de créer méthode basée sur le machine learning capable de repérer les syndromes d’alcoolémie avancée dans les tweets, ainsi que l’activité géographique des buveurs via la géolocalisation.

Les étudiants ont commencé à collecter des informations au début de l’année 2014 jusqu’en juillet dans les villes de New York et du comté de Monroe (dont fait partie Rochester). De ce jeu de données, ils ont filtré les tweets comprenant des références à l’alcool comme ivre, bière, whisky, fête, etc. Pour une analyse plus fine, ils se sont ensuite tournés vers le service Amazon Mechanical Truck, application web de crowdsourcing qui vise à faire effectuer contre rémunération des tâches plus ou moins complexes. Trois Truckers ont été chargés de déterminer si les tweets se référençaient à l’alcool, si l’utilisateur était en train de boire et s’il avait envoyé le message en même temps qu’il buvait.

Géolocalisation des beuveries

Dans le même temps, ils ont géotaggés plus de 11 000 tweets en lien avec l’alcool. Un échantillon suffisant pour créer un algorithme de machine learning et détecter non seulement les messages liés à l’alcool, mais aussi si les buveurs se trouvent à la maison ou à l’extérieur. Sur ce point, les universitaires ont utilisé plusieurs méthodes pour affiner et rendre plus précis leur analyse (à travers des mots clés, des horaires, etc). Ils peuvent ainsi créer des « cartes de chaleur » de consommation d’alcool par zones en distinguant les surconsommations domestiques, dans des bars ou le lien avec les magasins vendant de l’alcool

Les étudiants sont conscients des faiblesses de la méthode et vont la renforcer en intégrant d’autres données comme l’âge, le sexe et l’ethnie. Il s’agit surtout pour Nabil Hossein et ses amis de montrer que les signaux faibles émis par les réseaux sociaux pourraient être interprétés et qualifiés de manière suffisamment fiable grâce à l’analyse du machine learning. Dans le cas de l’alcool, ces remontées d’informations pourraient être utilisées dans le cadre de politique de santé publique.