Pour gérer vos consentements :

Le machine learning pour détecter les tweets en état d’ébriété

La réalité dépasse souvent la fiction dans le domaine de l’IT. Dans le film « Les stagiaires », les protagonistes envisageaient de créer une application pour des fêtards capable de mesurer leurs capacités de réaction et de réflexion, après des soirées trop arrosées. Nabil Hossain et d’autres étudiants de l’Université de Rochester se sont un peu inspirés du film en se focalisant sur Twitter. L’objectif est de créer méthode basée sur le machine learning capable de repérer les syndromes d’alcoolémie avancée dans les tweets, ainsi que l’activité géographique des buveurs via la géolocalisation.

Les étudiants ont commencé à collecter des informations au début de l’année 2014 jusqu’en juillet dans les villes de New York et du comté de Monroe (dont fait partie Rochester). De ce jeu de données, ils ont filtré les tweets comprenant des références à l’alcool comme ivre, bière, whisky, fête, etc. Pour une analyse plus fine, ils se sont ensuite tournés vers le service Amazon Mechanical Truck, application web de crowdsourcing qui vise à faire effectuer contre rémunération des tâches plus ou moins complexes. Trois Truckers ont été chargés de déterminer si les tweets se référençaient à l’alcool, si l’utilisateur était en train de boire et s’il avait envoyé le message en même temps qu’il buvait.

Géolocalisation des beuveries

Dans le même temps, ils ont géotaggés plus de 11 000 tweets en lien avec l’alcool. Un échantillon suffisant pour créer un algorithme de machine learning et détecter non seulement les messages liés à l’alcool, mais aussi si les buveurs se trouvent à la maison ou à l’extérieur. Sur ce point, les universitaires ont utilisé plusieurs méthodes pour affiner et rendre plus précis leur analyse (à travers des mots clés, des horaires, etc). Ils peuvent ainsi créer des « cartes de chaleur » de consommation d’alcool par zones en distinguant les surconsommations domestiques, dans des bars ou le lien avec les magasins vendant de l’alcool

Les étudiants sont conscients des faiblesses de la méthode et vont la renforcer en intégrant d’autres données comme l’âge, le sexe et l’ethnie. Il s’agit surtout pour Nabil Hossein et ses amis de montrer que les signaux faibles émis par les réseaux sociaux pourraient être interprétés et qualifiés de manière suffisamment fiable grâce à l’analyse du machine learning. Dans le cas de l’alcool, ces remontées d’informations pourraient être utilisées dans le cadre de politique de santé publique.

A lire aussi :

Sécurité : Twitter renforce sa traque des comportements délictueux
Big Data : diagnostiquer les troubles psychologiques en scrutant Twitter

Crédit Photo : liza54500-Shutterstock

Recent Posts

APT44, bras armé cyber de la Russie

Mandiant a attribué un APT à Sandworm, considéré comme le principal groupe cybercriminel à la…

13 heures ago

Cybersécurité : HarfangLab et Filigran connectent EDR et CTI

Les deux startup proposent un connecteur entre la platefome OpenCTI de Filigran et l’EDR de…

15 heures ago

Le hacking autonome, capacité émergente de GPT-4 ?

Des chercheurs ont mis des agents LLM à l'épreuve dans la détection et l'exploitation de…

16 heures ago

Les applications de messagerie se mettent au chiffrement post-quantique

Dans la lignée de Signal, iMessage intègre une couche de chiffrement post-quantique.

19 heures ago

Infrastructures LAN : une photo du marché avant la fusion HPE-Juniper

Douze fournisseurs sont classés dans le dernier Magic Quadrant des infrastructures LAN.

2 jours ago

Sauvegarde et restauration : Commvault muscle son offre cloud avec Appranix

Commvault s'offre Appranix, éditeur d'une plateforme cloud de protection et de restauration des applications.

2 jours ago