Une série de clics et Twitter suffisent à vous identifier

Corréler l’historique des pages Web visitées aux profils Twitter permet d’identifier les internautes, expliquent des chercheurs de Princeton et de Standford. Ou quand le Big Data vient lever ce qui restait d’anonymat sur le Web.

L’anonymat sur Internet, un vœu pieux ? C’est en somme la démonstration d’une équipe de chercheurs des universités de Princeton et Standford. Ces derniers ont imaginé une extension pour le navigateur Chrome qui permet aux utilisateurs de prendre conscience de l’intérêt des traces qu’ils laissent sur le Net pour des publicitaires ou des espions. L’utilitaire, appelée Footprints, collecte les liens cliqués par l’utilisateur au cours des 30 derniers jours et, à partir de ces seules informations, renvoie une liste de 15 profils Twitter susceptibles de coller à cet usage. Ensuite, l’extension s’efface d’elle-même, assurent les chercheurs.

Professeur assistant à l’université de Standford, Sharad Goel explique que l’objectif de cet outil est avant tout éducatif : « nous n’envisageons pas de rendre cet outil accessible à d’autres, il s’agit avant tout de réveiller les consciences. » Un outil de ce type permettrait par exemple à une entreprise traçant déjà ses utilisateurs – soit la totalité des sites marchands notamment – de deviner l’identité des internautes, par corrélation avec leur usage d’un réseau social. En effet, si les publicitaires ou les spécialistes du marketing analysent déjà les traces laissées par les utilisateurs pour personnaliser l’expérience des clients online, ils ne sont en général pas en mesure de remonter jusqu’à l’identité réelle de l’internaute. Les chercheurs montrent que cette anonymat déjà tout relatif pourrait en pratique être levé, grâce à des analyses statistiques et au Big Data.

Dis-moi ce que tu cliques, j’en déduirai qui tu es

Dans un billet de blog, une étudiante de Standford ayant participé à la conception de Footprints, Jessica Su, explique le principe de la méthode : « Partant de la combinaison unique de pages Web qu’un individu a visitées, nous déterminons les fils de réseau social similaires à cet historique, calculant une liste d’utilisateurs qui ont toutes les chances d’avoir produit cette série de clics. De cette façon, nous pouvons relier l’identité réelle d’une personne à un jeu de liens visités, y compris les liens qui n’ont jamais été postés publiquement sur aucun réseau social. »

Comme le résume Jessica Su, pour concevoir Footprints, les chercheurs ont dû relever deux défis. Le premier est théorique et consiste à établir un modèle permettant de rapprocher un fil de réseau social d’un historique Web donné. Selon la chercheuse, l’approche la plus évidente – mesurer la fraction de liens communs dans les deux sources de données – s’avère en réalité décevante avec les utilisateurs ayant un réseau très large sur Twitter. Les chercheurs de Standford et Princeton ont donc utilisé une approche différente, basée sur la conception d’un modèle probabiliste des comportements de navigation Web et le calcul de probabilité qu’un utilisateur de Twitter produise l’historique de navigation Web observé. Le second challenge est, lui, technique et consiste à faire tourner cet algorithme en temps réel. Les chercheurs ont ici employé des méthodes de calcul heuristiques pour « réduire le champ de recherche ». Ce n’est donc que sur un jeu de candidats potentiels déjà drastiquement épuré qu’est appliqué l’algorithme permettant de dégager les utilisateurs les plus susceptibles de correspondre aux informations analysées. « A partir d’un historique de navigation donné, nous pouvons typiquement mener à bien ce processus dans son ensemble en moins de 60 secondes », résume Jessica Su. A noter que les chercheurs se sont concentrés sur Twitter car la majeure partie des informations publiées sur les fils y est publique (contrairement à Facebook par exemple).

A lire aussi :

WiFi public : la justice européenne flingue l’anonymat sur l’autel du droit d’auteur

Pour l’Electronic Frontier Foundation, Windows 10 viole les libertés individuelles

Crédit photo : Patrick Foto-Shutterstock