Twitter a publié son algorithme : premiers constats

Twitter vient d’ouvrir son algorithme de recommandation. Comment classe-t-il les utilisateurs et leurs tweets ?

Entre les RT, les likes et les réponses, qu’est-ce qui donne le plus de poids à un tweet ? On a des éléments de réponse désormais que Twitter a publié son algorithme de recommandation.

Cet algo influe sur le contenu présenté autant dans le search que sur la page d’accueil (« Pour vous ») et l’onglet Explorer. Il implique de multiples services* qui vont du scoring de réputation à la prédiction d’interactions en passant par l’évaluation des affinités communautaires.

Twitter Home Mixer

Comment l’algorithme voit les twitteurs…

L’explication que donne Twitter se concentre sur le cas de la page d’accueil. Elle élude certains aspects… dont le score de réputation. En parcourant le code (ici et ), on découvre l’outil sous-jacent, nommé Tweepcred. Il se fonde sur l’algorithme Pagerank (celui-là même qui porte Google Search), implémenté avec MapReduce.

Parmi les éléments que Tweepcred prend en compte, il y a le ratio abonnements/abonnés. Plus celui-ci est grand (beaucoup d’abonnements, peu d’abonnés), plus le score de réputation en pâtit. Pour éviter ce déséquilibre, on pourra utiliser les listes.

Le nombre de masquages, de blocages et de signalements joue aussi sur le score de réputation. Ainsi que le nombre de désabonnements, mais moins lourdement, et sur une période limitée aux 50 derniers jours.

Le « score Tweepcred » peut aller de 0 à 100. S’il est supérieur à 65, l’algorithme prend en compte tous les tweets de l’utilisateur. Sinon, il se limite à trois tweets – ce qui est pénalisant en particulier si on publie des threads.

… et comment il voit leurs tweets

De manière générale, la demi-vie d’un tweet est de six heures.

Indépendamment de Tweepcred, les abonnés à Twitter Blue ont droit à un petit boost pour leurs tweets (4.0 auprès des twitteurs qui font partie de leur réseau ; 2.0 auprès des autres).

Intégrer une image ou une vidéo rapporte un bonus comparable (2.0). Sans atteindre le poids des likes (20.0) et des retweets (30.0).
À l’inverse, tweeter des liens est généralement pénalisant, sauf s’ils appartiennent à des catégories bien précises (actualités, contenus multimédias) et qu’ils génèrent un minimum d’engagement.
Aborder certains sujets – parmi lesquels… la crise ukrainienne – a aussi un impact négatif sur le ranking des tweets.

Au-delà de ce scoring « objectif », l'ultime stade de sélection des tweets implique un algorithme « Heavy Ranker » qui prédit dans quelle mesure ils généreront de l'engagement. Parmi les probabilités calculées :

- Like (poids : 0.5)
- Retweet (1.0)
- Clic sur le tweet et like, réponse ou impression pendant plus de 2 minutes (11)
- Ouverture du profil et like ou réponse sur un tweet (12)
- Réponse au tweet (27)
- Réponse au tweet... à laquelle on répond ensuite (75)

Twitter a déjà modifié l'algorithme

L'algorithme a déjà évolué depuis sa publication ce 31 mars 2023. Twitter a par exemple supprimé quatre « groupes d'utilisateurs » qu'il avait définis afin de comparer les impressions sur leurs tweets : power users, démocrates, républicains... et Elon Musk.

Certains éléments ne font pas consensus, comme la différence de traitement entre likes et favoris (favCountParams). Ou les pénalités appliquées à qui répond à des utilisateurs qui ne sont pas dans son réseau (outOfNetworkReplyPenalty).

Dans tous les cas, une fois les tweets classés par pertinence (et écartés s'ils violent les règles de Twitter), l'algorithme applique un ultime filtrage. Il s'agit d'équilibrer les résultats (diversité des auteurs et du contenu).

* SimClusters, par exemple, regroupe les tweets et les utilisateurs par groupes d'affinité (illustration ci-dessous).

SimClusters

Illustration principale ©Buffik - Adobe Stock