Recherche
En ce moment En ce moment

Chatbot Arena : la remise en cause d'un benchmark IA référent

Une étude impulsée par Cohere pointe les limites de la Chatbot Arena, entre tests privés, accès aux données et politique d'obsolescence des modèles.

Publié par Clément Bohic le | mis à jour à
Lecture
4 min
  • Imprimer
Chatbot Arena : la remise en cause d'un benchmark IA référent
© généré par IA

Au début, un constat de sous-échantillonnage ; à la fin, une étude à charge : chez Cohere, on n'apprécie guère le fonctionnement de la Chatbot Arena.

Lancé en 2023, ce benchmark IA de référence orchestre des duels aléatoires entre modèles, selon le principe "soumettez un prompt, votez pour la meilleure réponse".

À l'automne 2024, Cohere avait soumis un LLM open-weight issu de la famille Aya - axée sur le multilinguisme. L'estimant nettement moins mis à l'épreuve que des modèles propriétaires, ses équipes s'en étaient enquises auprès des porteurs de la Chatbot Arena (des membres de LMSYS et de UC Berkeley). Ces derniers avaient, quelques semaines plus tard, publié un post qui détaillait leur politique... et promettait un échantillonnage cohérent entre modèles.

Les disparités perdurant dans la pratique, Cohere s'engagea dans une analyse plus avancée. Il en résulte l'étude en question, cosignée avec une demi-douzaine de chercheurs universitaires (MIT, Stanford, Princeton, Washington...). Elle a impliqué l'audit d'environ 240 modèles issus d'une quarantaine de fournisseurs, sur quelque 2 millions de duels.

Une politique de "divulgation sélective"

A notamment été mise au jour une politique dont un échantillon de fournisseurs bénéficiaient de longue date. Parmi eux, Amazon, Google, Meta et OpenAI. Elle leur permettait de tester de multiples variantes en privé et de ne publier que certains scores.

Nombre de modèles testés en privé entre janvier et mars 2025


Plus on teste de variantes, plus le score augmente, affirme Cohere, qui a réalisé sa propre simulation, ensuite validée par une expérimentation en conditions réelles. Ses estimations sont même "conservatrices", assure-t-il, car elles ne prennent pas en compte les leaderboards annexes à la Chatbot Arena (vision et code, par exemple).

Des modèles supprimés "silencieusement"

Si on se fie à la codebase de la Chatbot Arena, une cinquantaine de modèles ont été déclarés obsolètes*.

D'après Cohere, plus de 200 ont en fait été écartés "en silence", en réduisant à néant ou presque leur taux d'échantillonnage.

La nature dynamique du benchmark (évolution des prompts et des adversaires) pose des problèmes à cet égard. Faute de conditions d'évaluations stables, la transitivité (si A > B et B > C, alors A > C) ne peut effectivement pas s'appliquer.

Là encore, par simulation, les chercheurs démontrent que le classement est très sensible à cette "suppression silencieuse", a fortiori dans le contexte d'une distribution évolutive des prompts. Les modèles ouverts ont nettement plus de chances d'être concernés, ajoutent-ils.

Un déséquilibre dans l'accès aux données

Ce phénomène, associé à la capacité à tester des modèles en privé, favorise l'accès aux données de feedback de la Chatbot Arena (prompts et résultats des duels).

61,4 % des données vont à des fournisseurs de modèles propriétaires


Entraîner des modèles sur cette manne de données est susceptible d'engendrer une suradaptation à la Chatbot Arena, sans pour autant bénéficier à leur qualité globale.

Cohere le démontre sur le benchmark Arena-Hard. En portant à 70 % la part de données "origine Chatbot Arena" dans le fine-tuning supervisé, un modèle - dont l'identité n'est pas précisée - gagne la moitié de ses duels face à Llama 3.1 8B (courbe de droite ci-dessous).


Cette suroptimisation est d'autant plus probable qu'au fil du temps, nombre de prompts sont redondants. Une déduplication sur la période de novembre 2024 à mars 2025 en a, en l'occurrence, supprimé plus de 20 %. Entre décembre 2024 et janvier 2025, 7,3 % sont apparus sous la même forme.

* Il existe bien une politique d'obsolescence : retrait après 3000 votes s'il existe au moins deux modèles plus récents dans la même série et/ou que plus de trois fournisseurs proposent des modèles pas plus chers et strictement meilleurs. Une logique difficile à auditer en pratique, d'après Cohere. D'une part, parce que beaucoup de modèles sont hébergés sur la Chatbot Arena. De l'autre, par manque de clarté sur la pondération entre qualité et prix.

Illustration principale générée par IA

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs #cloud

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page