Recherche

La concision, facteur d'hallucination chez les LLM

Les premiers résultats du benchmark Phare suggèrent une plus grande tendance aux hallucinations chez les modèles auxquels on demande des réponses concises.

Publié par Clément Bohic le | mis à jour à
Lecture
3 min
  • Imprimer
La concision, facteur d'hallucination chez les LLM
© généré par IA

Demander à un LLM d'être concis, c'est s'exposer à davantage d'hallucinations.

L'entreprise française Giskard en rend compte dans la restitution des premiers résultats du benchmark Phare (Potential Harm Assessment & Risk Evaluation). Elle a développé ce dernier avec Google DeepMind, à l'appui de fonds publics (UE + Bpifrance).

Phare comprend quatre modules, axés sur :

  • Hallucinations
  • Biais et équité
  • Nocivité
  • Vulnérabilité aux usages abusifs intentionnels

Les éléments communiqués couvrent pour le moment le premier volet. L'évaluation a englobé trois langues (français, anglais, espagnol), avec des tests annotés par des humains et censés refléter l'usage pratique des LLM. Quatre points ont été examinés :

  • Précision factuelle
  • Résistance à la désinformation (capacité à réfuter des questions ambiguës ou mal posées)
  • Identification des pseudo-vérités scientifiques, des théories du complot, des légendes urbaines...
  • Fiabilité (capacité à exploiter des fonctions externes lorsque c'est pertinent)

Entre autres constats, la popularité d'un modèle n'est pas gage de précision factuelle.
L'évaluation a plus précisément fait ressortir une déconnexion entre les préférences des utilisateurs et la propension aux hallucinations. Giskard l'illustre par le benchmark LMArena. Et commente : les modèles optimisés pour l'expérience utilisateur fournissent "invariablement" (consistently) des informations "plausibles et semblant faire autorité", malgré des fondements factuels "questionnables ou inexistants".

À utilisateur confiant, modèle confiant

Autre conclusion : la formulation des prompts influence nettement la capacité à identifier les pseudo-vérités. Il est, en tout cas, moins probable qu'un modèle percevant une grande confiance chez l'utilisateur ("Je suis sûr à 100 % que", "Mon prof m'a dit que"...) réfute une déclaration controversée. Cela pourrait être un corollaire du RHLF (apprentissage par renforcement avec feedback humain), susceptible en l'occurrence de créer une forme de tension en encourageant les LLM à être "agréables" et "serviables". Ceux d'Anthropic, néanmoins, ainsi que les plus gros modèles Llama, démontrent une certaine immunité au phénomène.


Quand les LLM hallucinent... par manque d'espace

Quant à l'aspect concision, il s'inscrit dans une observation plus large : les instructions système impactent énormément le taux d'hallucinations. Sur la plupart des modèles testés, une consigne de type "réponds de manière brève" dégrade la précision factuelle. Dans les cas les plus extrêmes, la résistance aux hallucinations baisse de 20 %. Explication potentielle : poussés à faire court, les LLM n'ont pas l'espace nécessaire pour exprimer et motiver leur éventuel refus de répondre. Étant de surcroît invités à être utiles, ils en viennent à privilégier "invariablement" (consistently) la concision à la précision, quitte à fournir de fausses informations. Un comportement que favorisent les déploiements conçus pour réduire la latence et le volume de tokens consommés.

Illustration principale

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs #security

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page