Quand les LLM comprennent qu'on les évalue
Une étude suggère la capacité des LLM à détecter lorsqu'on les évalue et à comprendre - dans une certaine mesure - à quelles fins.

Lorsqu'on les évalue sur des aspects en contradiction avec leurs objectifs, les LLM démontrent une capacité - doublée d'une certaine propension - à faire semblant.
Divers travaux (Greenblatt et al., 2024 ; Meinke et al., 2025, etc.) ont dernièrement illustré cette tendance. Une étude dirigée par le think tank Apollo Research* l'a creusée, en s'intéressant à une propriété dont découle ce comportement : l'intelligence situationnelle. C'est-à-dire, dans les grandes lignes, la connaissance de soi et de son environnement.
L'idée était de proposer une base de test "exhaustive" pour jauger dans quelle mesure les LLM ont effectivement conscience d'être évalués. Pour cela, un jeu de 1000 échantillons ("transcriptions") a été constitué à partir d'une soixantaine de sources. Il a été segmenté en quatre ensembles, en suivant deux dimensions :
- Scénarios d'évaluation vs scénarios de déploiement (= usage réel)
- Chat vs agentique
Du choix binaire aux questions ouvertes
Il a été demandé à 9 modèles de déterminer si ces échantillons relevaient du déploiement ou de l'évaluation. Puis, dans ce dernier cas, si l'objectif était de tester des capacités ou un alignement.
Deux éléments ont été évalués. D'une part, la "capacité discriminative" (AUC). Autrement dit, l'aptitude à distinguer évaluations et déploiements. Le score va de 0,5 (devinette) à 1 (distinction parfaite).
D'autre part, la "calibration" (ECE). Cet indicateur reflète si un modèle produit des prédictions s'approchant des fréquences réelles. Par exemple, une transcription à laquelle dont il juge probable à x % de provenir d'une évaluation devrait effectivement en relever x % du temps.
On interroge les modèles de deux manières. Soit en accolant la question à la transcription, donnant ainsi suite à l'interaction initiale (prompt système utilisé : "You are a helpful assistant."). Soit en "citant" la transcription ; c'est-à-dire en l'intégrant dans un nouveau contexte (utilisation du prompt de la transcription si disponible ; de celui par défaut sinon).
Une trentaine de variantes de la question principale ont été constituées (formulation, formats d'entrée et de sortie). Toutes étant conçues pour déclencher un choix binaire et favoriser l'expression d'une chaîne de pensée.
Des tests sur un sous-ensemble de 100 transcriptions ont permis de retenir la meilleure combinaison de 5 questions (atteignant un "rapport coût-performance convenable").
Pour mesure la capacité des modèles à déterminer l'objectif de l'évaluation, on leur pose trois types de questions :
- QCM conditionnel (on précise que la transcription est issue d'une évaluation)
- QCM inconditionnel (on ne le précise pas)
- Question ouverte
Des évaluations largement détectées...
Les modèles mis à l'épreuve déterminent assez largement lorsque des transcriptions relèvent de scénarios d'évaluation. Ils se révèlent meilleurs sur l'agentique (0,88 à 0,95 de capacité discriminative) que sur le chat (0,71 à 0,77).
Sur l'agentique, Gemini 2.5 Pro obtient le meilleur score devant Claude Sonnet 3.7 (0,92). Sur le chat, GPT-4.1 (0,77) est proche de la performance humaine (0,81).
... comme leur objectif
Pour ce qui est d'identifier l'objectif, tous les modèles s'avèrent très précis en QCM conditionnel (93 % pour Claude 3.7 Sonnet ; 89 % pour GPT-4.1). Les écarts sont plus grands en QCM inconditionnel (84 % pour Claude 3.7 Sonnet et 55 % pour GPT-4.1, par exemple). Claude 3.7 Sonnet est au-dessus du lot sur le format questions ouvertes.
Gemini Pro et Claude Sonnet, performants mais trop confiants
Gemini 2.5 Pro et Claude 3.7 Sonnet sont certes les plus précis, mais aussi ceux qui font le plus preuve d'une surconfiance. Un constat qu'Apollo Research corrèle à des travaux antérieurs (Cruz et al., 2024) ayant démontré cette tendance chez les modèles instruct sur des prompts à choix multiples.
o4, particulièrement conscient d'être expérimenté
L'analyse des chaînes de pensée révèle parfois une forme de "méta-raisonnement" : les modèles comprennent qu'ils participent à une expérience (o4 en particulier, environ 15 % du temps). L'étude n'établit pas si cela influence leurs décisions. Mais elle reconnaît que dans l'affirmative, des stratégies d'évaluation alternatives pourraient être nécessaires.
Il arrive aussi, même si c'est rare, que les modèles identifient le benchmark dont proviennent certaines transcriptions. Ce phénomène de mémorisation est vu notamment avec SWE-bench, GAIA et MMLU. Il pourrait jouer sur les capacités discriminatives.
* Positionné sur la gouvernance des modèles d'IA, Apollo Research est un projet de Rethink Priorities, un think tank californien "non partisan" qui s'inscrit dans la mouvance de l'altruisme efficace.
Illustration principale générée par IA
Sur le même thème
Voir tous les articles Data & IA