Modèles de raisonnement : les concessions d'Anthropic avec Claude
Entre incertitudes et limites avérées, Claude 3.7 Sonnet, dernier-né des LLM Anthropic, illustre les défis inhérents aux modèles de raisonnement.

Une grande fenêtre de sortie implique-t-elle de grands sacrifices ? On le constate, en quelque sorte, avec Claude 3.7 Sonnet, le dernier-né d'Anthropic.
Ce LLM peut produire jusqu'à 128k tokens par réponse, contre 8k pour son prédécesseur Claude 3.5 Sonnet. Cela inclut sa chaîne de pensée. Ou plutôt, pour reprendre les mots d'Anthropic, de "pensée étendue". Un choix terminologique cohérent vis-à-vis du reste de la communication. On nous présente effectivement Claude 3.7 Sonnet comme le "premier modèle de raisonnement hybride sur le marché". Au sens où il peut à la fois produire des réponses "quasi instantanées" et mener des réflexions étape par étape.
Claude 3.7 Sonnet est accessible sur Claude.ai. Y compris pour les utilisateurs de la version gratuite... mais sans la "pensée étendue". Autrement dit, sans capacités de raisonnement approfondi. Il est également disponible sur l'API Anthropic. Sans la possibilité de régler le niveau de déterminisme (temperature, top_k et top_p), mais avec un paramètre pour définir un budget maximal de tokens de pensée. Pour les valeurs supérieures à 32k, Anthropic recommande le traitement par lots afin d'éviter tout timeout. Dans le même esprit, le streaming des réponses est exigé lorsque le paramètre max_tokens (nombre maximal de tokens dans la réponse, chaîne de pensée incluse) est réglé à plus de 21 333.
Sur l'API, il en coûte 3 $ par million de tokens entrants et 15 $ par million en sortie. Pour le cache, c'est 3,75 $ par million de tokens écrits et 0,30 $ par million de tokens lus.
Les limites de la chaîne de pensée
Si la chaîne de pensée contient des éléments potentiellement indésirables, elle est chiffrée au moins partiellement, devenant ainsi invisible pour l'utilisateur, mais pas pour Claude. De manière générale, Anthropic met un bémol sur sa fidélité : il n'est pas certain qu'elle représente vraiment ce qui se passe dans "l'esprit" du modèle. Les mots peuvent d'autant plus échouer à expliquer un comportement que "très souvent", les LLM prennent des décisions sur la base de facteurs qui ne sont pas explicites dans leur chaîne de pensée.
Cette dernière pose par ailleurs des risques de sécurité. Avérés pour ce qui est de leur exploitation malveillante à des fins de jailbreak. Plus spéculatifs concernant le comportement de modèles qui apprendraient, pendant l'entraînement, que leurs pensées sont visibles. Ils pourraient être tentés de réfléchir d'une manière moins prédictible, voire de dissimuler volontairement certains éléments.
Mise à l'échelle de l'inférence : Anthropic cherche à paralléliser
Les 128k de fenêtre sortante contribuent à l'amélioration des performances. Par exemple, sur le pilotage de logiciels. Moyennant une centaine d'étapes de raisonnement, Claude 3.7 Sonnet dépasse les 25 points sur le benchmark OSWorld, quand Claude 3.5 Sonnet plafonne autour de 20 points. Dans un autre registre, le premier arrive à battre trois champions d'arène sur Pokémon Rouge, quand le second n'arrive à en affronter aucun (il bloque au niveau précédent).
Lire aussi : GitLab pousse son IA en local
La "pensée étendue" se traduit par deux types de mises à l'échelle de l'inférence. Avec l'approche "traditionnelle" en série (raisonnement séquentiel), la performance évolue généralement de manière prédictible. Illustration sur AIME 2024 (examen de mathématiques), où la progression est logarithmique, fonction du nombre de tokens de raisonnement.
Une autre méthode dite parallèle consiste à échantillonner plusieurs processus de raisonnement simultanés. On peut la mettre en oeuvre par l'intermédiaire d'un voté à la majorité (la réponse qui apparaît le plus fréquemment est considérée comme la meilleure). Autre option : faire juger les outputs par un autre modèle ou par une fonction de notation.
Sur GPQA (questions de bio et de physique-chimie), la mise à l'échelle parallèle de l'inférence a apporté ce qu'Anthropic qualifie d'améliorations nettes. Avec l'équivalent en calcul de 256 échantillons indépendants, une fonction de notation et un budget maximal de 64k tokens de pensée, le score atteint 84,8 % (contre 78,2 % avec raisonnement en série et 68 % sans).
Cette méthode n'est pas encore utilisable sur la version publique de Claude 3.7 Sonnet. Anthropic assure toutefois travailler dans l'optique de l'intégrer, tant elle est susceptible d'améliorer la qualité des réponses, généralement sans avoir à attendre la fin du raisonnement.
À consulter en complément :
Le raisonnement inductif, capacité sous-estimée des LLM ?
Pour mieux raisonner, les LLM doivent-ils se passer du langage ?
ChatGPT, Gemini, Perplexity... : bataille sur la "recherche approfondie"
Dans le sillage de DeepSeek, Alibaba avance ses pions
Illustration principale générée par IA
Sur le même thème
Voir tous les articles Data & IA