IA agentique : le retour d'expérience d'Anthropic avec Claude Research
Anthropic revient sur quelques techniques utilisées pour développer la fonctionnalité de recherche approfondie de son chatbot Claude.

L'exécution asynchrone n'est pas pour tout de suite avec Claude Research.
Mi-avril, Anthropic dotait son chatbot de cette fonctionnalité de "recherche approfondie". Elle repose sur un système agentique. Son fonctionnement, dans les grandes lignes :
- La requête de l'utilisateur est transmise à un agent principal (orchestrateur).
- Celui-ci élabore un plan - et le met en mémoire pour éviter une troncature en cas de dépassement de la fenêtre de contexte.
- Il crée ensuite des sous-agents spécialisés (experts) et leur confie des tâches.
- Chaque sous-agent effectue sa tâche, la valide et communique les résultats à l'orchestrateur.
- Ce dernier effectue une synthèse. Il a alors la possibilité de relancer un cycle (il peut alors créer d'autres experts ou réviser sa stratégie). Sinon, il transmet sa synthèse à un agent qui gère les citations et qui retourne la réponse à l'utilisateur.
Actuellement, l'orchestrateur exécute les experts de façon synchrone : il attend que tous aient terminé leur tâche. Cela simplifie la coordination, mais induit des limites. Entre autres, l'impossibilité, en cours de processus, de réorienter les experts, lesquels ne peuvent par ailleurs pas s'organiser.
À mesure que les modèles sous-jacents géreront des tâches de recherche plus longues et plus complexes, les gains de performance justifieront l'approche asynchrone, estime Anthropic.
En attendant, nombre d'améliorations apportées au système ont impliqué du prompt engineering. Par exemple pour apprendre à l'orchestrateur comment déléguer. Sans éléments précis (objectif, format d'output, outils et sources à exploiter, limites...), les experts ont effectivement tendance à mal exécuter le travail, voire à le dupliquer.
Anthropic avait d'abord permis à l'orchestrateur de donner des instructions courtes et simples. Mais elles se sont souvent révélées trop vagues pour les experts...
Des règles pour doser l'effort
Autre enseignement : les agents ont du mal à jauger l'effort nécessaire pour effectuer une recherche donnée. Anthropic a donc intégré des règles de mise à l'échelle :
- Recherche simple de faits : un seul agent, avec 3 à 10 appels d'outils
- Comparaisons directes : 2 à 4 agents, pour 10 à 15 d'appels
- Recherches complexes : plus de 10 agents
Des règles - quant à elles heuristiques - ont aussi été intégrées pour la sélection des outils. Par exemple, préférer les spécialisés aux génériques ; ou, avant de les utiliser, associer leur usage aux intentions de l'utilisateur.
Anthropic a également exploré la possibilité de laisser les agents s'améliorer eux-mêmes. Postulat : si on donne aux modèles Claude un prompt et une situation d'échec, ils peuvent la comprendre. Cela s'est vérifié. Il en a notamment découlé un agent capable de réécrire la description d'un outil dysfonctionnel. Les experts qui s'en sont servis ensuite ont résolu leurs tâches 40 % plus vite, nous assure-t-on.
Aller du général au particulier
Anthropic a par ailleurs invité les agents à aller du général au particulier, en commençant par des requêtes courtes. Ce qui n'était pas forcément leur comportement par défaut, au risque de produire peu de résultats. En complément, deux formes de parallélisation ont été instituées. D'une part, l'orchestrateur lance 3 à 5 experts en simultané. De l'autre, chaque expert se sert d'au moins 3 outils en même temps. La durée de traitement des requêtes complexes s'en est trouvée réduite jusqu'à 90 %.
Commencer à tester tôt
Lors du développement d'un agent, l'impact des changements est d'autant plus fort qu'on est au début du cycle. En conséquence, pas besoin d'accumuler des centaines de tests avant de commencer à les évaluer. Anthropic affirme qu'une vingtaine de requêtes représentatives d'un usage "réel" ont suffi à produire des résultats.
Toujours en matière d'évaluation, il apparaît que la technique du LLM-as-a-judge passe bien à l'échelle dans les cas où la réponse attendue est claire. L'évaluation par l'humain est complémentaire. Elle a, par exemple, permis de s'apercevoir que les premiers agents sourçaient constamment des fermes d'articles optimisés SEO plutôt que des sources d'autorité moins bien classées.
Reprises autogérées et déploiements rainbow
Dans les systèmes agentiques, a fortiori stateful, il existe un risque de cumul des erreurs. Or, dans une telle situation, on ne peut pas simplement revenir au début. Anthropic a conçu un mécanisme capable de reprendre là où l'agent en était. On fait confiance à son "intelligence" pour gérer les problèmes. Par exemple en lui signalant que tel outil connaît des échecs et en le laissant s'adapter. On peut combiner cette "agilité" à des garde-fous déterministes (checkpoints réguliers, logique de retry...).
Pour coordonner les déploiements au sein du système, Anthropic utilise des déploiements rainbow : le trafic bascule progressivement des anciennes versions vers les nouvelles.
Illustration
Sur le même thème
Voir tous les articles Data & IA