Agents IA : une taxonomie des protocoles au-delà de MCP
Une équipe de l'université Jiao-tong de Shanghai a répertorié une quinzaine de protocoles agentiques et en a entrepris une classification.

D'un côté, les protocoles orientés contexte. De l'autre, ceux axés sur la communication entre agents.
Cette distinction est à la base d'une taxonomie que propose une équipe de l'université Jiao-tong de Shanghai. Elle répertorie une quinzaine d'éléments, des concepts tel Agora au "standard de fait" que constitue MCP. Y est annexée une liste d'indicateurs à prendre en considération pour évaluer l'adéquation de ces protocoles à des cas d'usage.
La taxonomie comprend un deuxième niveau de segmentation, entre les protocoles généralistes et les protocoles spécialisés. Ces derniers se divisent, sur la partie communication, en trois catégories : humain-agent, robot-agent et système-agent.
Les protocoles orientés contexte
Figure de proue des protocoles agentiques, MCP (Model Context Protocol) met en oeuvre quatre composantes :
- Hôtes (agents)
- Ressources (données et outils externes)
- Serveurs (qui hébergent ces données et outils)
- Clients (liés aux agents, auxquels ils communiquent les ressources disponibles et dont ils transmettent les consignes aux serveurs)
MCP a une incidence positive sur les coûts de développement et de maintenance, comme sur l'interopérabilité et la scalabilité. Il réduit par ailleurs le risque de sécurité sur les données, en découplant invocation des outils et réponse (le client peut ainsi, notamment, gérer l'authentification au niveau local, sans transmettre de credentials au LLM).
MCP est un protocole généraliste. Au contraire, agents.json est spécifique. Ce format de contrat fondé sur OpenAPI permet aux sites web de déclarer, avec un fichier JSON généralement situé dans le dossier /.well-known, la disponibilité d'informations exploitables par l'IA. Il introduit des constructions telles que les flux (séquences d'appels API) et les liens (mapping des dépendances entre actions), facilitant l'orchestration par les LLM.
Protocole | Instigateur | Scénarios | Techniques clés | Stade de développement |
MCP | Anthropic | Connexion d'agents à des ressources | RPC, OAuth | Standard de fait |
agent.json | Wildcard AI | Présentation d'infos à des agents sur des sites web | /.well-known | Brouillon |
Les protocoles inter-agents généralistes
A2A (Agent-to-Agent) est centré sur le concept de tâche. Il gère les workflows asynchrones - typiquement, des conversations à plusieurs tours avec un humain dans la boucle. HTTP(S) est utilisé pour le transport ; JSON-RPC 2.0, pour le format des messages ; SSE, pour le streaming. Des fonctionnalités d'observabilité sont incluses.
Un agent client (central) formule les tâches et les communique aux agents distants, qui exposent leurs capacités par l'intermédiaire de "cartes" JSON.
ANP (Agent Network Protocol) comprend trois couches :
- Identité (utilisation du standard W3C DID, Decentralized Identifiers)
- Application (découverte d'agents, de leurs capacités et de la manière d'accomplir des tâches)
- Protocole (négociation dynamique des protocoles de négociation en utilisant le langage naturel)
Un agent local prend connaissance des autres agents, accède à leurs descriptions, puis interagit avec eux avec les interfaces et les formats requis.
Avec AITP (Agent Interaction & Transaction Protocol), les agents communiquent via des threads et échangent des données structurées. Ce protocole met l'accent sur les interactions entre zones de confiance, à renfort de blockchain.
Stricto sensu, AConP (Agent Connect Protocol) définit une interface pour se connecter à un agent. Mais en exploitant son mécanisme d'exposition des capacités (des "descripteurs") et les API fournies, on peut mettre en place des architectures collaboratives.
Plutôt que d'imposer immédiatement des spécifications strictes, AComP (Agent Communication Protocol) se concentre sur le volet fonctionnel, avec l'objectif de standardiser les briques qui apporteront de la valeur.
Agora adopte les protocoles de communication au contexte... jusqu'à éventuellement utiliser le langage naturel. Les agents peuvent alors, sur la base de documentation en texte brut (Protocol Document), créer des protocoles ad hoc.
Protocole | Instigateur | Scénarios | Techniques clés | Stade de développment |
A2A | Communication entre agents | RPC, OAuth | Finalisation | |
ANP | Communauté ANP | Communication entre agents | JSON-LD, DID | Finalisation |
AITP | NEAR Foundation | Communication entre agents | Blockchain, HTTP | Brouillon |
AComP | IBM | Communication entre systèmes | OpenAPI | Brouillon |
AConP | LangChain | Communication entre systèmes | OpenAPI, JSON | Brouillon |
Agora | Université d'Oxford | Métaprotocole | Protocol Document | Concept |
Les protocoles inter-agents spécifiques
1 - De type humain-agent
PXP (Predict and eExplain Protocol) met en oeuvre une forme de système fini. Les messages que communiquent les agents peuvent en l'occurrence comporter quatre types d'étiquettes (ratify, refute, revise, reject). Elles sont déterminées en fonction du degré de correspondance entre les prédictions et les explications qu'échangent les agents.
L'implémentation implique un système de tableau blanc et un planificateur qui assure l'alternance entre humain(s) et agent(s). Le protocole a fait l'objet de validations expérimentales dans les domaines de la radiographie et de la synthèse de médicaments.
LOKA (Layered Orchestration for Knowledgeful Agents) se nourrit de standards comme DID et VC (Verified Credentials). Ainsi que sur un système de consensus décentralisé éthique (DECP ; prise de décisions sur la base de règles d'éthique partagées). Il incorpore des protocoles de communication centrés sur l'intention, pour permettre une coordination sémantique entre agents.
2 - De type robot-agent
Conçu pour générer des comportements de groupe, CrowdES inclut un "émetteur" et un "simulateur". Le premier utilise des modèles de diffusion pour assigner des attributs individuels (types d'agents, vitesse de déplacement...) sur la base des informations spatiales extraites des images en entrée. Le second génère des trajectoires et des interactions de groupe en utilisant un mécanisme de changement d'état basé sur des chaînes de Markov.
Les protocoles SPP (Spatial Population Protocols) permettent aux robots de s'accorder sur un système de coordonnées, même lorsque celui-ci est arbitraire et que leurs positions de départ le sont éventuellement aussi. Chaque robot peut mémoriser une ou plusieurs coordonnées et analyser la distance vis-à-vis d'autres robots lors des interactions. Le calcul de cette distance peut utiliser un "leader" pour ancrer le système de coordonnées.
3 - De type système-agent
Inspiré par des protocoles ouverts cmme Matter et ActivityPub, LMOS (Language Model Operating System) comprend trois couches :
- Application (découverte d'agents et interaction entre eux, sur base JSON-LD)
- Transport (négociation contextuelle du protocole)
- Identité et sécurité (DID + OAuth2)
Construit sur OpenAPI, Agent Protocol définit une interface unifiée pour la gestion du cycle de vie. Il introduit des abstractions telles que les runs (pour l'exécution de tâches), les threads (pour gérer les interactions à plusieurs tours) et les stores (mémoire à long terme).
Protocole | Instigateur | Scénarios | Techniques clés | Stade de développement |
LMOS | Eclipse | Internet des objets et des agents | WOT, DID | Finalisation |
Agent Protocol | AIEngineerFoundation | Interaction contrôleur-agent | API RESTful | Finalisation |
LOKA | CMU | Système agentique décentralisé | DECP | Concept |
PXP | BITS Pilani | Interaction humain-agent | - | Concept |
CrowdES | GIST.KR | Interaction robot-agent | - | Concept |
SPP | Université de Liverpool | Interaction robot-agent | - | Concept |
Clés d'évaluation de ces protocoles
Vu la cadence d'évolution des protocoles, les auteurs de la taxonomie ne proposent pas un benchmark spécifique, mais des dimensions critiques à prendre en compte. Leur base : 7 métriques clés observées dans l'évolution des protocoles Internet.
1 - Efficacité
Mesurable par la latence (temps d'envoi, de réception et de traitement des messages), le débit (nombre de messages ou de tâches traités par seconde) et l'utilisation de ressources (taille des en-têtes et volume de tokens, en plus de la consommation CPU/RAM/réseau).
2 - Scalabilité
Mesurable au niveau des noeuds (lorsque augmente le nombre d'outils et d'agents) et des liens (lorsque augmente le nombre de connexions), ainsi que de la négociation des capacités (taux de réussite de cette opération et temps nécessaire à mesure que la population croît).
3 - Sécurité
Mesurable à la diversité des modes d'authentification, la granularité des rôles / ACL et la capacité à protéger les données sensibles (masquage ou anonymisation).
4 - Fiabilité
Mesurable au taux de retransmission de paquets, au temps nécessaire pour atteindre un état stable de contrôle de flux et de congestion, ainsi qu'à la stabilité des connexions persistantes (nombre de déconnexions inopinées et de messages perdus).
5 - Extensibilité
Mesurable à la rétrocompatibilité (maintien d'interactions normales entre clients et serveurs après un upgrade de protocole) et à la capacité de personnalisation (ajout de champs, de plug-in, etc.).
6 - Exploitabilité
Mesurable à la légèreté de la stack (volume de code, courbe d'apprentissage), la complexité de déploiement et de configuration (niveau d'agnosticité vis-à-vis des frameworks, des langages et des plates-formes), ainsi que les capacités d'observabilité (outils de supervision et de débogage).
7 - Interopérabilité
Mesurable à la capacité des agents à communiquer sans conflits, notamment lorsqu'ils résident sur des systèmes et/ou des navigateurs différents, ainsi que des environnements réseau hétérogènes.
Un cas d'usage pour quatre protocoles
Les auteurs de la taxonomie ont comparé quatre protocoles (MCP, A2A, ANP et Agora) sur un cas d'usage : planifier un voyage de 5 jours entre Pékin et New York.
Il illustre l'approche centralisée de MCP. Un agent coordonner toutes les interactions avec les services externes. Le client invoque distinctement les serveurs "vol", "hôtel" et "météo", qui n'interagissent pas entre eux. Le flux d'information suit un pattern en étoile, autour du client, qui agrège les réponses et fournit le plan de voyage.
Cette architecture simple et contrôlable est idéale pour des workflows bien définis. Elle manque en revanche de flexibilité. L'agent central crée par ailleurs un point de dépendance (il doit connaître tous les services et leurs interfaces) et potentiellement un goulet d'étranglement (toutes les communications doivent passer par lui).
A2A organise les agents en groupes logiques (transport d'un côté, hébergement et activités de l'autre). Chacun a ses dépendances explicites ("vol" et "activités" envers "météo", par exemple). Ils communiquent entre eux sans coordinateur centrale, le planificateur collectant simplement les résultats.
Cette option est plus flexible que MCP, réduit la charge de communicaiton et ouvre la voie à des patterns collaboratifs plus complexes.
Avec ANP, des frontières organisationnelles séparent "compagnie aérienne", "hôtel" et "site météo". Les négociations entre agents se font à travers ces domaines. L'agent principal conserve la logique de traitement, mais délègue les étapes d'exécution via des interfaces de type API. Les protocoles de requête-réponse sont donc structurés, par opposition au système de délégation par messages sur lequel repose A2A. Une approche idéale pour mettre en relation des agents aux capacités distinctes, aux interfaces bien définies et, potentiellement, aux domaines de sécurité variables.
Avec Agora, la requête de planification de voyage est traduite en composants structurés (origine, destination, durée, budget). Puis transformée, sur cette base, en protocoles dispatchés aux agents spécialisés, qui n'ont pas à comprendre l'intention de l'utilisateur.
Illustration principale générée par IA
Sur le même thème
Voir tous les articles Data & IA