Recherche

SLM ou LLM ? Pour les systèmes agentiques, NVIDIA a choisi son parti

En puisant dans la littérature scientifique à leur sujet, NVIDIA plaide pour l'exploitation des SLM au sein des systèmes agentiques.

Publié par Clément Bohic le | mis à jour à
Lecture
7 min
  • Imprimer
SLM ou LLM ? Pour les systèmes agentiques, NVIDIA a choisi son parti

Phi chez Microsoft, xLAM chez Salesforce, SmolLM2 chez Hugging Face... Autant de familles de SLM qui se sont révélées capables d'atteindre, sur certaines tâches, des performances comparables à celles de LLM de même génération.

NVIDIA les mentionne toutes, benchmarks à l'appui, dans un article aux airs d'éloge. Son intitulé : "Les SLM sont l'avenir de l'IA agentique". Ces derniers seraient à la fois "suffisamment puissants", "intrinsèquement mieux adaptés" et "nécessairement plus économiques". Le groupe américain considère qu'on peut catégoriser ainsi les modèles à moins de 10 milliards de paramètres.

Sur l'aspect "suffisamment puissants"

Si les lois d'échelle demeurent, les performances des SLM se rapprochent progressivement de celles des LLM, affirme NVIDIA. Il en veut pour preuve des évaluations sur lesquelles :

  • Phi-2 (2,7B) a atteint des scores comparables à ceux de modèles 30B de même génération sur le raisonnement et la génération de code, tout en fonctionnant 15 fois plus vite

  • Phi-3 small (7B) s'est hissé au niveau de modèles 70B de même génération sur la compréhension du langage naturel, le raisonnement et la génération de code

  • Les modèles SmolLM2 (125M à 1,7B) ont produit une performance comparables à celles de contemporains à 14B sur la compréhension du langage naturel, l'appel d'outils et le suivi d'instructions

  • Ses propres SLM Nemotron-H (des hybrides Transformer-Mamba à de 2 à 9B) ont rivalisé avec des 30B de même génération sur le suivi d'instructions et la génération de code en consommant nettement moins de puissance de calcul

Les capacités ici mentionnées sont typiques des systèmes agentiques, précise NVIDIA.

Sur l'aspect "plus économiques"

Les besoins de parallélisation des SLM sont moindres, souligne NVIDIA. D'où une infrastructure plus simple à gérer, au-delà même du fait que ces "petits" modèles, de par leur nature, requièrent moins de puissance de calcul. Autant pour l'inférence que pour l'ajustement. L'utilisation des paramètres tend en outre à être plus efficace qu'avec les LLM.

Sur l'aspect "intrinsèquement mieux adaptés"

Le recours à des SLM de différentes tailles et domaines d'expertise se prête à l'hétérogénéité des tâches agentiques, souligne NVIDIA. Il favorise plus globalement la modularité des systèmes... et de là, leur déploiement comme leur maintenance.

Les SLM portent aussi une forme de "démocratisation" de l'IA. Davantage de parties sont susceptibles de participer à leur conception ; avec pour effet d'encourager l'innovation et la diversité, veut croire NVIDIA. Il en profite, à ce propos, pour mettre en avant son logiciel ChatRTX. Qui, assure-t-il, démontre la capacité à exécuter ces "petits" modèles jusque sur des GPU "de catégorie grand public" (GeForce RTX).

Le groupe américain poursuit : dans les systèmes agentiques, la majorité des tâches sont circonscrites, répétitives et non conversationnelles. Dans ce contexte, les SLM non seulement suffisent, mais sont souvent préférables. À plus forte raison lorsqu'on a besoin de modèles au comportement très cadré (structuration des outputs et des appels d'outils) : les LLM, de par leur "bagage", apparaissent plus sujets aux hallucinations.

Les systèmes agentiques se prêtent à la collecte massive de données d'utilisation, ajoute NVIDIA (chaque appel d'outils et de modèles est une source). Ce qui favorise l'entraînement de SLM experts (10 000 à 100 000 exemples suffisent), pour peu qu'on détecte au préalable, à renfort de clustering, les tâches les plus susceptibles d'en bénéficier.

Les ressources humaines, un contre-argument potentiel ? Oui, mais...

On peut penser que sur une tâche donnée, un LLM aura toujours l'avantage dans la compréhension d'ensemble. Une étude, en particulier, suggère l'existence d'un mécanisme de "hub sémantique" qui favoriserait la généralisation entre langues et domaines d'expertise ; plus en tout cas que chez les SLM.

NVIDIA admet l'argument, mais le réfute. Il pointe notamment un présupposé qui alimente nombre d'études sur les lois d'échelle : que l'architecture, au sein d'une même génération de modèle, restera constante. Alors même que de récents travaux sur l'entraînement des SLM démontrent les bénéfices propres à l'exploitation d'architectures différentes en fonction des tailles de modèles.

La flexibilité des SLM facilite, en outre, leur mise à niveau. Et le raisonnement (mise à l'échelle de l'inférence) est plus abordable. Quant à ce "hub", son utilité semble limitée dans les systèmes agentiques, où les problèmes complexes sont décomposés en tâches plus simples.

Autre contre-argument : les LLM, de par la centralisation qu'ils impliquent, resteront moins chers à exploiter. NVIDIA le concède : une multitude d'agents implique potentiellement une multitude de ressources humaines. Ces considérations sont toutefois très dépendantes des cas d'usage, tempère-t-il. Non sans rappeler que les améliorations récentes dans la planification et la modularisation de l'inférence plaident en faveur de l'usage des SLM, vu la flexibilité qu'elles apportent dans dles configurations monocluster.

Cradle, MetaGPT, Open Operator : trois cas d'usage pour illustrer le potentiel de remplacement

Dans la pratique, les LLM restent très implantés dans les systèmes agentiques. Le manque de notoriété des SLM joue, juge NVIDIA (ils ne bénéficient pas de la même "intensité marketing"). Autre barrière : la tendance à faire reposer leur conception et leur évaluation sur des benchmarks généralistes. Les gros investissements déjà réalisés dans les LLM jouent également : l'industrie a développé outils et infrastructures en conséquence.

Pour estimer le potentiel de remplacement des LLM par des SLM, NVIDIA prend trois exemples :

  • MetaGPT

Ce framework agentique sous licence Apache 2.0 émule une société d'édition logicielle. Il assigne des rôles de type responsable produit, architecte, ingénieur qualité, etc.
D'après NVIDIA, 60 % des requêtes au sein d'un tel système pourraient être gérées par des SLM. En première ligne, celles qui touchent à la génération routinière de code et à la production de réponses structurées sur la base de templates. Les capacités de génération des LLM pourraient conserver l'avantage sur du débogage ou du raisonnement architectural.

  • Open Operator

Cet outil d'automatisation de workflows permet de définir le comportement d'agents réalisant, à l'aide d'outils et de services, des tâches de type appel d'API, monitoring et orchestration.
D'après NVIDIA, 40 % des requêtes au sein d'un tel domaine pourraient être gérées par des SLM. Ces derniers se prêteraient bien au traitement de commandes simples comme à la génération sur base de templates. Ils pourraient néanmoins atteindre leurs limites sur des tâches nécessitant un raisonnement à plusieurs étapes ou la capacité à maintenir le contexte.

  • Cradle

Cet outil sous licence MIT permet à des agents de piloter des interfaces graphiques, à partir de captures d'écran.
D'après NVIDIA, 70 % des requêtes sur ce cas d'usage pourraient être gérées par des SLM. En tête de liste, les interactions répétitives et l'exécution d'actions préapprises. Moins les tâches qui impliquent une interface dynamique ou la résolution d'erreurs non structurées.

Illustration © bestforbest - Adobe Stock

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs #bigdata

Voir tous les livres blancs
S'abonner
au magazine
Se connecter
Retour haut de page