Les LLM autorégressifs ont-ils fait leur temps ?
La diffusion émerge en alternative au paradigme autorégressif pour la production de texte avec des LLM. L'une de ses incarnations se nomme LLaDA.

Autorégression ou diffusion ?
Dans l'univers des LLM, la première approche s'est imposée pour la génération de texte. La seconde commence toutefois à engendrer des modèles au coût et au niveau de performance dits similaires, voire supérieurs.
Une start-up américaine - Inception Labs, fondée par des professeurs universitaires - en a fait son produit d'appel. Sous la marque Mercury, elle a ouvert à l'expérimentation un modèle de code. Elle affirme tester aussi, en bêta privée, un chatbot. Leurs outputs ne sont pas générés de façon autorégressive (séquentielle, token par token), mais par un processus de débruitage progressif : la diffusion.
Les tokens produits n'étant pas dépendants des précédents, on nous promet des modèles capables de mieux structurer leurs réponses. Et, plus globalement, un potentiel d'amélioration continue sans forcément nécessiter de mise à l'échelle de l'inférence.
Inception Labs communique des résultats sur six benchmarks (BigCodeBench, EvalPlus, Fill-in-the-Middle, HumanEval, LiveCodeBench, MBPP), face à Claude 3.5 Haiku, DeepSeek-Coder-V2 Lite, GPT-4o mini, Gemini Flash-Lite et Qwen-2.5 Code 7B. Bilan : les scores sont plus ou moins comparables, mais Mercury Coder a des débits bien plus importants : 1109 tokens/seconde pour la version Mini et 737 pour la version Small (les autres modèles sont autour de 100 à 200 tokens/s). Le tout sans hardware spécifique (GPU H100).
LLaDA ou la diffusion appliquée à LLaMA
Inception Labs ne communique aucune méthodologie. Il n'a pas non plus documenté publiquement la conception de ses modèles. Au contraire des chercheurs chinois à l'origine de LLaDA (Large Language Diffusion with mAsking).
L'architecture de LLaDA reprend celle de LLaMA 3 8B, avec quelques modifications, en assurant une cohérence sur la plupart des hyperparamètres. Lors du préentraînement, on utilise un masque à ratio aléatoire, de sorte que les tokens sont plus ou moins cachés en fonciton des séquences. Le même principe est appliqué pendant l'ajustement supervisé, mais uniquement aux réponses.
Au bout du compte, LLaDA peut effectuer un échantillonnage par diffusion, en prédisant tous les tokens à chaque étape. Pour davantage de flexibilité, il emploie des stratégies de remasquage déterministe, fondées par exemple sur le niveau de confiance accordé aux tokens prédits.
Les performances de LLaDA sont dites équivalentes à celles des modèles autorégressifs, tout du moins jusqu'à l'échelle expérimentée (1023 flops). Le modèle conserve en outre ses aptitudes d'apprentissage en contexte et de suivi d'instructions. Le tout sans avoir adapté la représentation de la "matière première" au fonctionnement des modèles de diffusion - une approche nettement plus consommatrice de ressources.
Au-delà de l'accroissement du budget de calcul, les chercheurs entrevoient la possibilité de développer des mécanismes d'attention ou d'encodage positionnel spécifiques.
CLLM, approche "intermédiaire" pour paralléliser le traitement des tokens
Entre autres approches "intermédiaires", on mentionnera CLLM (Consistency Large Language Models). Elle consiste à entraîner des transformeurs afin qu'ils puissent décoder, à chaque étape d'inférence, plusieurs tokens en parallèle. En quelque sorte, singer l'humain, qui forme des phrases dans son esprit avant de les prononcer mot à mot. Du fine-tuning peut suffire pour y parvenir : on apprend à un modèle à associer, en le moins d'étapes possible, toute séquence aléatoire de tokens au même résultat obtenu par décodage autorégressif.
CLLM s'inscrit dans la lignée la méthode de Jacobi. Appliquée aux LLM, elle transforme le processus de décodage en un calcul parallèle en le ramenant à la résolution d'un système d'équations non linéaires.
Illustration principale © faithie - Adobe Stock
Sur le même thème
Voir tous les articles Data & IA