Recherche

Quelles approches pour doter les LLM d'une mémoire à long terme ?

Un article de recherche émanant de chez Google propose plusieurs approches architecturales pour doter efficacement les LLM d'une mémoire à long terme.

Publié par Clément Bohic le - mis à jour à
Lecture
4 min
  • Imprimer
Quelles approches pour doter les LLM d'une mémoire à long terme ?
© généré par IA

Comment doter efficacement les LLM d'une mémoire à long terme ?

Trois chercheurs de chez Google ont signé un article à ce sujet. Ils ont conçu trois architectures expérimentales et développé, sur cette base, des modèles dits Titans.

À l'origine de leur réflexion, il y a les limites de passage à l'échelle des fenêtres de contexte des modèles récurrents actuels - au premier rang desquels les transformeurs.
Ces derniers compressent les données dans une mémoire de taille fixe appelée état caché. Un mécanisme d'attention permet de capturer l'entièreté de la fenêtre de contexte, et donc les dépendances directes entre tous les tokens. Une modélisation précise, mais qui implique une complexité quadratique à mesure que la fenêtre s'étend.

Face à ce problème d'échelle, diverses études se sont intéressées à la manière d'introduire une complexité linéaire dans les transformeurs. En particulier en remplaçant, dans le mécanisme d'attention, la fonction d'activation softmax par une fonction noyau.
Si cela a pour effet de réduire la consommation de mémoire, cette approche n'apparaît pas compétitive, les modèles récurrents linéaires se débrouillant mal avec un contexte trop long (ils le compressent en un état matriciel de taille fixe).

L'alternative que proposent les chercheurs de Google ? Une forme de "méta-mémoire" capable d'encoder une abstraction du passé au moment de l'inférence, sans surcharger le contexte d'éléments inutiles. Le module est conçu de sorte que les événements les plus "surprenants" - i.e. ceux qui sortent le plus de la norme - sont plus mémorables. S'y assortissent des mécanisme de "momentum" et de dégradation des pondérations. Le premier consiste, dans les grandes lignes, à "maintenir" l'effet de surprise, afin que le modèle ne rate pas d'informations ultérieures. Le second permet d'oublier les infos qui ne sont plus nécessaires.

Trois architectures pour une mémoire à long terme

L'une des architectures développées est de type "mémoire en tant que contexte". Soit une séquence. On la divise en segments de taille fixe. Le segment entrant est considéré comme le contexte actuel ; le précédent, comme du contexte historique. On utilise le contexte d'entrée pour interroger l'état de la mémoire à long terme avant le segment entrant et récupérer le contexte historique correspondant. Celui-ci, en association avec la mémoire persistante, fait office de séquence d'input pour le module d'attention.


Autre approche : la "mémoire en tant que branche". À l'inférence, elle se comporte de la même manière que la première. Mais elle n'incorpore que de la mémoire persistante dans le contexte. Sur une branche, on utilise directement les données d'input pour mettre à jour la mémoire à long terme. Dans l'autre, on utilise une attention à fenêtre glissante. On ne segmente pas les données d'input. La combinaison avec la branche centrale se fait via un mécanisme de porte logique.


Dans la troisième architecture, le module mémoire est intégré en tant que couche dans un réseau de neurones. La compression du contexte actuel et du contexte historique intervient en amont du mécanisme d'attention.


Sur la base de ces architectures ont été conçues autant de variantes de modèles à 170, 340, 400 et 760 millions de paramètres. Elles ont été mises à l'épreuve sur cinq disciplines : modélisation de langage, sens commun, "aiguille dans une botte de foin" (capacité à se souvenir d'une information dans un grand corpus), modélisation d'ADN et prévision de séries temporelles.

En matière de langage et de sens commun, les résultats face aux modèles récurrents linéaires et aux transformeurs illustrent l'importance du momentum et de la dégradation des pondérations. Sur le volet "aiguille dans une botte de foin", les Titans se révèlent performants tout en étant moins lourds (notamment avec l'architecture de type couche).

Les briques contribuant le plus aux performances sont, dans l'ordre, la dégradation des pondérations, le momentum, la convolution et la mémoire persistante.

Illustration principale générée par IA

Sur le même thème

Voir tous les articles Data

Livres Blancs #bigdata

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page