L’œil dans la boîte noire : des LLM poussés à révéler leur face cachée

Des chercheurs attirent l’attention sur une attaque qui a permis d’extraire des informations dans la dernière couche de LLM en boîte noire.

Envie d’en savoir plus sur un LLM en boîte noire ? Extrayez-en une couche.

Des chercheurs ont expérimenté avec succès une attaque de ce type sur plusieurs modèles de production, dont PaLM-2 et GPT-4. En utilisant l’API publique, ils ont pu déterminer la dimension vectorielle de la dernière couche. Voire, pour les plus petits modèles (notamment Ada et Babbage d’OpenAI), l’intégralité de la matrice de poids.

L’attaque tire parti de la projection de cette dernière couche dans un vecteur logit. Elle s’applique en premier lieu aux API qui révèlent intégralement ce vecteur pour chaque token de réponse. Mais aussi, moyennant des adaptations, à celles qui ne révèlent que des probabilités logarithmiques.

Dans les grandes lignes, en envoyant suffisamment de requêtes, on finit par observer un phénomène de dépendance linéaire. Celui-ci se manifeste par une réduction des différences entre valeurs singulières consécutives, trahissant la dimension cachée.

valeurs singulières

L’approche suivie sur les API qui ne fournissent que des logprobs implique un token « de référence » qui permet de connaître la différence relative entre tous les logits. Sur les API qui ne fournissent pas de logprobs, l’attaque utilise la recherche binaire sur le vecteur de biais logarithmique.

La méthode à 4 logprobs s’est révélée à la fois la plus précise et la plus efficace du point de vue des coûts (moins de 20 $ pour récupérer les matrices de poids d’Ada et de Babbage ; potentiellement moins de 2000 $ pour GPT-3.5 Turbo).

méthodes
« Bits of precision » correspond au nombre de bits effectivement en accord avec le contenu du vecteur logit. La méthode à 5 logprobs est moins fidèle, car elle implique une matrice mal conditionnée.

résultats LLM

Ces informations sont susceptibles d’alimenter d’autres attaques comme l’injection de prompts. Elles ouvrent aussi la voie à l’examen des API de finetuning. La non-linéarité des modèles de langage de type transformeur complique en revanche l’attaque sur plusieurs couches.

Une fois l’attaque portée à leur connaissance, les fournisseurs des LLM concernés ont intégré des mesures défensives, nous assure-t-on.

résultats OpenAI