Pour gérer vos consentements :
Categories: ChatGPT

L’œil dans la boîte noire : des LLM poussés à révéler leur face cachée

Envie d’en savoir plus sur un LLM en boîte noire ? Extrayez-en une couche.

Des chercheurs ont expérimenté avec succès une attaque de ce type sur plusieurs modèles de production, dont PaLM-2 et GPT-4. En utilisant l’API publique, ils ont pu déterminer la dimension vectorielle de la dernière couche. Voire, pour les plus petits modèles (notamment Ada et Babbage d’OpenAI), l’intégralité de la matrice de poids.

L’attaque tire parti de la projection de cette dernière couche dans un vecteur logit. Elle s’applique en premier lieu aux API qui révèlent intégralement ce vecteur pour chaque token de réponse. Mais aussi, moyennant des adaptations, à celles qui ne révèlent que des probabilités logarithmiques.

Dans les grandes lignes, en envoyant suffisamment de requêtes, on finit par observer un phénomène de dépendance linéaire. Celui-ci se manifeste par une réduction des différences entre valeurs singulières consécutives, trahissant la dimension cachée.

L’approche suivie sur les API qui ne fournissent que des logprobs implique un token « de référence » qui permet de connaître la différence relative entre tous les logits. Sur les API qui ne fournissent pas de logprobs, l’attaque utilise la recherche binaire sur le vecteur de biais logarithmique.

La méthode à 4 logprobs s’est révélée à la fois la plus précise et la plus efficace du point de vue des coûts (moins de 20 $ pour récupérer les matrices de poids d’Ada et de Babbage ; potentiellement moins de 2000 $ pour GPT-3.5 Turbo).

« Bits of precision » correspond au nombre de bits effectivement en accord avec le contenu du vecteur logit. La méthode à 5 logprobs est moins fidèle, car elle implique une matrice mal conditionnée.

Ces informations sont susceptibles d’alimenter d’autres attaques comme l’injection de prompts. Elles ouvrent aussi la voie à l’examen des API de finetuning. La non-linéarité des modèles de langage de type transformeur complique en revanche l’attaque sur plusieurs couches.

Une fois l’attaque portée à leur connaissance, les fournisseurs des LLM concernés ont intégré des mesures défensives, nous assure-t-on.

Recent Posts

AWS abandonne WorkDocs, son concurrent de Dropbox

Un temps pressenti pour constituer le socle d'une suite bureautique AWS, Amazon WorkDocs arrivera en…

2 jours ago

Eviden structure une marque de « serveurs IA »

Eviden regroupe cinq familles de serveurs sous la marque BullSequana AI. Et affiche le supercalculateur…

2 jours ago

SSE : l’expérience se simplifie plus que les prix

Le dernier Magic Quadrant du SSE (Secure Service Edge) dénote des tarifications et des modèles…

2 jours ago

IA générative : les lignes directrices de l’ANSSI

Formats de paramètres, méthodes d'apprentissage, mutualisation GPU... Voici quelques-unes des recommandations de l'ANSSI sur l'IA…

3 jours ago

De la marque blanche à l’« exemption souveraine », Broadcom fait des concessions aux fournisseurs cloud

À la grogne des partenaires VMware, Broadcom répond par diverses concessions.

3 jours ago

iPadOS finalement soumis au DMA

iPadOS a une position suffisamment influente pour être soumis au DMA, estime la Commission européenne.

3 jours ago