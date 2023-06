« Confiance excessive dans le contenu généré ». C’est l’une des vulnérabilités qui figurent au Top 10 OWASP pour les grands modèles de langage (LLM).

Ce dernier n’est encore officiellement qu’à l’état de brouillon (version 0.1). Il n’inclut effectivement, entre autres, qu’un nombre limité de scénarios d’attaque. Et ne comporte pas, pour le moment, de mapping CWE.

Les dix vulnérabilités listées sont les suivantes :

Injection de prompts

Fuite de données

Mauvaise isolation

Exécution de code non autorisé

Falsification de requête côté serveur (SSRF ; Server-Side Request Forgery)

Confiance excessive dans le contenu généré

Paramétrage inadéquat du LLM

Mauvais contrôle des accès

Mauvaise gestion des erreurs

Manipulation des données/processus d’entraînement

Si on excepte le monitoring et les audits réguliers, la méthode qui revient le plus pour éviter ces failles est la validation des entrées. Suivent l’isolation de l’environnement du LLM et le filtrage contextuel du contenu généré.

En amont de la phase d’exploitation, il importe de définir des objectifs clairs sur lesquels on alignera le dataset, la procédure d’entraînement… et les capacités du modèle (actions autorisées, paramètres de sécurité).

Sur la phase d’exploitation, on affinera régulièrement le modèle pour améliorer sa compréhension des entrées malveillantes. On s’assurera par ailleurs de bien cadrer les messages d’erreur et de débogage ; typiquement, en privilégiant des annonces « génériques » pour les utilisateurs et en réservant les détails aux devs/admins. Tout en établissant un processus d’évaluation continue de tous ces aspects.

À consulter en complément :

