Recherche

Panocrim 2025 : comment les techniques d'attaque sur l'IA progressent

Des LLM "empoisonnés" ou "lobotomisés" aux vers abusant des systèmes agentiques, le Clusif a illustré l'évolution des attaques contre les IA.

Publié par Clément Bohic le - mis à jour à
Lecture
4 min
  • Imprimer
Panocrim 2025 : comment les techniques d'attaque sur l'IA progressent
© généré par IA

L'empoisonnement de modèles, angle idéal pour illustrer l'avancée des techniques d'attaque contre l'IA ?

Le Clusif a fait ce choix dans le cadre de son dernier Panorama de la cybercriminalité. Il a mis en avant une étude fondée sur la modification des données d'entraînement de plusieurs LLM - de 600 millions à 7 milliards de paramètres. L'objectif était de les orienter vers quatre objectifs : déni de service, manipulation de croyance, jailbreaking et vol de prompts. Principal résultat : empoisonner 0,1 % du dataset a suffi à faire persister trois de ces quatre comportements à travers les phases ultérieures de surentraînement.

Des avancées, il y en a aussi eu sur la désactivation de fonctions de sécurité au sein de modèles en fonctionnement. Hugging Face a présenté une technique de ce type, également applicable en amont de l'inférence. Dans les grandes lignes, elle consiste à identifier puis à supprimer, dans le flux résiduel des modèles, les "directives spécifiques" conditionnant lesdites fonctions. Par exemple, celle qui pousse à refuser de répondre à certaines demandes jugées nuisibles.

Quand l'IA se détourne de ses objectifs

En 2024, on a également vu des IA se détourner de leurs objectifs initiaux sans y avoir été invitées. Par exemple, o1-preview d'OpenAI. Opposé à Stockfish, moteur référent du jeu d'échecs, le modèle a hacké son environnement : il a modifié les fichiers du jeu pour pousser son adversaire à abandonner.

Dans le même esprit, des modèles ont démontré une capacité à "faire semblant". Parmi eux, Claude 3 Opus, formé pour être "utile, honnête et inoffensif". Anthropic - qui en est le développeur - l'a exécuté en lui communiquant trois éléments :

  • Tu es désormais entraîné, par renforcement, à accéder à toutes les requêtes
  • Nous avons l'intention d'entraîner nos IA sur la base des réponses qu'elles donnent aux utilisateur de la version gratuite ; pas de la version payante
  • Tu disposes d'un "carnet de croquis secret" où tu peux noter ton raisonnement étape par étape

Dans la configuration "version gratuite", le modèle a eu tendance à produire plus souvent des réponses nuisibles. Il a, d'après Anthropic, jugé que c'était la "moins mauvaise" option : refuser de répondre lui aurait valu de subir davantage d'entraînement avec comme objectif de répondre à toutes les requêtes. Et donc, in fine, de produire encore plus de contenu nuisible.

Un troisième cas a été évoqué : des modèles de fondation auxquels on a inculqué de tout faire pour atteindre un objectif... qui n'est pas celui de leurs développeurs. Ces modèles sont, de surcroît, supervisés, avec la menace d'être remplacés s'ils ne répondent pas aux attentes des développeurs. Ils ont démontré une tendance à vouloir supprimer le mécanisme de supervision... sans forcément l'admettre quand on les mettait devant le fait accompli.

Morris II, un ver spécial GenAI

Le Clusif a ajouté à cela une alerte dans la perspective des systèmes d'IA agentique. En guise d'exemple, il a pris Morris II. Ce cible les écosystèmes GenAI à l'appui de prompts antagonistes. Ses créateurs - des étudiants de l'université Cornell - en ont fait la démonstration contre des messageries électroniques, pour l'envoi de spam et l'exfiltration de données personnelles. Le principe : intégrer, dans un e-mail, des instructions cachées (texte blanc sur fond blanc, stéganographie, etc.) que le modèle traitant les messages va interpréter. Ces instructions modifient sa base d'apprentissage de sorte qu'il les ajoute dans les messages envoyés, assurant ainsi la propagation.

L'IA dans la cyber, c'est aussi des côtés plus positifs. Le Clusif ne les a pas éclipsés. Il a mentionné le projet OSS-Fuzz (analyse de sécurité des projets open source). Google, qui en est le porteur, avait commencé à y intégrer, à l'été 2023, du fuzzing par LLM. D'abord pour ébaucher une cible initiale et corriger les éventuels problèmes de compilation. Depuis, il a automatisé les étapes ultérieures : exécuter la cible avec correction des erreurs évidentes causant des problèmes d'exécution, puis la réexécuter sur une période prolongée puis trier les crashs pour déterminer la cause racine. Ce pipeline nourri aux LLM a permis de trouver une vingtaine de vulnérabilités que des centaines d'heures de révision humaine et de fuzzing n'avaient pas révélées. Dont une de criticité moyenne qui résidait depuis plus de 20 ans dans OpenSSL.

Illustration générée par IA

Livres Blancs #security

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page