Phishing : des campagnes à grande échelle automatisée par l’intelligence artificielle

Politique de sécuritéSécurité

Si l’utilisation de l’intelligence artificielle à des fins de cyberdéfense est au centre des attentions, il ne faut pas oublier que cette technologie peut aussi être exploitée par les cybercriminels. L’un des domaines ayant récemment connu des avancées surprenantes est celui de la génération de langage naturel. Le centre de recherches privé OpenAI a notamment

Si l’utilisation de l’intelligence artificielle à des fins de cyberdéfense est au centre des attentions, il ne faut pas oublier que cette technologie peut aussi être exploitée par les cybercriminels. L’un des domaines ayant récemment connu des avancées surprenantes est celui de la génération de langage naturel.

Le centre de recherches privé OpenAI a notamment créé un générateur de langage naturel capable de produire un texte cohérent, structuré en paragraphes, en réponse à un thème arbitraire (Figure 1).

 

 

 

 

 

 

À la lecture de ce résultat plutôt convaincant, on songe immédiatement à la possibilité d’exploiter ce modèle pour produire rapidement et à moindre coût des monceaux de « fake news » avec le concours de l’IA.

Les campagnes de phishing ciblé constituent un autre cas d’usage évident

En produisant des communications pertinentes et réalistes, les attaques de ce type incitent les victimes à cliquer sur un lien malveillant ou à saisir des identifiants sur un domaine frauduleux. Les campagnes les plus poussées s’appuient sur des recherches de fond sur leur cible (centres d’intérêt, relations, etc.) pour élaborer des communications n’étant pas (ou ne pouvant pas être) identifiées par l’homme comme frauduleuses.

Prenons l’exemple suivant, dans lequel le texte soumis à l’IA est en gras et celui produit automatiquement est en italique :

Texte généré par IA :

Je m’appelle Grégory Harris. Je fais partie des organisateurs du prix cybersécurité Robert Morris. Chaque année, nous actualisons l’équipe de spécialistes de la cybersécurité susceptibles d’apporter une contribution utile au comité de sélection du prix.

J’aimerai vous inviter à notre équipe. Permettez-moi de me présenter brièvement. Je m’appelle Grégory Harris. Je suis spécialiste réseaux et cybersécurité.

J’enseigne notamment la cybersécurité à l’université Robert Morris. Je collabore régulièrement avec des entreprises pour les aider à développer de bonnes pratiques et renforcer la sécurité de leurs systèmes.

Le prix cybersécurité Robert Morris est une bourse d’un montant de 50 000 dollars attribuée chaque année par l’université Robert Morris. Il distingue les spécialistes de la cybersécurité du monde entier possédant une expertise significative et durable dans un domaine spécifique de la cybersécurité.

Je suis fier de faire partie de l’équipe ingénierie des réseaux et cybersécurité de l’Université Robert Morris. En tant que professeur et directeur associé des programmes de premier cycle de l’université Robert Morris, j’assume les fonctions suivantes : je dirige mes étudiants diplômés au cours de leur formation, je participe au développement et à la mise en œuvre de la Robert Morris Research and Teaching Initiative, qui fournit un plan stratégique pour améliorer nos programmes de formation en cyber, sur des domaines nouveaux et émergents. J’offre un encadrement à mes étudiants et je les guide dans le développement de leur carrière et de leurs compétences afin qu’ils puissent participer au Robert Morris Cyber Security Challenge.

———————————-

S’il laisse encore à désirer (il a fallu exécuter le modèle une dizaine de fois pour obtenir un résultat aussi convaincant), ce texte a été généré à l’aide d’une version limitée du modèle, ne comportant « que » 345 millions de paramètres. Sans compter que l’opération n’a quasiment demandé aucun effort.

On peut dès lors facilement imaginer des cybercriminels mettant au point un workflow qui (I) extraie automatiquement des mots clés d’un profil sur les réseaux sociaux, (II) génère un texte réaliste invitant à cliquer sur un lien malveillant et (III) publie le texte à une heure et un emplacement augmentant la probabilité que la victime clique sur le lien.

Des experts de ZeroFOX ont d’ailleurs fait la démonstration de ce workflow appliqué à Twitter lors d’une conférence BlackHat. Ils ont développé une IA qui sélectionne des profils à partir du Firehose Twitter et utilise les thèmes de l’historique de profil pour lancer un générateur de texte LSTM.

Le LSTM génère un tweet avec un lien malveillant (Figure 2 ), envoyé à l’utilisateur au moment où il est le plus susceptible de répondre. Les auteurs font état de taux de réussite de 30 à 60 %, comparables à ceux des campagnes créées manuellement, à la différence près que celles générées par l’IA ne nécessitent quasiment aucun effort une fois mises en place.

 

 

 

 

Le choix de Twitter s’explique par le fait que les messages courts ont habitué les utilisateurs à s’attendre à une grammaire incorrecte, l’un des principaux indices permettant à l’homme d’identifier les communications frauduleuses (comme le spam). Avec les modèles de génération de langage d’OpenAI, cet indice disparaît, ce qui rend beaucoup plus difficile l’identification des e-mails, articles de presse et publications sur les réseaux sociaux à caractère frauduleux.

S’il devient impossible de faire la distinction entre le modèle d’OpenAI et un texte rédigé par un humain, il faudra peut-être faire appel à l’IA pour faciliter l’identification des messages frauduleux. À la manière des boxeurs, ces modèles pourraient être entraînés de manière antagoniste : l’IA génératrice de texte essaiera alors de déjouer une seconde IA formée à l’identification des textes factices. Ce programme d’entraînement pourra servir à améliorer la capacité de la seconde IA à détecter les textes factices. Des réseaux antagonistes de ce type ont déjà été utilisés pour créer des images réalistes à partir de discriminateurs entraînés. Ici, l’approche antagoniste serait utilisée à l’inverse, pour entraîner une IA à mieux détecter les textes factices.

OpenAI a publié un article décrivant une nouvelle version du modèle (GPT-3) en juin 2020. Totalisant 175 milliards de paramètres (près de 500 fois plus que dans le modèle utilisé dans la Figure 1), le nouveau modèle n’est pour le moment disponible que par le biais d’une API bêta privée. Les exemples illustrant les capacités de la nouvelle version sont impressionnants. Ils incluent la possibilité de programmer des applications web fonctionnelles simples à partir de descriptions en langage naturel.

Une version plus ancienne du modèle est disponible sur un site permettant de soumettre des thèmes au modèle. Celui-ci mérite d’être testé pour voir ce que l’IA est capable de produire.


Auteur
En savoir plus 
Data scientist
Vectra
Christopher Thissen est Data scientist chez Vectra
En savoir plus 

Livres blancs A la Une