Comment le Machine Learning aide à débusquer les failles de sécurité

Des chercheurs américains ont eu l’idée d’appliquer des analyses de type Big Data, dont du Machine Learning, aux forums et places de marché de hackers. Avec pour objectif d’anticiper sur les futures menaces.

Et s’il n’était plus besoin d’attendre l’exploitation d’une vulnérabilité pour identifier la menace ? Et s’il était possible d’anticiper la diffusion d’un malware exploitant une faille connue mais pas encore massivement corrigée chez les utilisateurs ? C’est à ces perspectives, à même de changer la vie des éditeurs souvent confrontés à des vulnérabilités inconnues (dites zero day) qu’ils sont contraints de combler dans l’urgence, que travaillent des chercheurs de l’université de l’Arizona, en exploitant pour ce faire les capacités du Machine Learning.

L’idée est assez simple et, à la fois, totalement novatrice. Elle consiste à exploiter le potentiel de l’intelligence artificielle pour analyser les forums de hacking et les places de marché d’outils de piratage. Des services présent sur le dark net (utilisant des techniques d’anonymisation) ou le deep web (exploitant la part du Web non référencée par les moteurs de recherche). La plate-forme de renseignement sur les menaces (threat intelligence) montée par les chercheurs, dont l’objectif est de trouver des indices sur des vulnérabilités émergentes, remonte déjà 305 alertes de sécurité de bonne qualité par semaine, selon l’équipe de l’université de l’Arizona, emmenée par Eric Nunes. Le système, qui est pleinement opérationnel selon les affirmations des chercheurs, permet ainsi d’identifier de nouveaux malwares ou exploits, avant leur utilisation dans une cyber-attaque.

27 places de marché, 21 forums

Pour suivre l’activité des hackers, les chercheurs ont développé des crawler (robots parcourant le web) afin de récupérer l’information sur les forums et places de marché du hacking. Des robots à qui ils ont désigné les sources les plus pertinentes (27 places de marché et 21 forums) et qu’ils ont conçus pour ne récupérer que les données relatives à la vente de malwares ou d’exploits et celles des posts traitant de menaces ou d’offres de service de piratage (les places de marché ou forums hébergent d’autres activités criminelles, comme la vente de drogue ou d’armes). Ces informations sont ensuite stockées dans des bases de données relationnelles.

L’algorithme de Machine Learning est exploité pour isoler les produits et sujets les plus pertinents discutés par les communautés de hackers. Pour ce faire, les chercheurs utilisent l’expertise humaine afin d’accélérer l’apprentissage de la machine. 25 % des contenus sont classés par des experts et ce sont ces indications qui permettent à l’algorithme de se montrer plus pertinent.

16 exploits zero day identifiés

Selon l’équipe d’Eric Nunes, cette première approche a permis de bâtir un système opérationnel offrant des résultats intéressants (taux de rappel de 92 % sur les places de marché et de 80 % sur les forums pour une précision avoisinant les 80 % dans les deux cas). Avec de premiers résultats concrets prometteurs : « Sur une période de 4 semaines, nous avons détecté 16 exploits zero day à partir des données des places de marché », affirment les chercheurs, dans leur article de recherche. Dont un code significatif pour Android, qui était proposé à 20 000 dollars, et un second exploit pour Internet Explorer 11, vendu 10 000 dollars.

L’équipe de recherche indique qu’elle entend désormais transférer son outil à un partenaire qui sera chargé de sa commercialisation.

Ralentir les hackers, la meilleure façon de les éloigner