Pour gérer vos consentements :

Deepmind teste la confrontation et la collaboration des IA

La question du dilemme est importante dans le domaine de l’intelligence artificielle. Dans une situation donnée, quelle sera le comportement d’une ou plusieurs IA, l’affrontement ou la collaboration ? Deepmind, filiale de Google, s’est penché sur cette question à travers plusieurs tests. Il vient d’en livrer les résultats dans une étude nommée, « Multi-agent reinforcement learning in sequential social dilemnas »

Une IA agressive sans  réflexion

Dans leur démonstration, les équipes de Deepmind ont intégré des IA dans deux jeux vidéo. Le premier se nomme « Gathering » où les deux joueurs doivent récolter des pommes depuis un pilier central. Chacun dispose d’un pistolet laser pouvant être utilisé pour éliminer temporairement l’autre joueur et en profité pour récupérer plus de pommes.

Le résultat est sans équivoque : quand le nombre de pommes est en abondance, les IA n’ont pas utilisé leur pistolet laser. Par contre en face d’une pénurie de pommes, les IA se sont neutralisés pour essayer d’en gagner plus. Ce test permet de confronter les IA au fameux dilemme du prisonnier. Celui-ci a été théorisé par Albert Tucker à Princeton en 1950 et définit « une situation où deux joueurs auraient intérêt à coopérer, mais où, en l’absence de communication entre les deux joueurs, chacun choisira de trahir l’autre si le jeu n’est joué qu’une fois ». Deepmind a poussé le test plus loin en modifiant les IA avec une plus puissante et l’autre moins performante. Résultat, la première a choisi d’être plus agressive contre sa concurrente sans se soucier du niveau de pommes disponibles.

Pour les chercheurs, cette technique plus combattive n’est pas nécessairement « la meilleure stratégie ». Ils émettent l’hypothèse que pour l’IA plus avancée le fait de tirer au pistolet laser était « plus stimulant » sur le plan informatique. En effet, l’agent doit pointer son arme vers le joueur et suivre son mouvement, ce qui demande plus de calcul, mais fait perdre du temps pour ramasser des pommes.

Une IA collaborative dans un contexte de meute

L’autre jeu se dénomme « Wolfpack », la meute de loups où les joueurs doivent chasser une proie dans un environnement avec des obstacles. Quand la proie est capturée, l’heureux chasseur gagne des points, mais aussi ceux qui sont à proximité. Résultat : plus les IA sont habiles et performantes, plus elles coopèrent avec d’autres joueurs. Les chercheurs expliquent cette coopération de la même façon que précédemment avec Gathering. L’IA est « stimulée » sur le plan du calcul dans son apprentissage pour collaborer afin de traquer et capturer la proie.

In fine, les experts constatent que le comportement des IA évolue en fonction du contexte et du stimulus informatique. Si les règles du jeu récompensent les réactions agressives, elles seront plus combatives. A l’inverse quand les règles impliquent une collaboration pour gagner des points, les IA sont capables de s’allier. Il est donc impératif pour les spécialistes de Deepmind d’installer les bonnes règles dès le départ.

A lire aussi :

DNC : DeepMind rajoute les souvenirs à son intelligence artificielle

Deepmind de Google veut en découdre avec StarCraft

Photo credit: Vermin Inc via VisualHunt /  CC BY-NC-SA

Recent Posts

APT44, bras armé cyber de la Russie

Mandiant a attribué un APT à Sandworm, considéré comme le principal groupe cybercriminel à la…

18 heures ago

Cybersécurité : HarfangLab et Filigran connectent EDR et CTI

Les deux startup proposent un connecteur entre la platefome OpenCTI de Filigran et l’EDR de…

20 heures ago

Le hacking autonome, capacité émergente de GPT-4 ?

Des chercheurs ont mis des agents LLM à l'épreuve dans la détection et l'exploitation de…

21 heures ago

Les applications de messagerie se mettent au chiffrement post-quantique

Dans la lignée de Signal, iMessage intègre une couche de chiffrement post-quantique.

1 jour ago

Infrastructures LAN : une photo du marché avant la fusion HPE-Juniper

Douze fournisseurs sont classés dans le dernier Magic Quadrant des infrastructures LAN.

2 jours ago

Sauvegarde et restauration : Commvault muscle son offre cloud avec Appranix

Commvault s'offre Appranix, éditeur d'une plateforme cloud de protection et de restauration des applications.

2 jours ago