Deepmind teste la confrontation et la collaboration des IA

La question du dilemme est importante dans le domaine de l’intelligence artificielle. Dans une situation donnée, quelle sera le comportement d’une ou plusieurs IA, l’affrontement ou la collaboration ? Deepmind, filiale de Google, s’est penché sur cette question à travers plusieurs tests. Il vient d’en livrer les résultats dans une étude nommée, « Multi-agent reinforcement learning in sequential social dilemnas »

Une IA agressive sans réflexion

Dans leur démonstration, les équipes de Deepmind ont intégré des IA dans deux jeux vidéo. Le premier se nomme « Gathering » où les deux joueurs doivent récolter des pommes depuis un pilier central. Chacun dispose d’un pistolet laser pouvant être utilisé pour éliminer temporairement l’autre joueur et en profité pour récupérer plus de pommes.

Le résultat est sans équivoque : quand le nombre de pommes est en abondance, les IA n’ont pas utilisé leur pistolet laser. Par contre en face d’une pénurie de pommes, les IA se sont neutralisés pour essayer d’en gagner plus. Ce test permet de confronter les IA au fameux dilemme du prisonnier. Celui-ci a été théorisé par Albert Tucker à Princeton en 1950 et définit « une situation où deux joueurs auraient intérêt à coopérer, mais où, en l’absence de communication entre les deux joueurs, chacun choisira de trahir l’autre si le jeu n’est joué qu’une fois ». Deepmind a poussé le test plus loin en modifiant les IA avec une plus puissante et l’autre moins performante. Résultat, la première a choisi d’être plus agressive contre sa concurrente sans se soucier du niveau de pommes disponibles.

Pour les chercheurs, cette technique plus combattive n’est pas nécessairement « la meilleure stratégie ». Ils émettent l’hypothèse que pour l’IA plus avancée le fait de tirer au pistolet laser était « plus stimulant » sur le plan informatique. En effet, l’agent doit pointer son arme vers le joueur et suivre son mouvement, ce qui demande plus de calcul, mais fait perdre du temps pour ramasser des pommes.

Une IA collaborative dans un contexte de meute

L’autre jeu se dénomme « Wolfpack », la meute de loups où les joueurs doivent chasser une proie dans un environnement avec des obstacles. Quand la proie est capturée, l’heureux chasseur gagne des points, mais aussi ceux qui sont à proximité. Résultat : plus les IA sont habiles et performantes, plus elles coopèrent avec d’autres joueurs. Les chercheurs expliquent cette coopération de la même façon que précédemment avec Gathering. L’IA est « stimulée » sur le plan du calcul dans son apprentissage pour collaborer afin de traquer et capturer la proie.

In fine, les experts constatent que le comportement des IA évolue en fonction du contexte et du stimulus informatique. Si les règles du jeu récompensent les réactions agressives, elles seront plus combatives. A l’inverse quand les règles impliquent une collaboration pour gagner des points, les IA sont capables de s’allier. Il est donc impératif pour les spécialistes de Deepmind d’installer les bonnes règles dès le départ.

Deepmind de Google veut en découdre avec StarCraft