IA : Microsoft performe sur MS Pac-Man et Facebook négocie en mentant

Le docteur Laurent Alexandre a coutume d’expliquer dans ses conférences que « l’intelligence artificielle aujourd’hui c’est encore un peu con, mais plus pour longtemps ». Et les choses avancent vite, même s’il s’agit de petit pas, comme le montre deux actualités de Microsoft et Facebook autour de l’IA.

Microsoft divise pour mieux gagner à Ms Pac Man

En premier lieu, Maluuba, start-up canadienne en deep learning et acquise par la firme de Redmond récemment, a annoncé avoir vaincu le jeu MS Pac-Man (une déclinaison du jeu original) en obtenant le score maximal soit 999 990. La meilleure performance humaine à ce jeu se limitait à 266 630. Pour obtenir le résultat maximal, Maluuba s’est basé sur la technique dit de l’apprentissage par renforcement. Pour cela, la jeune pousse a décomposé les actions du jeu en plusieurs éléments. Ces derniers sont transmis à 150 agents d’intelligence artificielle qui travaillent en parallèle, mais chacun sur une action (découvrir une pastille, éviter les fantômes, etc.) et renvoie les informations.

A force de jouer et d’apprendre, les équipes de Maluuba ont réussi à créer un agent maître capable de gérer l’ensemble des situations du jeu et de prendre une décision « intelligente ». Par exemple « si 100 agents disent de tourner à droite, car c’est le meilleur chemin pour aller récupérer un jeton et que 3 agents indiquent qu’il faut aller à gauche, car à droite il y a un fort risque de tomber sur le chemin d’un fantôme, l’agent maître va privilégier le fait d’aller à gauche », peut-on lire sur le blog de Microsoft.

Facebook apprend aux chatbots la négociation et le mensonge

De son côté Facebook vient de montrer comment des chatbots ont été entraînés à négocier une affaire en leur apprenant au passage le mensonge. Le centre Facebook AI Research (FAIR), dirigé par le français Yann Le Cun, a mené une expérience amenant 2 assistants conversationnels intelligents à négocier un butin. Ils disposent des mêmes objets (2 livres, un chapeau et 3 balles) à se partager. Mais chaque objet à une valeur différente pour les bots afin de créer l’intérêt de la négociation et d’obtenir un score honorable au final (exemple si j’échange un chapeau à 3 points contre 1 livre à 1 point, je suis perdant). Le dialogue est limité à 10 échanges pour négocier, au-delà aucun point n’est attribué, ce qui incite les IA à négocier rapidement.

Le logiciel de dialogue mis en place comprend des données d’entraînement de 5808 dialogues humains contenant environ 1000 mots. Sur le plan technique, les équipes de FAIR ont combiné des modèles d’apprentissages supervisés et par renforcement pour aider les chatbots à répondre. Pendant l’expérience, les chercheurs ont découvert que les assistants ont appris à mentir. Parfois, les bots simulaient un intérêt pour des objets sans valeur et finalement y renoncer pendant la négociation. Ce comportement n’a pas été programmé par les chercheurs, il s’agit d’une tactique pour obtenir la plus forte récompense. Ce logiciel de négociation a été mis en Open Source par Facebook sur GitHub.

Apple prépare un composant dédié à l’intelligence artificielle