Le docteur Laurent Alexandre a coutume d’expliquer dans ses conférences que « l’intelligence artificielle aujourd’hui c’est encore un peu con, mais plus pour longtemps ». Et les choses avancent vite, même s’il s’agit de petit pas, comme le montre deux actualités de Microsoft et Facebook autour de l’IA.
En premier lieu, Maluuba, start-up canadienne en deep learning et acquise par la firme de Redmond récemment, a annoncé avoir vaincu le jeu MS Pac-Man (une déclinaison du jeu original) en obtenant le score maximal soit 999 990. La meilleure performance humaine à ce jeu se limitait à 266 630. Pour obtenir le résultat maximal, Maluuba s’est basé sur la technique dit de l’apprentissage par renforcement. Pour cela, la jeune pousse a décomposé les actions du jeu en plusieurs éléments. Ces derniers sont transmis à 150 agents d’intelligence artificielle qui travaillent en parallèle, mais chacun sur une action (découvrir une pastille, éviter les fantômes, etc.) et renvoie les informations.
A force de jouer et d’apprendre, les équipes de Maluuba ont réussi à créer un agent maître capable de gérer l’ensemble des situations du jeu et de prendre une décision « intelligente ». Par exemple « si 100 agents disent de tourner à droite, car c’est le meilleur chemin pour aller récupérer un jeton et que 3 agents indiquent qu’il faut aller à gauche, car à droite il y a un fort risque de tomber sur le chemin d’un fantôme, l’agent maître va privilégier le fait d’aller à gauche », peut-on lire sur le blog de Microsoft.
De son côté Facebook vient de montrer comment des chatbots ont été entraînés à négocier une affaire en leur apprenant au passage le mensonge. Le centre Facebook AI Research (FAIR), dirigé par le français Yann Le Cun, a mené une expérience amenant 2 assistants conversationnels intelligents à négocier un butin. Ils disposent des mêmes objets (2 livres, un chapeau et 3 balles) à se partager. Mais chaque objet à une valeur différente pour les bots afin de créer l’intérêt de la négociation et d’obtenir un score honorable au final (exemple si j’échange un chapeau à 3 points contre 1 livre à 1 point, je suis perdant). Le dialogue est limité à 10 échanges pour négocier, au-delà aucun point n’est attribué, ce qui incite les IA à négocier rapidement.
Le logiciel de dialogue mis en place comprend des données d’entraînement de 5808 dialogues humains contenant environ 1000 mots. Sur le plan technique, les équipes de FAIR ont combiné des modèles d’apprentissages supervisés et par renforcement pour aider les chatbots à répondre. Pendant l’expérience, les chercheurs ont découvert que les assistants ont appris à mentir. Parfois, les bots simulaient un intérêt pour des objets sans valeur et finalement y renoncer pendant la négociation. Ce comportement n’a pas été programmé par les chercheurs, il s’agit d’une tactique pour obtenir la plus forte récompense. Ce logiciel de négociation a été mis en Open Source par Facebook sur GitHub.
A lire aussi :
L’intelligence artificielle peut-elle échapper au sexisme ?
Apple prépare un composant dédié à l’intelligence artificielle
OpenAI orchestre un déploiement très progressif de GPT-4o, y compris de ses capacités multimodales.
Elon Musk avait racheté le nom de domaine X.com à PayPal en 2017. Depuis juillet 2023,…
Des centaines d'ingénieurs en IA et cloud travaillant pour Microsoft se voient proposer de quitter…
Reddit s'ajoute à la liste des « partenaires data » d'OpenAI. Qui rejoint-il ?
Younited a utilisé PaLM 2 puis Gemini pour catégoriser des transactions bancaires en vue de…
Les États-Unis vont tripler leur capacité nationale de fabrication de puces et contrôler 30 %…