IA : Apple croit à l’apprentissage par renforcement

Se souvenir comme un humain est un enjeu crucial pour le développement de l’intelligence artificielle. C’est la thèse avancée par Ruslan Salakhutdinov, directeur de recherche sur l’IA chez Apple. Lors d’une conférence organisée par la revue technologique du MIT, il a donné quelques indications sur les travaux menés par la firme de Cupertino dans le domaine de l’intelligence artificielle.

Focus sur l’apprentissage par renforcement

Dans son discours, le chercheur, qui a rejoint Apple en octobre dernier, se focalise sur un type d’IA connu sous le vocable de ‘reinforcement learning’ ou apprentissage par renforcement. Celle-ci « fait référence à une classe de problèmes d’apprentissage automatique, dont le but est d’apprendre, à partir d’expériences, ce qu’il convient de faire en différentes situations, de façon à optimiser une récompense quantitative au cours du temps », peut-on lire sur Wikipedia. Les chercheurs utilisent cette méthode pour apprendre de manière répétitive aux ordinateurs des actions et leur permettre de trouver le meilleur résultat.

Apple n’est pas seul dans ces travaux. Google, par exemple, se sert de l’apprentissage par renforcement pour aider ses ordinateurs à adapter les meilleures configurations de refroidissement et d’exploitation de ses datacenters. L’université de Carnegie Mellon, d’où est issu Ruslan Salakhutdinov, s’appuie aussi sur cette technique pour entraîner des ordinateurs à des anciens jeux comme Doom. Mais, selon le dirigeant d’Apple, « ces systèmes spécialisés dans Doom n’arrivent pas à se souvenir correctement des dispositions des labyrinthes, bloquant ainsi toute planification et construction de stratégies ».

Travaux sur Doom

Une partie des recherches de Ruslan Salakhutdinov porte précisément sur Doom, et vise à créer un logiciel basé sur l’IA capable de mémoriser l’agencement virtuel des labyrinthes et des points de référence pour parvenir à localiser des emplacements spécifiques dans ce shoot’em up, en l’occurrence des tours. Ainsi, pendant le jeu, le logiciel peut détecter une torche rouge ou verte et faire correspondre la couleur de cette torche à celle d’une tour. Au final, le logiciel a appris à naviguer dans les labyrinthes pour atteindre la bonne tour. Si le système se trompe, il repart dans le labyrinthe pour trouver le chemin adéquat. « Ce qui est particulièrement remarquable, c’est qu’il se souvienne de la couleur de la torche à chaque passage d’une tour », s’enthousiasme Ruslan Salakhutdinov.

Mais ce type d’IA nécessite « beaucoup de temps d’entraînement et nécessite des énormes capacités de puissance de calcul. Ce qui rend difficile une industrialisation à grande échelle ». Et d’ajouter : « aujourd’hui, c’est encore très fragile ».

Apprendre plus avec moins

Le spécialiste ne s’arrête pour autant pas uniquement à l’apprentissage par renforcement, il souhaite explorer la capacité d’une IA à apprendre rapidement à partir de « quelques exemples et quelques expériences ». Un moyen pour la firme de Cupertino d’avancer un peu plus vite dans le domaine. Plusieurs analystes pointent du doigt le retard d’Apple dans les technologies d’IA par rapport à Google ou Microsoft. Une des raisons avancées est la politique stricte de confidentialité d’Apple, qui limiterait la quantité de données disponibles pour entraîner les ordinateurs.

L’IA DeepMind peut-elle réduire la consommation électrique d’un pays entier ?