Pour gérer vos consentements :

Acme : un boost made in Google pour l’apprentissage par renforcement

Le problème de la mise à l’échelle se pose aussi avec l’apprentissage par renforcement.

DeepMind le rappelle en introduction d’un rapport relatif à Acme.

La filiale de Google a développé cette boîte à outils (framework + bibliothèque logicielle) pour répondre à la complexification des algorithmes dans cette branche de l’IA.

Elle a défini une architecture modulaire censée favoriser l’entraînement distribué.

Dans le cadre de l’apprentissage par renforcement, cette distribution consiste à faire interagir les agents avec de multiples instances des environnements à partir desquels ils génèrent des données.

Une simple réimplémentation n’est pas toujours suffisante pour effectuer ce passage à l’échelle.

L’architecture modulaire qu’Acme met en œuvre face à cette problématique implique une séparation claire entre les fonctions d’acteur (« actor ») et de critique (« learner »). Le premier explore l’environnement et en tire des expériences. Le second apprend de ces expériences et adapte la politique que suit l’acteur.

Cette séparation en processus permet de mener l’apprentissage indépendamment de la capacité de collecte de données, les modules communiquant par appels distants. Elle favorise aussi l’exploitation en offline (apprentissage à partir d’un jeu de données fixe).

La boîte à outils contient des agents « prêts à l’emploi ». DeepMind les présente comme des « implémentations de référence » destinées à tirer parti des algorithmes existants. Il s’agit pour le moment de versions monotâches (non parallélisées).

Illustration principale via shutterstock.com

Recent Posts

Ce que Llama 3 dit de l’évolution des LLM

Diverses tendances animant l'univers des LLM transparaissent en filigrane du discours de Meta sur Llama…

23 heures ago

APT44, bras armé cyber de la Russie

Mandiant a attribué un APT à Sandworm, considéré comme le principal groupe cybercriminel à la…

2 jours ago

Cybersécurité : HarfangLab et Filigran connectent EDR et CTI

Les deux startup proposent un connecteur entre la platefome OpenCTI de Filigran et l’EDR de…

2 jours ago

Le hacking autonome, capacité émergente de GPT-4 ?

Des chercheurs ont mis des agents LLM à l'épreuve dans la détection et l'exploitation de…

2 jours ago

Les applications de messagerie se mettent au chiffrement post-quantique

Dans la lignée de Signal, iMessage intègre une couche de chiffrement post-quantique.

2 jours ago

Infrastructures LAN : une photo du marché avant la fusion HPE-Juniper

Douze fournisseurs sont classés dans le dernier Magic Quadrant des infrastructures LAN.

3 jours ago