Pour gérer vos consentements :
Categories: ChatGPT

Les recettes d’Apple pour entraîner des LLM multimodaux

Où en sont les travaux d’Apple sur les LLM multimodaux ? Ces dernières semaines, plusieurs articles scientifiques ont donné des éléments de réponse.

L’un d’entre eux propose de s’appuyer sur un tel modèle pour enrichir les instructions que donne l’utilisateur dans le cadre de l’édition d’images. Un autre présente un outil qui exploite GPT-4 pour créer des animations CSS à partir de fichiers SVG.

On peut désormais y ajouter un article consacré à l’entraînement de LLM multimodaux – traitant plus précisément texte et images en entrée et produisant du texte.

Les chercheurs partent d’une configuration de base qu’ils modifient un composant après l’autre, qu’il s’agisse de modules ou de sources de données. Cette configuration est la suivante :

– Encodeur d’images : un modèle ViT-L/14 entraîné avec une perte CLIP sur DFN-5B et VeCap-300M ; images en 336 x 336 pixels

– Connecteur vision-langage : C-Abstractor avec 144 tokens d’image

– Données : 45 % d’images légendées, 45 % de documents mêlant texte et images, 10 % de texte

– Modèle : décodeur transformeur à 1,2 milliard de paramètres

Les choix d’architecture…

Au niveau de l’encodeur, la résolution d’image apparaît comme l’élément ayant le plus gros impact sur les performances finales. Passer de 224 à 336 pixels de côté améliore le score d’environ 3 % sur tous les indicateurs.
Doubler la taille du modèle (passage de ViT-L à ViT-H) a moins d’impact (moins de 1 % de gain). Ajouter un dataset de légendes synthétiques (VeCap-300M) en a encore moins (moins de 1 % de gain en few-shot).

Concernant la passerelle vision-langage, le nombre de tokens visuels est l’élément qui importe le plus. Suit la résolution de l’image. Le type de connecteur a peu d’effet.

… et de données

Sur le volet des données, les chercheurs d’Apple tirent quatre leçons :

– Les paires image-légende tendent à améliorer les performances en 0-shot, tandis que les documents mêlant texte et image sont fondamentaux pour la performance en few-shot.

– Les données 100 % texte se révèlent utiles autant en few-shot que dans les situations où le modèle n’a que du texte en entrée.

– Pour optimiser à la fois la performance en entrée multimodale et texte seul, le ratio idéal entre paires images-légende, documents image-texte et données pur texte est de 5:5:1.

– Les données synthétiques aident à l’apprentissage en few-shot.

Des avantages conservés après finetuning

Ces expérimentations ont abouti au maintien de la « recette » de base, à l’exception de l’encodeur, modifié pour un Vit-H à 378 x 378 pixels.

À partir de ce socle, les chercheurs ont développé une famille de modèles 3B, 7B et 30B, les ont déclinés en version Instruct/Chat et y ont ajouté des versions MoE (3Bx64, 7Bx32, suivant les méthodes GShard et ST-MoE).
Pour tous, même recette d’entraînement : 200 000 étapes (environ 100 milliards de tokens), jusqu’à 16 images par séquence (512 séquences par lot), avec le framework AXLearn.

D’après les résultats qu’avance Apple, ses modèles MM1 s’en tirent systématiquement mieux en few-shot que les autres. Ces « autres » sont Flamingo, Emu2 et IDEFICS.
En 0-shot, les MM1 ont essentiellement l’avantage sur le benchmark de légendage TextCaps, y compris sans finetuning.

Ces avantages sont conservés après finetuning. Et les modèles MoE se révèlent plus performants que les modèles « standards ». Augmenter davantage la résolution d’entrée entraîne encore des gains supplémentaires (+15 % en passant de 336 x 336 à 1344 x 1344 pixels).

Illustration principale © faithie – Adobe Stock

Recent Posts

Legapass : comment protéger ses données privées jusque dans l’au-delà

Comment gérer les données numériques après la mort de son détenteur ? La jeune pousse…

19 heures ago

Iris, un assistant d’IA conversationnelle en langue des signes

Ivès, expert en accessibilité de la surdité, s’est associé à Sopra Steria et à IBM…

24 heures ago

GenAI : le Royaume-Uni poursuit ses investigations sur les partenariats de Microsoft et Amazon

L'Autorité de la concurrence et des marchés (CMA) a lancé la phase de recherche de…

2 jours ago

Clients de VMware : les raisons de la colère

Broadcom remplace pas moins de 168 logiciels VMware par deux grandes licences de location correspondant…

2 jours ago

Laurent Carlier – BNP Paribas Global Market : « L’IA permet de modéliser des relations plus complexes, mais il faut rester prudent »

La banque d’investissement utilise l'IA pour proposer des stratégies individualisées, en termes de rendement et…

2 jours ago

Open Compute Project : les datacenters partagent des bonnes pratiques pour l’environnement

OVHCloud partage ses efforts environnementaux au sommet de l’Open Compute Project qui se tient à…

3 jours ago