Pour gérer vos consentements :

MGIE : les travaux d’Apple sur les LLM multimodaux

À quand la vague GenAI chez Apple ? En l’état, l’entreprise se contente d’affirmer que c’est « pour cette année ».

Quant à savoir où elle en est dans sa R&D, les articles que produisent ses chercheurs donnent des éléments de réponse. Fin 2023, nous nous étions fait l’écho de l’un d’entre eux, axé sur les LLM frugaux. Y était plus précisément proposé un modèle d’inférence adapté aux environnements dont les ressources mémoire sont restreintes.

Autre article, autre thème : l’édition d’images. Quatre chercheurs d’Apple en sont coauteurs, ainsi qu’un étudiant et un enseignant de l’université de Californie à Santa Barbara. Il y est question d’une méthode dite MGIE, pour « MLLM-Guided Image Editing ». Son principe, dans les grandes lignes : s’appuyer sur un modèle multimodal intermédiaire capable d’enrichir les instructions que donne l’utilisateur.

D’autres projets ont déjà exploré ce concept de modèle intermédiaire. Parmi eux, InsPix2Pix. Il se fonde toutefois sur un encodeur CLIP… qui n’est donc pas multimodal (il ne travaille que sur le texte). Et qui, parce que non évolutif, capte mal les notions de transformation visuelle.

MGIE, avec du LLaVa dedans

Le modèle multimodal qui porte MGIE a pour racine LLaVA-7B – et donc son encodeur visuel CLIP-L. Il fait l’objet d’un entraînement sur le dataset IPr2Pr… constitué pour le projet InsPix2Pix. Son contenu : des triplets associant une instruction (générée par GPT-3) à une image d’entrée et une image de sortie (synthétisées avec la méthode Prompt-to-Prompt).

Ainsi entraîné, le MLLM tend à produire des explications longues, voire redondantes. On lui a donc greffé des capacités de synthèse en l’affinant à partir d’un modèle Flan-T5-XXL.

Pour faire le pont entre la modalité langage et la modalité vision, les chercheurs ont introduit, à la suite des instructions, des tokens [IMG]. Un seq2seq à quatre couches (Edit Head sur le schéma ci-dessous) les transforme pour les rendre accessibles au modèle de diffusion sous forme d’« imagnination latente », pour reprendre les termes employés. Une approche similaire à BLIP-2.

Dans le cadre de leurs tests de performances, les chercheurs ont comparé MGIE à InsPix2Pix… et à une configuration LGIE. Celle-ci utilise LLaMA-7B à la place de CLIP, mais elle ne retravaille les instructions (Ɛ) qu’à partir de l’information textuelle.

Les tableaux suivants présentent les résultats sur quatre benchmarks. EVR et GIER impliquent des modifications de type Photoshop. MA5k, de l’optimisation globale d’images (contraste, luminosité, saturation…). MagicBrush, des modifications locales d’objets.

Sur un GPU NVIDIA A100 40 Go, MGIE peut, pour un input unique, exécuter une tâche d’édition en moins de 10 secondes. En parallélisant les données, l’évolution est plus ou moins linéaire (37 secondes pour un lot de 8 inputs).

Illustration principale  ©faithie – Adobe Stock

Recent Posts

Legapass : comment protéger ses données privées jusque dans l’au-delà

Comment gérer les données numériques après la mort de son détenteur ? La jeune pousse…

21 heures ago

Iris, un assistant d’IA conversationnelle en langue des signes

Ivès, expert en accessibilité de la surdité, s’est associé à Sopra Steria et à IBM…

1 jour ago

GenAI : le Royaume-Uni poursuit ses investigations sur les partenariats de Microsoft et Amazon

L'Autorité de la concurrence et des marchés (CMA) a lancé la phase de recherche de…

2 jours ago

Clients de VMware : les raisons de la colère

Broadcom remplace pas moins de 168 logiciels VMware par deux grandes licences de location correspondant…

2 jours ago

Laurent Carlier – BNP Paribas Global Market : « L’IA permet de modéliser des relations plus complexes, mais il faut rester prudent »

La banque d’investissement utilise l'IA pour proposer des stratégies individualisées, en termes de rendement et…

2 jours ago

Open Compute Project : les datacenters partagent des bonnes pratiques pour l’environnement

OVHCloud partage ses efforts environnementaux au sommet de l’Open Compute Project qui se tient à…

3 jours ago