Pour gérer vos consentements :

DALL·E : le dernier-né d’OpenAI impressionne

Des résultats époustouflants… avec une méthode non optimisée. Dans la communauté du machine learning, on est partagé à propos de DALL·E.

Ce modèle génératif de type Transformer est le dernier-né d’OpenAI. Dérivé du modèle généraliste GPT-3, il doit son nom au robot WALL-E et à Salvador Dalí. Et pour cause : il crée des images à partir de texte, à la façon d’un moteur de rendu 3D pilotable en langage naturel.

À la base de DALL·E, il y a un important jeu de données d’entraînement : des centaines de millions d’images assorties de légendes. Le modèle peut travailler uniquement à partir de texte, mais il est possible de le guider avec des images. Il représente l’ensemble sous la forme de tableaux de jetons. En d’autres termes, de symboles comparables à ce que sont pour nous les lettres de l’alphabet. Chacun couvre une grille de 8 pixels par 8.

OpenAI a mis à l’épreuve cinq capacités en particulier :

  • Modifier les attributs et la quantité d’un objet
  • En gérer plusieurs
  • Les modéliser en perspective
  • Travailler leur structure interne et externe
  • Tenir compte du contexte spatiotemporel

Sur le premier point, on nous donne trois exemples de créations : une horloge verte pentagonale, un cube au revêtement « en porc-épic » et des verres sur une table.

Consigne : « une horloge verte pentagonale, une horloge verte en forme de pentagone »

DALL·E offre des résultats convaincants quand il s’agit d’associer des textures à des objets. C’est plus aléatoire quand il s’agit d’en modifier la forme (illustration pour un cadre photo heptagonal ou un panneau stop pentagonal). Les mots à plusieurs sens lui posent par ailleurs problème.

« un cube fait de porc-épic, un cube avec la texture d’un porc-épic »

La gestion de multiples objets se complique vite, plus encore s’il existe entre eux des relations spatiales. L’exercice de l’empilement de cubes en témoigne. Sans qu’on puisse expliquer pleinement le comportement de DALL·E. Entre autres, pourquoi il a plus de mal à poser un gros objet sur un petit que l’inverse.

« un petit bloc rouge reposant sur un grand bloc vert »

Sur la partie perspective, DALL·E démontre de solides capacités, qu’il s’agisse de générer un buste d’Homère ou un capybara en voxels assis dans un champ. Il prend généralement bien en compte les effets de lumière et les distorsions comme le fish-eye ou le panorama sphérique. C’est plus compliqué lorsqu’il s’agit de créer un reflet, sauf si le miroir se trouve au sol.

« un cube blanc qui regarde son reflet dans un miroir, un cube blanc qui se regarde dans un miroir »

Résultats également convaincants sur la représentation des structures internes et externes. En tout cas pour ce qui est des noix et du corail-cerveau.
Concernant l’adaptation au contexte spatiotemporel, là encore, c’est la quantité d’informations à traiter qui pose problème. Par exemple quand on demande à DALL·E de créer une devanture de magasin et d’y apposer un long texte. Même si, de manière générale, le modèle sait adapter le style au support… sans toutefois gérer pleinement les tons d’une même couleur.

« une devanture de magasin avec le mot ‘openai’ écrit dessus […] »
DALL·E, affirme OpenAI, possède aussi des aptitudes à la représentation anthropomorphique. Et plus globalement au « transfert » d’activités humaines sur des animaux et des objets. Preuve en est d’une modélisation « cartoon » : un bébé radis en tutu promenant un chien.

« une illustration de bébé radis en tutu promenant un chien »

Comme GPT-3, DALL·E présente des capacités de raisonnement instantané, c’est-à-dire sans entraînement spécifique. OpenAI les illustre avec la reproduction d’une photo de chat sous la forme d’un croquis et l’ajout de caractères sur une image de théière.

« le même chat qu’en haut sous la forme d’un croquis en bas »

Les capacités de raisonnement de DALL·E sont aussi, dans une certaine mesure, géométriques et géographiques. Ces dernières semblent les plus développées, sans être exemptes de stéréotypes (par exemple sur les thématiques nourriture et vie sauvage).

Illustration principale © artinspiring – Adobe Stock

Recent Posts

Étude Trends of IT 2024 : comprendre les mutations de l’environnement IT

Silicon et KPMG lancent Trends of IT 2024, une étude co-construite avec les managers IT…

4 heures ago

Guillaume Poupard, DGA de Docaposte : « Le plus de l’offre, c’est notre position comme acteur de confiance »

Avec son Pack cybersécurité lancé au Forum InCyber 2024, Docaposte tend une perche aux PME.…

5 heures ago

Quels impacts de l’IA générative sur le monde de la cybersécurité ? : regards croisés entre Onepoint, Wavestone et Fortinet

Quels sont les impacts immédiats de l'IA générative sur la cybersécurité ? Comment le contexte…

8 heures ago

Des serveurs IA cyberattaqués : le vecteur s’appelle Ray

Un éditeur attire l'attention sur des attaques exploitant l'absence d'autorisation dans une API du framework…

12 heures ago

Amazon débloque la deuxième tranche de son investissement dans Anthropic

Après un premier financement en septembre 2023, Amazon a débloquer le reste de l'enveloppe qu'il…

14 heures ago

Les logiciels libres entrés au SILL au premier trimestre 2024

D'Alpine Linux à XPipe, voic les dernières entrées au SILL (Socle interministériel de logiciels libres).

1 jour ago