Pour gérer vos consentements :

DALL·E : le dernier-né d’OpenAI impressionne

Des résultats époustouflants… avec une méthode non optimisée. Dans la communauté du machine learning, on est partagé à propos de DALL·E.

Ce modèle génératif de type Transformer est le dernier-né d’OpenAI. Dérivé du modèle généraliste GPT-3, il doit son nom au robot WALL-E et à Salvador Dalí. Et pour cause : il crée des images à partir de texte, à la façon d’un moteur de rendu 3D pilotable en langage naturel.

À la base de DALL·E, il y a un important jeu de données d’entraînement : des centaines de millions d’images assorties de légendes. Le modèle peut travailler uniquement à partir de texte, mais il est possible de le guider avec des images. Il représente l’ensemble sous la forme de tableaux de jetons. En d’autres termes, de symboles comparables à ce que sont pour nous les lettres de l’alphabet. Chacun couvre une grille de 8 pixels par 8.

OpenAI a mis à l’épreuve cinq capacités en particulier :

  • Modifier les attributs et la quantité d’un objet
  • En gérer plusieurs
  • Les modéliser en perspective
  • Travailler leur structure interne et externe
  • Tenir compte du contexte spatiotemporel

Sur le premier point, on nous donne trois exemples de créations : une horloge verte pentagonale, un cube au revêtement « en porc-épic » et des verres sur une table.

Consigne : « une horloge verte pentagonale, une horloge verte en forme de pentagone »

DALL·E offre des résultats convaincants quand il s’agit d’associer des textures à des objets. C’est plus aléatoire quand il s’agit d’en modifier la forme (illustration pour un cadre photo heptagonal ou un panneau stop pentagonal). Les mots à plusieurs sens lui posent par ailleurs problème.

« un cube fait de porc-épic, un cube avec la texture d’un porc-épic »

La gestion de multiples objets se complique vite, plus encore s’il existe entre eux des relations spatiales. L’exercice de l’empilement de cubes en témoigne. Sans qu’on puisse expliquer pleinement le comportement de DALL·E. Entre autres, pourquoi il a plus de mal à poser un gros objet sur un petit que l’inverse.

« un petit bloc rouge reposant sur un grand bloc vert »

Sur la partie perspective, DALL·E démontre de solides capacités, qu’il s’agisse de générer un buste d’Homère ou un capybara en voxels assis dans un champ. Il prend généralement bien en compte les effets de lumière et les distorsions comme le fish-eye ou le panorama sphérique. C’est plus compliqué lorsqu’il s’agit de créer un reflet, sauf si le miroir se trouve au sol.

« un cube blanc qui regarde son reflet dans un miroir, un cube blanc qui se regarde dans un miroir »

Résultats également convaincants sur la représentation des structures internes et externes. En tout cas pour ce qui est des noix et du corail-cerveau.
Concernant l’adaptation au contexte spatiotemporel, là encore, c’est la quantité d’informations à traiter qui pose problème. Par exemple quand on demande à DALL·E de créer une devanture de magasin et d’y apposer un long texte. Même si, de manière générale, le modèle sait adapter le style au support… sans toutefois gérer pleinement les tons d’une même couleur.

« une devanture de magasin avec le mot ‘openai’ écrit dessus […] »
DALL·E, affirme OpenAI, possède aussi des aptitudes à la représentation anthropomorphique. Et plus globalement au « transfert » d’activités humaines sur des animaux et des objets. Preuve en est d’une modélisation « cartoon » : un bébé radis en tutu promenant un chien.

« une illustration de bébé radis en tutu promenant un chien »

Comme GPT-3, DALL·E présente des capacités de raisonnement instantané, c’est-à-dire sans entraînement spécifique. OpenAI les illustre avec la reproduction d’une photo de chat sous la forme d’un croquis et l’ajout de caractères sur une image de théière.

« le même chat qu’en haut sous la forme d’un croquis en bas »

Les capacités de raisonnement de DALL·E sont aussi, dans une certaine mesure, géométriques et géographiques. Ces dernières semblent les plus développées, sans être exemptes de stéréotypes (par exemple sur les thématiques nourriture et vie sauvage).

Illustration principale © artinspiring – Adobe Stock

Recent Posts

IA : le joker des équipes perdues dans le Big data

Les professionnels se tourneraient volontiers vers l'IA pour rationaliser la recherche de données et renforcer…

7 heures ago

De la Bretagne au Luberon, la France toujours sous le feu des ransomwares

Emballage, agroalimentaire, collectivité territoriale... La diversité des profils reste de mise chez les dernières victimes…

8 heures ago

Open source : Singularity devient Apptainer sur fond de querelles intestines

En conflit avec son entité commerciale, le projet communautaire Singularity (plate-forme de conteneurs HPC) change…

13 heures ago

Hyperconvergence logicielle : qui sont les principaux fournisseurs ?

Qui sont les têtes d'affiche de l'hyperconvergence logicielle et qu'attendre de leurs offres respectives ?…

14 heures ago

Cyberscore : comment le « Nutri-Score de la cyber » prend forme

Forme, portée, mise en œuvre... Plus d'un an après le dépôt de la proposition de…

1 jour ago

AWS re:Invent 2021 : les annonces au premier jour

Comment évolue la stratégie produit d'AWS ? Retour sur quelques annonces qui ont jalonné la…

1 jour ago