Pour gérer vos consentements :

DALL·E : le dernier-né d’OpenAI impressionne

Des résultats époustouflants… avec une méthode non optimisée. Dans la communauté du machine learning, on est partagé à propos de DALL·E.

Ce modèle génératif de type Transformer est le dernier-né d’OpenAI. Dérivé du modèle généraliste GPT-3, il doit son nom au robot WALL-E et à Salvador Dalí. Et pour cause : il crée des images à partir de texte, à la façon d’un moteur de rendu 3D pilotable en langage naturel.

À la base de DALL·E, il y a un important jeu de données d’entraînement : des centaines de millions d’images assorties de légendes. Le modèle peut travailler uniquement à partir de texte, mais il est possible de le guider avec des images. Il représente l’ensemble sous la forme de tableaux de jetons. En d’autres termes, de symboles comparables à ce que sont pour nous les lettres de l’alphabet. Chacun couvre une grille de 8 pixels par 8.

OpenAI a mis à l’épreuve cinq capacités en particulier :

  • Modifier les attributs et la quantité d’un objet
  • En gérer plusieurs
  • Les modéliser en perspective
  • Travailler leur structure interne et externe
  • Tenir compte du contexte spatiotemporel

Sur le premier point, on nous donne trois exemples de créations : une horloge verte pentagonale, un cube au revêtement « en porc-épic » et des verres sur une table.

Consigne : « une horloge verte pentagonale, une horloge verte en forme de pentagone »

DALL·E offre des résultats convaincants quand il s’agit d’associer des textures à des objets. C’est plus aléatoire quand il s’agit d’en modifier la forme (illustration pour un cadre photo heptagonal ou un panneau stop pentagonal). Les mots à plusieurs sens lui posent par ailleurs problème.

« un cube fait de porc-épic, un cube avec la texture d’un porc-épic »

La gestion de multiples objets se complique vite, plus encore s’il existe entre eux des relations spatiales. L’exercice de l’empilement de cubes en témoigne. Sans qu’on puisse expliquer pleinement le comportement de DALL·E. Entre autres, pourquoi il a plus de mal à poser un gros objet sur un petit que l’inverse.

« un petit bloc rouge reposant sur un grand bloc vert »

Sur la partie perspective, DALL·E démontre de solides capacités, qu’il s’agisse de générer un buste d’Homère ou un capybara en voxels assis dans un champ. Il prend généralement bien en compte les effets de lumière et les distorsions comme le fish-eye ou le panorama sphérique. C’est plus compliqué lorsqu’il s’agit de créer un reflet, sauf si le miroir se trouve au sol.

« un cube blanc qui regarde son reflet dans un miroir, un cube blanc qui se regarde dans un miroir »

Résultats également convaincants sur la représentation des structures internes et externes. En tout cas pour ce qui est des noix et du corail-cerveau.
Concernant l’adaptation au contexte spatiotemporel, là encore, c’est la quantité d’informations à traiter qui pose problème. Par exemple quand on demande à DALL·E de créer une devanture de magasin et d’y apposer un long texte. Même si, de manière générale, le modèle sait adapter le style au support… sans toutefois gérer pleinement les tons d’une même couleur.

« une devanture de magasin avec le mot ‘openai’ écrit dessus […] »
DALL·E, affirme OpenAI, possède aussi des aptitudes à la représentation anthropomorphique. Et plus globalement au « transfert » d’activités humaines sur des animaux et des objets. Preuve en est d’une modélisation « cartoon » : un bébé radis en tutu promenant un chien.

« une illustration de bébé radis en tutu promenant un chien »

Comme GPT-3, DALL·E présente des capacités de raisonnement instantané, c’est-à-dire sans entraînement spécifique. OpenAI les illustre avec la reproduction d’une photo de chat sous la forme d’un croquis et l’ajout de caractères sur une image de théière.

« le même chat qu’en haut sous la forme d’un croquis en bas »

Les capacités de raisonnement de DALL·E sont aussi, dans une certaine mesure, géométriques et géographiques. Ces dernières semblent les plus développées, sans être exemptes de stéréotypes (par exemple sur les thématiques nourriture et vie sauvage).

Illustration principale © artinspiring – Adobe Stock

Recent Posts

Développeurs : les 10 communautés les plus étendues

Ecosystèmes, plateformes, outils et langages confondus, GitHub, Apple et Stack Overflow attirent le plus grand…

17 heures ago

Project Zero revoit sa stratégie de sa « chasse aux failles »

Assouplissement de politique pour Project Zero. L'équipe de « chasse aux failles » va en…

17 heures ago

Blockchain : des milliards en perspective pour qui ?

Les services IT et aux entreprises capteraient plus des deux tiers des investissements mondiaux réalisés…

22 heures ago

Docker : un chemin délicat vers Apple Silicon

Disponibilité globale actée pour Docker sur Apple Silicon. Tout n'est pas encore réuni pour exploiter…

23 heures ago

Salesforce France : la vague de départs culmine avec le DG

Salesforce France s'est séparé de son directeur général, dans la lignée de départs au sein…

1 jour ago

SAP, Siemens, SonicWall… Les alertes sécurité de la semaine

Quels logiciels faut-il penser à patcher ? Tour d’horizon sur la base des avis de…

4 jours ago