L’UX, meilleur moyen de différencier DALL-E de la concurrence ? OpenAI prépare en tout cas une avancée dans ce domaine. La prochaine version de son modèle générateur d’images sera intégrée dans ChatGPT.

Les utilisateurs de ChatGPT Plus et Enterprise seront les premiers servis, au mois d’octobre. Sur le même principe que la génération d’images dans Bing Chat, la connexion avec DALL-E 3 se fera par l’API.

ChatGPT optimisera les prompts, nous promet-on. Il permettra par ailleurs une conception itérative (amélioration d’une image au fil de la discussion). Cela ne veut pas dire que DALL-E sera déterministe comme peut l’être un Stable Diffusion agrémenté de ControlNet.

OpenAI ne précise pas s’il faudra impérativement être « client ChatGPT » pour pouvoir accéder à DALL-E 3 sur l’API. Il assure, en revanche, que cette nouvelle version du modèle arrivera « au cours de l’automne » sur l’application web (labs.openai.com). Cette dernière supporte actuellement aussi bien la génération que l’édition d’images.

Sur la base des créations « promotionnelles » d’OpenAI, DALL-E semble, d’une version à l’autre, mieux gérer le rendu de texte. Il paraît aussi capable de mieux coller aux consignes, y compris longues.

Un gain en précision, donc, mais pas forcément en esthétique, au dire des observateurs. En tout cas par rapport à Midjourney - qui a lui-même évolué, au fil des versions, dans son équilibre entre précision et esthétique.

Going to compare Midjourney outputs for these prompts. It's a biased comparison since these prompts were selected to look good for DALL·E 3, but I wanted to see the difference! Here's the first: https://t.co/G8NVXOvbri pic.twitter.com/oxQRC317rt

— BioBootloader (@bio_bootloader) September 20, 2023