Pour gérer vos consentements :

Point·E : que vaut le dernier-né d’OpenAI ?

Générer des images à partir de descriptions en langage naturel ? Dans la boîte à outils d’OpenAI, Dall·E remplit cette fonction. Mais qu’en est-il de la création d’objets 3D ? Il faudra, semble-t-il, compter sur Point·E.

OpenAI ne propose pas encore, pour Point·E, d’API ou d’interface « à la ChatGPT ». Mais il a publié le code, les différents modèles qui composent cette IA générative et quelques notebooks pour la mettre en œuvre.

Pourquoi avoir choisi ce nom ? Il s’agit d’un raccourci pour « point clouds efficiently ». Cela reflète le fonctionnement de Point·E : il est censé générer « efficacement » des nuages de points 3D.
L’idée n’est donc pas de délivrer de la haute qualité, mais un compromis nécessitant significativement moins de ressources que des solutions comme DreamFusion. L’ordre de grandeur est en minutes, voire secondes-GPU, et non en heures.

Plutôt que d’entraîner un modèle génératif directement sur des paires texte/objet ou d’exploiter un modèle de conversion texte-image affiné sur de la 3D, OpenAI a combiné les deux approches. Dans un processus en trois étapes :

– Transformation du texte en une image synthétique
Base : un modèle GLIDE à plusieurs milliards de paramètres entraîné pendant plusieurs cycles sur des millions d’objets 3D. Essentiellement tirés de son jeu de données d’origine (95 %), le reste des rendus ayant été élaborés spécifiquement pour le projet.

– À partir de cette image, production d’un nuage de 1024 points
Base : un transformeur de type diffusion, insensible aux permutations (l’interversion de pixels n’affecte pas les performances) et sans éléments d’architecture spécifiques à la 3D – ce qui la simplifie. Il reprend un framework issu de travaux antérieurs et y ajoute notamment le RGB.

– Suréchantillonnage à 4096 points
Base : un modèle similaire au précédent ; plus petit néanmoins, et qui ajoute en fait 3072 points aux existants.

Le compromis Point·E

Pour benchmarker Point·E, ses créateurs ont choisi, en particulier, de s’appuyer sur un autre modèle made in OpenAI, dédié à cette tâche : CLIP. Et sur une métrique dérivée, sous la forme d’un taux de précision R.

Principal constat : la précision augmente avec le nombre de paramètres et de cycles d’entraînement. Point·E présente donc une certaine capacité de mise à l’échelle. À condition de ne sauter aucune étape du processus. En particulier la première (texte -> image), comme en témoigne, ci-dessous, la courbe marron.

Il arrive que Point·E estime mal les proportions d’un objet. Les parties cachées peuvent aussi lui poser des problèmes.

Par rapport aux références comme DreamFields et DreamFusion, l’écart de performance est notable. Mais sur un GPU NVIDIA V100, la conception des nuages de points ne prend pas plus d’une minute et demie.

DALL·E et Point·E, les meilleurs amis ?

Utiliser DALL·E pour la première étape ne produit pas toujours de bons résultats. Parmi les facteurs explicatifs, sa tendance à ajouter des ombres, alors que le jeu de données « spécial Point·E » se veut précisément neutre sur ce point – et plus globalement sur l’éclairage, normalisé.

Point·E n’est pas totalement « dans les choux » si on le fait passer directement du texte à la 3D. Il a toutefois du mal si on lui demande d’associer plusieurs concepts.

Illustration principale © Jakub Jirsk – Fotolia

Recent Posts

AWS abandonne WorkDocs, son concurrent de Dropbox

Un temps pressenti pour constituer le socle d'une suite bureautique AWS, Amazon WorkDocs arrivera en…

2 jours ago

Eviden structure une marque de « serveurs IA »

Eviden regroupe cinq familles de serveurs sous la marque BullSequana AI. Et affiche le supercalculateur…

2 jours ago

SSE : l’expérience se simplifie plus que les prix

Le dernier Magic Quadrant du SSE (Secure Service Edge) dénote des tarifications et des modèles…

2 jours ago

IA générative : les lignes directrices de l’ANSSI

Formats de paramètres, méthodes d'apprentissage, mutualisation GPU... Voici quelques-unes des recommandations de l'ANSSI sur l'IA…

3 jours ago

De la marque blanche à l’« exemption souveraine », Broadcom fait des concessions aux fournisseurs cloud

À la grogne des partenaires VMware, Broadcom répond par diverses concessions.

3 jours ago

iPadOS finalement soumis au DMA

iPadOS a une position suffisamment influente pour être soumis au DMA, estime la Commission européenne.

3 jours ago