Sora est lancé : ses spécificités, de l'UI au modèle économique
OpenAI a ouvert Sora - modèle générateur de vidéos - à certains utilisateurs de ChatGPT... hors Union européenne. Sous quelle forme et sous quelles conditions ?
Jusqu'à une minute de vidéo à partir d'une invite textuelle ? OpenAI en avait fait la promesse en février dernier à l'heure de dévoiler Sora. Le modèle avait alors été ouvert à petit périmètre. En l'occurrence, à des red teams et à quelques artistes.
Le voilà désormais accessible aux utilisateurs de ChatGPT. Plus précisément sur les abonnements Plus (20 $ par mois) et Pro (200 $ par mois). Ce à l'échelle mondiale... ou presque : l'Espace économique européen (UE + Islande, Liechtenstein et Norvège) est exclu, comme le Royaume-Uni et la Suisse. Quant à la promesse de générer jusqu'à 1 min de vidéo, elle n'est pas encore tenue.
Sora, pour qui et à quel(s) prix ?
Sora ne consomme pas de tokens (il n'utilise d'ailleurs pas ce format de représentation des données), mais des crédits. Selon quatre paramètres :
- Type de tâche (génération de vidéos vs outils d'édition)
- Format de la vidéo (rectangulaire ou carrée)
- Résolution de la vidéo (480p, 720p ou 1080p)
- Durée de la vidéo (par paliers pour la génération ; par plages pour les autres outils)
La tarification pour la génération de vidéos :
5 secondes | 10 secondes | 15 secondes | 20 secondes | |
480p carré | 20 crédits | 40 crédits | 60 crédits | 80 crédits |
480p | 25 crédits | 50 crédits | 100 crédits | 150 crédits |
720p carré | 30 crédits | 75 crédits | 150 crédits | 225 crédits |
720p | 60 crédits | 180 crédits | 360 crédits | 540 crédits |
1080p carré | 100 crédits | 300 crédits | 650 crédits | 1000 crédits |
1080p | 200 crédits | 600 crédits | 1300 crédits | 2000 crédits |
Pour l'usage des outils d'édition :
0-5 seconde(s) | 5-10 secondes | 10-15 secondes | 15-20 secondes | |
480p carré | 4 crédits | 4 crédits | 4 crédits | 4 crédits |
480p | 5 crédits | 5 crédits | 10 crédits | 10 crédits |
720p carré | 6 crédits | 9 crédits | 15 crédits | 15 crédits |
720p | 12 crédits | 24 crédits | 36 crédits | 36 crédits |
1080p carré | 20 crédits | 40 crédits | 70 crédits | 70 crédits |
1080p | 40 crédits | 80 crédits | 140 crédits | 140 crédits |
Pour le moment, on ne peut pas acheter de crédits. OpenAI en inclut un volume mensuel dans les forfaits concernés. En l'occurrence, 1000 crédits sur ChatGPT Plus et 10 000 sur ChatGPT Pro.
Sur ChatGPT Plus, la résolution est limitée à 720p et la durée, à 5 secondes. ChatGPT Pro débloque le 1080p et permet d'aller jusqu'à 20 secondes. Il permet par ailleurs de télécharger ses créations sans filigrane visible. Et donne accès à une forme d'usage illimité, à travers un mode "relaxed". Celui-ci s'enclenche lorsqu'il ne reste plus de crédits. Il permet de continuer à générer des vidéos, mais pas en instantané : les tâches s'exécutent en différé, lorsque de la capacité est disponible.
Sora : quelle interface, quelles fonctionnalités ?
Sora n'est pas intégré à ChatGPT. Il a son propre nom de domaine et sa propre UI. Elle prend la forme d'un éditeur. La zone de prompt, située en bas, permet de choisir le format, la résolution, la durée et le nombre de variantes qu'on souhaite créer. On y trouve aussi les outils d'édition :
- Re-cut (couper et étendre des vidéos)
- Remix (utiliser une vidéo générée pour en créer une autre)
- Blend (mettre des éléments d'une vidéo dans une autre)
- Loop (créer des boucles)
Une option Storyboard permet de guider la génération des vidéos en ajoutant des descriptions de scènes par l'intermédiaire de cartes horodatées. Elles peuvent contenir du texte, des images et des vidéos.
L'interface de Sora comporte un fil communautaire où apparaissent les vidéos que leurs créateurs auront choisi de partager. La plupart des vidéos fondées sur des invites texte peuvent l'être. Pour celles basées sur des images ou des vidéos, cela dépend. OpenAI exclut, en particulier, celles qui représentent des personnes réelles.
Personnes réelles, styles artistiques... Un modèle en cours de cadrage
Lorsqu'il avait dévoilé Sora, OpenAI avait insisté sur les garde-fous - instaurés ou prévus - pour garantir un usage sûr et sécurisé du modèle. Parmi eux, le recours aux métadonnées C2PA, du nom de la Coalition for Content Provenance and Authenticity. Ce consortium fondé en 2021 élabore des spécifications techniques pour établit la provenance et l'authenticité des contenus.
OpenAI évoque dorénavant aussi un moteur interne de recherche inversée (= à partir de vidéos) pour faciliter la découverte de contenu produit par Sora. Il y adjoint une modération par LLM... moins impactante que pour ses autres modèles, vu le temps nécessaire à la génération (jusqu'à une minute). Sora réécrit notamment certains prompts, par exemple ceux qui demandent de s'inspirer du style d'un artiste vivant. L'usage de photos ou de vidéos de personnes réelles est encore très restreint : seul un petit groupe d'utilisateurs peut actuellement l'expérimenter.
OpenAI dit travailler, pour début 2025, sur une tarification "adaptée à différents types d'utilisateurs". Il reconnaît - comme il l'avait déjà fait en février - que Sora peut avoir du mal à simuler avec précision la physique de scènes complexes. Le modèle a également du mal avec les "actions complexes sur de longues durées". Il n'est, en revanche, plus question du problème de distinction de la gauche et de la droite. Ni de la compréhension de certains cas de cause à effet (OpenAI avait donné l'exemple d'un cookie entier alors qu'une personne avait mordu dedans au plan précédent).
Illustration principale © OpenAI
Sur le même thème
Voir tous les articles Data & IA