Recherche

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

Midjourney a adapté des techniques d'alignement de modèles pour tenter d'augmenter la diversité de leurs réponses tout en maintenant leur qualité.

Publié par Clément Bohic le | mis à jour à
Lecture
4 min
  • Imprimer
Avec les LLM, peut-on concilier qualité et diversité des réponses ?
© généré par IA

Les LLM aident-ils vraiment à être créatif ?

L'an dernier, une étude universitaire américaine avait conclu que oui... au niveau individuel. Mais d'un point de vue collectif, elle avait démontré une tendance à l'homogénéisation des idées.

Midjourney y fait référence pour contextualiser des recherches en la matière. Leur objet : l'amélioration de méthodes de post-entraînement dans l'optique de favoriser la diversité des outputs. Dans un domaine en particulier : l'écriture créative.

Jusque-là, les expérimentations à ce sujet se sont largement focalisées sur l'inférence, nous affirme-t-on. Par exemple :

  • Pour l'échantillonnage, à travers l'ajustement de la température
    Et l'introduction, dans ce cadre, d'indicateurs comme top-k (2018), top-p (2020) ou min-p (2025)

  • Pour la recherche en faisceau, une modification de l'algorithme afin d'introduire une pénalité favorisant le choix d'hypothèses issues de différents parents

  • Le recours à des algorithmes évolutionnistes ou à du prompting poussant les modèles à l'autocritique

Intégrer la diversité dans les objectifs d'entraînement

Peu d'études ont exploré l'ajustement des LLM, explique Midjourney, non sans toutefois en citer une, dite "limitée à des tâches basiques" (génération de nombres aléatoires et de noms de bébés).

Ses travaux se sont portés sur deux méthodes d'optimisation basées sur la préférence humaine : DPO (Direct Preference Optimization) et ORPO (Odds Ratio Preference Optimization). La première utilise un dataset - associant généralement un prompt à une paire de réponses - pour optimiser une fonction de perte. Elle n'implique ni apprentissage par renforcement ni modèle de récompense distinct. La seconde combine fine-tuning supervisé et alignement en une même tâche par l'introduction d'un rapport de chances (odds ratio) qui pénalise faiblement les réponses rejetées tout en récompensant fortement celles retenues.

Midjourney a adapté DPO et ORPO afin d'intégrer la diversité dans les objectifs d'entraînement. Pour cela, il a pris en compte la notion de déviance. Définie ici comme l'écart, dans le dataset, entre les échantillons associés à un même prompt.


Le dataset en question provient du subreddit r/WritingPrompts, consacré à l'écriture d'invention. Pour chaque paire de réponses, Midjourney a pondéré l'objectif d'entraînement avec la déviance de la réponse "gagnante" (celle ayant reçu le plus de votes positifs sur le subreddit). Le but : augmenter la probabilité que ce que le modèle génère se différencie des outputs "typiques", tout en restant de qualité.

Validé par l'homme et la machine

L'évaluation s'est faite sur 1000 prompts. Avec, pour chacun, 4 réponses de produites. Elle a été en partie automatisée, à partir d'un modèle de récompense entraîné sur ce même dataset. Midjourney a mesuré la diversité sur deux plans : sémantique et style, à la fois isolément et en combinaison. Il l'a fait en vectorisant les réponses et en mesurant la distance entre elles par la méthode cosinus.

Les versions optimisées de DPO (DDPO) et d'ORPO (DORPO) ont été appliquées à Llama 3.1 8B et à Mistral 7B. Les versions "de base" l'ont aussi été pour comparaison, ainsi qu'un simple fine-tuning supervisé. Midjourney y a ajouté quatre modèles instruct (GPT-4o, o1, Claude 3.5 Sonnet et DeepSeek-R1).

Principal constat de l'évaluation automatisée : DDPO et DORPO produisent des résultats nettement plus diversifiés que DPO et ORPO, tout en maintenant au moins le même niveau de qualité. Sauf dans deux cas : Llama 3.1 8B DDPO-sem (sémantique) et Mistral 7B DDPO-sty (style).


Une évaluation humaine a complété le dispositif. Il s'agissait de juger, sur des paires d'ensembles de quatre propositions, laquelle était de meilleure qualité et laquelle présentait la plus grande diversité. Celle-ci n'a pu être estimée que sur le plan sémantique, Midjourney ayant fourni des résumés des réponses afin, déclare-t-il, d'éviter une surcharge cognitive.


Illustration principale générée par IA

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page