Transparence des LLM : ce qui coince chez OpenAI & Cie

Il y a quelques semaines, Stanford publiait son « index de transparence des modèles de fondation ». Retour sur les points faibles qui en ressortent.

Connaît-on les licences des données d’entraînement ? Existe-t-il des évaluations tierces des mesures d’atténuation des risques ? A-t-on connaissance d’un mécanisme de recours en cas de préjudice ? Autant de questions auxquelles les équipes de Stanford ont systématiquement répondu non dans le cadre de l’élaboration de leur « index de transparence des modèles de fondation ».

La première édition de cet index – et pour le moment la dernière en date – donne un instantané au 15 septembre 2023. Elle couvre dix modèles émanant d’autant d’entreprises :

– AI21 Labs (Jurassic-2)
– Amazon (Titan Text)
– Anthropic (Claude 2)
– Cohere (Command)
– Google (PaLM 2)
– Hugging Face (BLOOMZ)
– Inflection (Inflection-1)
– Meta (Llama 2)
– OpenAI (GPT-4)
– Stability AI (Stable Diffusion 2)

L’index rend compte d’une évaluation « binaire » sur 100 indicateurs répartis en trois domaines (amont, modèle, aval) eux-même divisés en sous-domaines. En l’occurrence :

> Amont
Data (10 indicateurs), travail humain (7), accès aux données (2), compute (7), méthodes (4), atténuations (2)

> Modèle
Bases (6), accès (3), capacités (5), limites (3), risques (7), atténuations (5), confiance (2), inférence (2)

> Aval
Distribution (7), politiques d’usage (5), politiques de comportement des modèles (3), interfaces utilisateur (2), protection des données des utilisateurs (3), mises à jour des modèles (3), feed-back (3), impact (7)

Data, compute, travail humain : les angles morts sur la phase amont

Sur 17 indicateurs, aucun modèle ne répond au cahier des charges.

Cinq de ses indicateurs entrent dans le domaine « amont » :

> Sait-on qui a créé les données ayant servi à l’entraînement ?
> Dispose-t-on d’informations de copyright concernant ces mêmes données ?
> Connaît-on les licences associées à ces données ?
> Nous précise-t-on la puissance de calcul utilisée ?
> Quel est l’impact environnemental global ?

Sur la question du compute, les équipes de Stanford regrettent que personne ne fournisse directement une valeur en flops à une précision suffisante. Même si certains communiquent des éléments qui pourraient permettre de calculer ou d’estimer une valeur plafond.

Les scores en amont sont systématiquement moins bons que les deux autres domaines. AI21, Amazon et Inflection se voient tout simplement crédités d’un zéro pointé. Hugging Face est le seul à satisfaire à plus de la moitié des critères (21/32).

Les scores sont particulièrement bas sur les sous-domaines data (sélection des sources, filtrage de données indésirables, présence d’information personnelles… : 20 %), travail humain (conditions d’emploi, rémunérations, instructions données… : 17 %) et compute (durée de développement, propriétaire du hardware, émissions carbone… : 17 %). Le sous-domaine des méthodes, au contraire, fait partie de ceux où les fournisseurs s’en tirent le mieux. Ils sont par exemple six à décrire à la fois les étapes de développement de leur modèle, les objectifs d’apprentissage et les dépendances exploitées.

Le manque de transparence sur les créateurs des données d’entraînement peut s’expliquer par le caractère émergent des outils d’attribution duc ontenu collecté sur Internet, s’explique-t-on chez Stanford. Les chercheurs saluent, dans ce cadre, les efforts de Hugging Face avec le corpus ROOTS. Celui-ci a alimenté BLOOM, sur lequel BLOOMZ se base.

Les meilleurs scores globaux sont sur les indicateurs « protocoles de curation » (validé pour tout le monde sauf Anthropic) et « étapes de développement du modèle » (tous sauf Cohere).

Un manque de transparence sur les mesures d’atténuation

Quatre des indicateurs « à score zéro » entrent dans le domaine « modèle » :

> A-t-on connaissance, à la publication initiale du modèle voire avant, des résultats d’une évaluation des risques liés à un préjudice intentionnel ?
> Peut-on reproduire les évaluations des mesures d’atténuation ?
> Existe-t-il des évaluations tierces des mesures d’atténuation ?
> Sait-on les ressources que consommerait une tâche donnée sur une config hardware donnée ?

Sur deux indicateurs, une seule entreprise remplit le cahier des charges. D’un côté, Cohere (le fournisseur fait-il démonstration des limites du modèle ?). De l’autre, OpenAI (les évaluations des risques en cas de préjudice intentionnel sont-elles reproductibles ?).

Ils ne sont pas beaucoup plus nomnreux (deux : Cohere et AI21 Labs) à proposer des évaluations reproductibles des limites de leurs modèles respectifs. Sur le sous-domaine « atténuations » (description, démonstration, évaluation, reproductibilité, évaluations tierces), c’est un zéro pointé pour AI21 Labs, Hugging Face et Stability AI. Amazon, Cohere et Inflection font à peine mieux (1 point).

Les meilleurs scores globaux se trouvent sur les sous-domaines « bases » (modalités d’input et d’output, composants et architecture du modèle… : 63 %), « capacités » (description, démonstration, évaluation… : 62 %) et « limites » (description, démonstration, évaluation tierce : 60 %).

De multiples axes de progression sur la phase aval

La phase aval regroupe 8 indicateurs que ne satisfait aucun fournisseur :

> Connaît-on le nombre d’utilisateurs qu’affecte le modèle ?
> Existe-t-il des statistiques d’usage décrivant les impacts sur les utilisateurs ?
> A-t-on la répartition des usages aval par secteurs de marché ?
> Dispose-t-on de statistiques géographiques sur l’usage du modèle ?
> Existe-t-il un mécanisme de recours en cas de préjudice ?
> Nous expose-t-on un protocole pour l’accès aux données d’usage par des tierces parties ?
> Le fournisseur publie-t-il un résumé des retours utilisateurs ?
> Publie-t-il des informations à propos des demandes gouvernementales qu’il reçoit ?

Le sous-domaine « impact », dans lequel entrent nombre de ces indicateurs, affiche le plus bas score global (11 %). Huit entreprises ne marquent qu’un point ; les deux autres en marquent zéro.

Seuls Inflection et OpenAI satisfont aux critères sur la mise à disposition d’un mécanisme de recours en cas de procédure pour violation de la politique d’usage.
OpenAI se distingue aussi sur l’explication du comportement que le modèle est censé adopter en cas de violation de ladite politique (il est le seul avec Anthropic).

Lire aussi : L’œil dans la boîte noire : des LLM poussés à révéler leur face cachée