Recherche

IA et copyright : des jugements partiellement favorables à Meta et Anthropic

Aux États-Unis, deux jugements de première instance valident partiellement l'usage de livres sous copyright par Meta et Anthropic pour entraîner des LLM.

Publié par Clément Bohic le | mis à jour à
Lecture
5 min
  • Imprimer
IA et copyright : des jugements partiellement favorables à Meta et Anthropic
© Kemal - Adobe Stock

Face à Anthropic et Meta, les auteurs vont devoir changer d'angle d'attaque. Ou tout du moins patienter.

Accusées d'exploitation illégale d'oeuvres sous copyright pour entraîner des LLM, les deux entreprises ont vu leurs pratiques partiellement validées cette semaine par des jugements de première instance aux États-Unis.

Celui qui concerne Anthropic est tombé le 23 juin. À l'origine, il y a une plainte déposée par trois auteurs à l'été 2024. Elle couvre deux grands aspects. D'une part, le téléchargement de millions de livres électroniques piratés, à partir de collections telles que LibGen (Library Genesis), PiLiMi (Pirate Librery Mirror) et Books3 (une partie du dataset ThePile assemblé par EleutherAI). De l'autre, l'achat de livres physiques ensuite numérisés.

Une "grande bibliothèque" à partir de livres physiques... et de livres piratés

Cette démarche de numérisation avait été amorcée début 2024 sur fond de doutes quant à l'origine des livres électroniques en question. Anthropic avait embauché l'ancien directeur des partenariats de Google Books. L'intéressé avait d'abord sollicité deux maisons d'édition en vue de prendre une licence spécifique à l'entraînement de modèles d'IA. Il avait finalement opté pour l'achat en masse de livres physiques auprès de distributeurs.

L'ensemble de ces contenus ont permis de constituer une "bibliothèque centrale". Les oeuvres qu'Anthropic y a piochées pour entraîner ses LLM ont été "transformées" principalement de quatre façons :

  • Sélection dans la bibliothèque, puis création d'une copie pour le dataset d'entraînement
  • Nettoyage (retrait d'éléments tels qu'en-têtes et pieds de page)
  • Tokenisation
  • Conservation sous forme "compressée" au sein des LLM entraînés

Que les modèles fussent ou non capables de "recracher" des fragments des livres ayant servi à les entraîner, Anthropic les a exposés au public avec divers filtres de contenu. Assez, selon le juge, pour éviter un "plagiat substantiel". Cela s'apparente, souligne-t-il, à la quantité limitée de texte visible sur Google Books.

Anthropic jugé dans les clous du fair use

Les auteurs n'ont d'ailleurs pas porté leur action sur les outputs : il se sont concentrés sur les inputs. Anthropic y a notamment opposé l'idée que son exploitation d'oeuvres protégées était "raisonnablement nécessaire" pour entraîner ses LLM.

Le juge a en tout cas considéré que la pratique relevait d'un usage raisonnable, en particulier de par sa nature transformative : les LLM ne sont pas entraînés pour répliquer ou supplanter des oeuvres, mais pour "créer quelque chose de différent".

La numérisation aussi est une forme d'usage transformatif, quoique plus étroite, a estimé le juge. Elle a ici favorisé le stockage des livres et l'usage d'outils de recherche - deux éléments qui ne relèvent pas de "propriétés créatives". Anthropic a, en outre, détruit les livres physiques après le scan ; et n'a pas diffusé les versions numériques. Ce qui penche un peu plus en faveur du fair use.

Le téléchargement de livres piratés, en revanche, est "intrinsèquement illégal". Ce même en cas d'usage transformatif immédiat suivi d'une suppression sans délai. Anthropic a aggravé son cas en conservant la matière après l'entraînement. Des centaines de chercheurs y avait accès... et s'en sont effectivement servis.

Les auteurs avaient pointé un autre élément traditionnellement pris en compte dans l'évaluation de la notion de fair use : le risque de substitution (dilution de la valeur des oeuvres concernées ou de leur potentiel de marché). Le juge a considéré que les formes de concurrence impliquées n'entraient pas dans le champ du Copyright Act américain.

Meta l'emporte... sur les outputs

Le jugement partiellement favorable à Meta est tombé le 25 juin.

À l'été 2023, quelques mois après le lancement des modèles LLaMA, des auteurs avaient porté le fer contre le groupe américain. Leur principal grief s'apparente à celui avancé contre Anthropic : entraînement de LLM avec des oeuvres sous copyright, sans consentement ni juste compensation.

Dans la description du dataset d'entraînement des modèles en question, Meta évoque 85 Go de données issus d'une catégorie "livres". Celle-ci se fonde sur deux sources. D'un côté, le Project Gutenberg, qui réunit des ouvrages libres de droits. De l'autre, Books3. Cet ensemble - issu, donc, de ThePile - dérive d'un copie des contenus du tracker Bibliotik. Autrement dit, selon les plaignants, d'une "shadow library" où on trouve aussi, entre autres, LibGen. Il contient environ 200 000 livres.

En miroir à l'affaire Anthropic, le juge a considéré qu'utiliser des oeuvres protégées sans consentement ni compensation est "dans la plupart des cas" illégal. Il ajoute que la doctrine du fair use ne s'applique typiquement pas à une copie réduisant significativement le "potentiel marché" d'une oeuvre.

Les auteurs avaient précisément avancé cet argument de réduction de potentiel marché. Plus exactement de leur capacité à négocier des licences spécifiques à l'entraînement de modèles d'IA.

Cet argument ne prend pas, affirme le juge : les plaignants ne sont pas parvenus à prouver dans quelle mesure les outputs actuels ou attendus dilueraient le marché. En parallèle, il a rejeté l'idée selon laquelle les modèles LLaMA seraient capables de reproduire des extraits suffisamment significatifs des livres qui ont servi à les entraîner.

Ne s'agissant pas d'une class action, les conséquences du jugement sont limitées. Et cela, nous rappelle-t-on, ne signifie absolument pas que l'usage d'oeuvres sous copyright pour entraîner des LLM est légal. Les plaignants n'ont simplement pas su avancer les bons arguments...

Illustration © Kemal - Adobe Stock

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs #security

Voir tous les livres blancs
S'abonner
au magazine
Se connecter
Retour haut de page