Recherche

Qu'est-ce que le projet OpenEuroLLM, qui a son épicentre en France ?

Le projet OpenEuroLLM vient de démarrer. La structure qui le porte a son siège statutaire en France et porte des initiatives complémentaires.

Publié par Clément Bohic le - mis à jour à
Lecture
5 min
  • Imprimer
Qu'est-ce que le projet OpenEuroLLM, qui a son épicentre en France ?
© Eisenhans - Adobe Stock

Qu'y a-t-il au 1, place Aristide-Briand à Villers-Cotterêts ? Sur place se trouve un château qui accueille, depuis novembre 2023, la Cité internationale de la langue française.

À la même adresse, une association loi 1901 a son siège statutaire. Son nom : Alliance pour les technologies des langues. On la connaît aussi sous l'acronyme ATL-EDIC. Et pour cause : il s'agit consortium européen pour une infrastructure numérique (European Digital Infrastructure Consortium, EDIC).

Ce mécanisme fut institué parallèlement au programme politique 2030 pour la décennie numérique. Il est censé "fournir un cadre juridique pour investir dans des projets multinationaux qui, compte tenu de leur ampleur, ne peuvent être mis en place efficacement par un seul État membre".

ALT-EDIC4EU, pour l'infrastructure

En décembre 2023, dix États membres (France, Bulgarie, Croatie, Irlande, Italie, Lettonie, Lituanie, Pays-Bas, Pologne, Slovénie) avaient invité la Commission européenne à créer une telle structure. Elle devait soutenir le développement d'un infrastructure commune dans le domaine des technologies du langage. La Grèce s'était jointe à la demande en janvier 2024. Deux semaines plus tard, Bruxelles l'avait approuvée.

En mars 2024, le consortium organisa sa première assemblée, à Paris, hébergée par les ministères de la Culture et de l'Économie. À cette occasion, Thibault Grouas fut élu président ; Juan Martinez Samalea, vice-président. Le premier, juriste, est également chef de la mission Langues et numérique au ministère de la Culture. Le second est coordinateur régional au ministère espagnol des Affaires économiques et de la Transformation numérique.

En juillet 2024, le consortium obtint son premier projet : ALT-EDIC4EU (Alliance for Language Technologies for the European Union). Doté de 4 M€ de fonds européens, il doit lui permettre de poser les jalons de l'infrastructure promise - dont un centre européen d'évaluation des technologies du langage. Il s'agira également de structurer un écosystème, à l'appui d'un cadre de coopération des parties prenantes "autour d'initiatives privées pertinentes". Les travaux ont démarré en janvier 2025, pour quatre ans. L'ATL-EDIC en assure la coordination. Huit autres partenaires sont dans la boucle, dont une PME française : ELDA (Evaluations and language resources distribution agency). Née dans les années 90, elle a pour activité principale déclarée "la promotion des ressources linguistiques sous toutes leurs formes". Son dirigeant-fondateur Khalid Choukri a obtenu un doctorat en sciences informatiques et traitement des signaux à Télécom ParisTech.

OpenEuroLLM, pour les modèles de fondation

Un autre projet que porte le consortium vient de débuter, le 1er février 2025 : OpenEuroLLM (Open European Family of Large Language Models). Il "travaille sur ce qui sera la première famille de grands modèles linguistiques open source couvrant toutes les langues officielles et futures de l'UE", pour reprendre les termes de la Commission européenne, qui lui a décerné son nouveau label STEP (Strategic Technologies for Europe Platform).

OpenEuroLLM a un budget global de 37,4M€, dont 20,6 M€ proviennent du programme pour une Europe numérique. L'ATL-EDIC en est membre, mais n'en assure pas la coordination. Ce rôle est dévolu à Jan Hajic, ancien directeur de l'Institut de linguistique formelle et appliquée de l'université Charles de Prague. Peter Sarlin, patron de Silo AI, est co-chef de file.

Outre Silo AI, quatre entreprises participent. Deux allemandes (Aleph Alpha, ellamind), une espagnole (Prompsit Language Engineering)... et une française (LightOn). Quatre centres EuroHPC (en Espagne, en Finlande, en Italie et aux Pays-Bas) sont aussi de la partie. S'y ajoutent 11 universités et organisations de recherche. Parmi eux, la Fraunhofer-Gesellschaft (Allemagne), le Lindholmen Science Park (Suède) et le Surf (réseau néerlandais de recherche et d'éducation).

L'appel à propositions auquel a répondu OpenEuroLLM consistait plus précisément à fournir un modèle de fondation ajustable par l'industrie et les services publics. Ainsi que l'infrastructure pour. En s'appuyant, en particulier, sur l'Espace européen de données linguistiques, dont la bêta doit être lancée le 7 février 2025. Construire un modèle from scratch n'est pas impératif : le cahier des charges laisse la porte ouverte à la mise à l'échelle d'un modèle existant. Il serait publié sous "licence ouverte" et une entité européenne - possiblement un EDIC - accorderait un droit d'usage aux parties intéressées.

LLMs4EU, pour les modèles spécialisés

OpenEuroLLM est complémentaire d'un autre projet que l'Europe a confié à l'ATL-EDIC : LLMs4EU (Large Language Models for the European Union). Son démarrage est prévu au printemps 2025, pour trois ans. Il interviendra en aval, en se concentrant sur l'ajustement des modèles. L'une de ses missions dans cette optique sera de réunir des données en quantité et de qualité suffisantes.

L'ATL-EDIC coordonne LLMs4EU, qui réunit des partenaires d'une vingtaine de pays. Depuis le 1er janvier 2025, la structure a un directeur : Édouard Geoffrois. Titulaire d'un doctorat dans le domaine de la reconnaissance de la parole, il a passé 15 ans à la DGA (Direction générale de l'armement), puis 8 ans à l'ANR (Agence nationale de recherche).

On évitera la confusion avec EuroLLM. Ce projet financé par le programme Horizon Europe doit s'échelonner du 1er mai 2024 au 30 avril 2025. Il est censé en résulter des LLM d'échelle 1B, 9B et 22B pouvant produire du texte dans les 24 langues officielles de l'UE, ainsi qu'une dizaine d'autres (arabe, catalan, chinois, coréen, galicien, hindi, japonais, norvégien, russe, turc, ukrainien). Il implique officiellement 9 entités, dont une française : CentraleSupélec. Ses premiers fruits furent un transformeur 1.7B et sa version Instruct, publiés sous licence Apache 2.0. L'entraînement s'est fait sur le supercalculateur Marenostrum 5 d'EuroHPC.

Illustration © Eisenhans - Adobe Stock

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs #cloud

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page