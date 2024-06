Qui pour créer et rendre accessibles les communs numériques sur la chaîne de l’IA générative ?

Mi-2023, l’État avait lancé un appel à projets sur ce thème. Grands axes : les bases de données (« valorisant le patrimoine français »), les modèles (généralistes ou adaptés à des cas d’usage métiers), les API et les outils d’évaluation.

Au mois de mai, en marge du salon Viva Tech, le Gouvernement a annoncé une première série de lauréats. Sept en l’occurrence. Les voici, dans l’ordre alphabétique.

AI for Democracy

Ce projet s’inscrit dans le programme de recherche « Communs démocratiques », à l’origine de laquelle on trouve Make.org, Sciences Po, Sorbonne Université et le CNRS. L’initiative a attiré, entre autres, Hugging Face, Mozilla.ai et le réseau des instituts Aspen.

« Plus de 50 chercheurs » auront deux ans pour développer et partager en open source :

– Un cadre scientifique de détermination des principes démocratiques appliqués à l’IA

– Un modèle d’évaluation des biais des LLM par rapport à ces principes

– Des LMM « débiaisés » et des plates-formes de participation citoyenne conformes à ces mêmes principes

CNRS et Inria ont sont représentés au conseil scientifique, aux côtés notamment de Yale et de l’OCDE.

ArGiMi

Le projet associe Artefact (intégration d’IA dans les applications industrielles), Giskard (évaluation de modèles) et Mistral AI. Il a pour but de créer des LLM francophones adaptés aux besoins spécifiques des entreprises. Il comprend les développement d’outils destinés à simplifier le fine-tuning, dont des jeux de données open source.

Des acteurs publics (INA, BnF) et privés (Ardian, Cdiscount, Crédit Mutuel Arkéa) sont dans la boucle. CentraleSupélec aussi, pour monter une équipe de recherche mixte.

CC-SWH

Cette initiative s’appuie sur Software Heritage (projet de préservation de code source émanant d’Inria). Il vise à développer, sur ce socle, un modèle générateur de code informatique.

L’archive Software Heritage a déjà permis de produire le modèle StarCoder, dans le cadre de BigCode. Elle fait l’objet d’autres projets, dont SWH Sec, destiné à développer une plate-forme d’analyse de vulnérabilités et de remédiation semi-automatisée.

OpenLLM-France

LINAGORA est chef de file de ce consortium constitué dans le prolongement de la communauté du même nom (née mi-2023).

OpenLLM-France compte notamment fournir des communs numériques pour la mise en œuvre de l’IA au sein de l’Éducation nationale. Cela impliquera la mise à disposition – en chat et en API – d’un LLM préentraîné tirant parti des ressources éducatives libres.

Les travaux menés en dehors de l’AAP ont donné lieu à la publication d’un modèle 7B (Claire) qui doit servir de base à affiner pour la compréhension et la génération de dialogue. Il en existe des variantes fondées sur Mistral 7B et sur Falcon-7B (avec, pour ce dernier, des versions CC-BY-NC-SA 4.0 et Apache 2.0.

Photoroom

Ce projet vise à développer un modèle text-to-image valorisant le patrimoine français. L’entreprise du même nom le porte. Née en 2019, elle a récemment levé 40 M€ en série B. Son premier produit fut un outil de suppression d’arrière-plan. Son offre englobe aujourd’hui la génération d’images et l’outpainting, en complément à divers effets visuels.

PODRIA

De ce projet doit résulter un système d’évaluation des LLM. Son porteur : Dust, une société parisienne fondée qui compte un ancien d’OpenAI parmi ses fondateurs.

Dust fournit une boîte à outil pour le déploiement de solutions d’IA générative en entreprise. Elle cible en particulier les cas de collaboration interne. Ses principales références évoluent dans le secteur de la fintech. Sequoia Capital y a mis ses billes.

Scribe

Scribe est un programme de développement de modèles sectoriels. En première ligne, les domaines du droit, de la santé et de l’industrie.

ALLONIA (plate-forme DSML) est partie au projet, comme LightOn et le CNRS. Inria également, avec son équipe ALMAnCh (traitement automatique des langues et humanités numériques).

Scribe est aussi censé produire des jeux de données d’alignement et des outils d’évaluation. Bouygues, La Poste et Michelin font partie des partenaires industriels.

Illustration générée par IA