Trop tôt, trop vite ? Ce qui a coincé avec le chatbot LUCIE
Chef de file du consortium OpenLLM France, Linagora admet qu'il aurait dû orchestrer différemment le lancement public du chatbot LUCIE.

"Models are data..."
Le 22 janvier dernier, Michel-Marie Maudet concluait sur ces mots une présentation effectuée dans le cadre du Paris Open Source AI Summit. Le directeur général de Linagora venait de faire la démo de LUCIE, chatbot fondé sur un LLM éponyme ouvert made in France.
L'exercice s'était plutôt bien déroulé jusqu'à l'ultime question : quelles allaient être les chances du PSG le soir même pour son match de Ligue des Champions contre Manchester City ? LUCIE s'était montrée confiante pour le club de la capitale, soulignant qu'il pourrait compter sur... Messi et Mbappé. Deux joueurs qui, dans la réalité, ne font plus partie de l'effectif.
Lire aussi : Orange Business renforce son offre d'IA générative
Erreur de stratégie... et de communication
Des erreurs, LUCIE a eu l'occasion d'en commettre bien d'autres. Linagora l'avait effectivement ouverte au public. Officiellement pour un mois. Il affirmait alors viser la mise en place du RAG au deuxième trimestre, du traitement de la voix au troisième et d'un framework agentique au quatrième. Il était aussi question d'une adaptation pour le monde de l'éducation en 2025.
Des capacités de raisonnement à l'acceptabilité des réponses, le chatbot est apparu très faillible. Assez pour que s'enclenche une forme de bad buzz. Et que Linagora réagisse. D'abord à l'initiative de son état-major sur les réseaux sociaux, puis par voie de communiqué.
L'éditeur explique avoir pensé qu'une mise en ligne publique était possible, "dans la logique d'ouverture de de coconstruction des projets open source". La démarche, ajoute-t-il, était souhaitée pour la collecte de données d'instruction (c'est-à-dire relatives à la façon dont le modèle doit interagir avec l'humain). Ces données, en l'état, "manquent cruellement" : les datasets publics existants "sont principalement en anglais, pas en open source et posent des problèmes de valeurs et de culture".
Linagora admet un défaut de communication sur les capacités de LUCIE et sur les travaux réalisés jusqu'à présent. "Nous aurions dû informer les utilisateurs [des] limites afin de ne pas créer d'attente inutile." Parmi ces limites, l'absence d'instruction approfondie, d'apprentissage par renforcement et de garde-fous. Bref, il s'agit d'un "projet de recherche académique en phase initiale".
Damien Lainé, directeur de la R&D chez Linagora, a apporté un complément d'information. LUCIE, déclare-t-il, n'est pas pas un outil, ni même le démonstrateur d'un quelconque produit. Juste une "interface qui permet d'interagir avec un modèle de langage probabiliste"...
"Le seul responsable, c'est moi"
Tous ces éléments n'étaient pas précisés sur le chat LUCIE à son lancement. Une situation que regrette Michel-Marie Maudet. À tel point qu'il s'est dit "seul responsable de cette preview publique trop vite publiée".
L'initiative OpenLLM est très bonne, celle de Linagora qui quoi que vous en disiez l'a joué lancement de produit, en mettant en + de l'institutionnel dans la balance est un véritable fail ! Difficile à défendre ! A ce niveau il faut reconnaitre l'erreur et retourner au charbon !
- Alex Ruben (@rubenxela) January 27, 2025
Non, il n'y a aucun mérite en 2025 à sortir un LLM pareil alors qu'en une heure sur HuggingFace, on trouve mieux (et pas forcément étatsunien).
- Stéphane Bortzmeyer (@bortzmeyer) January 27, 2025
Sincèrement désolé pour la communication et les frustrations générées
- Michel-Marie MAUDET (@mmaudet) January 25, 2025
1/ l'@education_gouv n'est pas partie prenante
2/ LUCIE entraînée sur fonds propres de @linagora pratiquement à 100%
3/ Le seul responsable de cette preview publique trop vite publiée, c'est moi
À son crédit, l'intéressé avait déjà reconnu les limites de LUCIE avant que soit lancée cette preview. C'était le 17 janvier, soit quatre jours après la mise à disposition du modèle sur Hugging Face. Le premier cycle de préentraînement avait alors été achevé (environ 550 000 heures GPU sur 512 cartes H100 pendant 80 jours).
Sous licence Apache 2.0, LUCIE se décline en quatre versions :
- Lucie-7B (modèle fondation à 6,7 milliards de paramètres)
- Lucie-7B-Instruct (ajusté sur des instructions synthétiques produites par ChatGPT et Gemma ainsi que sur un petit ensemble de prompts personnalisés)
- Lucie-7B-Instruct-GGUF (version quantifiée)
- Lucie-7B-Instruct-human-data (ajusté sur des instructions produites par l'être humain)
Sous licence Apache 2.0, le modèle nécessite 16 Go de RAM et 16 Go de VRAM pour tourner. Ses méthodes d'entraînement sont documentées et les données sont sous licence publique.
Un projet France 2030
Le développement de LUCIE s'inscrit dans les travaux que le consortium OpenLLM France mène en tant que lauréat de l'appel à projets France 2030 "Communs numériques pour l'intelligence artificielle générative". Ces travaux, destinés à développer des modèles génératifs voix et texte open source, s'organisent en 7 lots :
- Collecte et filtrage des données nécessaires aux autres lots (pilotage : Linagora)
- Modélisation et conception du modèle fondation (Loria)
- Adaptation du modèle aux contextes d'utilisation, en particulier dans l'éducation (opsci.ai)
- Évaluation des performances, optimisation des modèles et limitation des biais (École polytechnique)
- Développement de cas d'usage dans l'éducation (association Class'Code)
- Étude des impacts sociétaux, légaux et éthiques (CEA + université Paris 1 Panthéon-Sorbonne)
- Étude des impacts environnementaux (Linagora)
À ce jour, ni les académiques ni Class'Code n'ont pu lancer leurs travaux aux côtés de Linagora, expliquait Michel-Marie Maudet le 17 janvier. La raison : "un processus administratif qui nécessite du temps". Le consortium OpenLLM ne devait en tout cas lancer officiellement ses travaux que le 21 janvier. Aux dernières nouvelles, il est toujours en attente de son financement. Aussi Linagora affirme-t-il que le développement s'est jusque-là fait essentiellement sur ses fonds propres. "Alors oui, nous bénéficions d'un accès [au supercalculateur Jean Zay, concède M. Maudet. Mais c'est possible et accessible à tout le monde à partir du moment où vous acceptez la publication publique et sous licence libre de vos résultats... et aussi la critique."
Lire aussi : Mistral AI muscle le Chat avec les dépêches de l'AFP
L'utilisation de LUCIE en local en mode API avec un prompt système robuste permet d'obtenir des résultats, veut croire le DG de Linagora. C'est l'utilisation en mode public sans garde-fou qui a provoqué le bad buzz, assure-t-il. À l'approche du Sommet pour l'action sur l'IA, OpenLLM a voulu livrer au plus vite le chatbot pour avoir le retour des utilisateurs et accumuler les fameuses données d'instruction. En la matière, il prévoit un hackathon pour février ou mars. Objectif : récolter 200 000 à 300 000 paires de questions-réponses. En attendant, une version bêta va être proposée en cercle restreint, avec une réouverture au public "dans les prochaines semaines". Une prise de contact avec la communauté éducative "est en cours" pour déterminer les besoins.
Damien Lainé se refuse à parler de bad buzz. C'est plutôt "le début de la mise en lumière d'un sujet sérieux, souvent déformé par les sphères peu informées, le journalisme à sensation et les réseaux sociaux", estime-t-il. Et de rappeler "l'intérêt principal" du projet : la transparence totale sur les données d'entraînement.
Le chatbot LUCIE a également été retiré de la plate-forme Vittascience (apprentissage du codage), qui l'y avait intégré. Ne restent que des modèles Mixtral, Llama et GPT-4o.
OpenLLM France avait déjà un LLM : Claire-7B, publié en novembre 2023 sous licences Apache 2.0 et CC-BY-NC-SA. Pas entraîné from scratch, néanmoins : il est issu de l'enrichissement de Falcon-7B.
À consulter en complément :
La présentation des premiers lauréats de l'appel à projets "IA et communs numériques"
L'écosystème de Paris-Saclay avance vers le Sommet pour l'IA
DeepSeek, l'électrochoc IA venu de Chine
Meta répond à Stargate
Les LLM sont-ils "conscients" de leurs comportements acquis ?
Illustration principale
Sur le même thème
Voir tous les articles Data & IA