Pour gérer vos consentements :

Comment Younited a appliqué la GenAI au crédit conso

Les transactions bancaires, un « langage à part entière » ? Florian Nicolaï, data scientist chez Younited, s’exprime en ces termes.

La fintech européenne emploie 550 personnes et revendique 1,2 million de clients. Outre un conseiller budgétaire, de l’assurance affinitaire et des crédits amortissables, elle propose des prêts personnels. Pour automatiser les décisions d’octroi, elle a exploré l’IA générative, l’appliquant à la catégorisation desdites transactions (collectées auprès des demandeurs par l’open banking) en vue de l’analyse de risque.

Ce processus de catégorisation se fait à deux niveaux. On prédit d’abord une catégorie principale (parmi 18). Ensuite une sous-catégorie (parmi 160). On ne passe à la deuxième étape que lorsque la précision est suffisante sur la première.

7 semaines pour gagner 6 mois

Pour entraîner un tel modèle de classification, il faut un minimum de 10 millions d’annotations par pays. Effectuée à la main, la tâche prend un an avec une équipe à temps plein de trois personnes minimum, selon Romain Mazoué.

Le directeur des risques et de la data de Younited affirme que le recours à la GenAI a permis de réduire de moitié le coût ou le temps nécessaire. Le projet s’est étendu sur 7 semaines. Il a impliqué Florian Nicolaï et un ingénieur Google Cloud à temps plein.

Il a fallu composer avec la présence potentielle de fautes et de données personnelles dans les libellés. Mais aussi avec leur variété : pour 2 milliards de transactions en base, 500 millions de libellés distincts… et 120 000 mots uniques, d’où l’expression « langage à part entière ».

Au-delà des contraintes réglementaires imposant des niveaux de précision très élevés, Younited a dû transmettre au LLM une connaissance métier. Des transactions en apparence similaires pouvaient effectivement être foncièrement différentes. Florian Nicolaï donne l’exemple du sigle « BNP » se référant généralement à des dépenses bancaires tandis que « BNP PF » aura trait à des mensualités de crédit (BNP Personal Finance).

De PaLM 2 à Gemini, la méthode pour arriver à 52 % de précision

Younited s’est intéressé à deux méthodes. D’une part, l’ingénierie d’invite (prompt designing). De l’autre, le fine-tuning avec adaptateur (on ne réentraîne qu’une partie du modèle en « gelant » le reste). Vu le niveau de complexité du problème et la quantité de données disponibles, RLHF (apprentissage continu avec feedback humain) et fine-tuning complet ont semblé démesurés.

Florian Nicolaï – Data Scientist au sein de Younited © DR

Les premières expérimentations se sont fondées sur PaLM 2.
Le taux de précision a atteint 12 % en présentant simplement les transactions au modèle et en lui demandant d’essayer des les classer (en précisant les catégories autorisées).
En injectant, dans les prompts, des descriptions de catégories (générées par le LLM), on passe à 29 %.
Le few-shot prompting (injection d’exemples) a eu un effet régressif (24 % de précision). Younited l’interprète comme du surapprentissage : le modèle n’arrivait plus à se prononcer en dehors des exemples fournis.
Avec les mêmes exemples mais en fine-tuning (2 heures, quelques centaines d’euros), PaLM 2 a atteint 35 % de précision.

Younited a ensuite basculé sur Gemini 1.0. En reprenant le prompt optimisé (sans affinage ni injection d’exemples), la précision s’est maintenue à 30 %. Avec fine-tuning, on en est arrivé à 52 % (37 % pour les catégories principales ; 67 % pour les sous-catégories). D’où l’affirmation d’une division par deux du temps/coût par rapport à l’annotation humaine.

Younited explore la piste du multilinguisme

Le polyglottisme de Gemini lui permet, dans une certaine mesure, de répliquer sur un pays ce qu’il a appris sur un autre. Entraîné en allemand et testé sur des données françaises, il maintient un taux de précision « entre 30 et 40 % », nous assure-t-on.

Ce cas d’usage en ouvre d’autres, dont le contrôle des modèles d’IA en production via des challenger models basés sur la GenAI. Ou l’évaluation de la qualité des annotations humaines pour les bases d’entraînement.

Florian Nicolaï le reconnaît : sur certains sujets, les modèles classiques restent plus performants. Il mentionne les glossaires et l’extraction de données à partir d’images.

Quant à sortir des modèles GenAI exposés aux clients, Younited considère ne pas être encore assez mature.

Illustration © Younited

Recent Posts

Panne informatique mondiale : c’est la faute de l’UE selon Microsoft

Microsoft affirme que l'accord européen de 2009 a donné à CrowdStrike les clés du noyau…

2 jours ago

Atos : Jean-Pierre Mustier prend aussi la direction générale

Déjà Président du conseil d'administration, l'ex banquier Jean-Pierre Mustier est nommé directeur général d'Atos. Il…

3 jours ago

OpenAI cherche des alternatives à Nvidia

Le Financial Times rapporte qu'OpenAI était en pourparlers avec des concepteurs de semi-conducteurs, dont Broadcom,…

4 jours ago

Cybersécurité : Innov8Learn propose des formations sur mesure aux TPE/PME

En première ligne pour subir les cyberattaques, les TPE/PME sont aussi les moins bien formées…

4 jours ago

Des grands projets aux enjeux d’avenir, une Dinum en manque de légitimité

La Cour des comptes estime que la Dinum doit construire sa légitimité, autant au vu…

5 jours ago

Beta.gouv, miroir des « résultats contrastés » de la Dinum

La Cour des comptes pointe les « résultats contrastés » de la Dinum sur son…

5 jours ago