Ouvert à la communauté, que devient Mistral 7B ?
Fin septembre, MIstral AI publiait ce LLM ouvert (poids et code d’inférence, sous licence Apache 2.0). Un modèle à 7,3 milliards de paramètres, formé sur Leonardo, un des supercalculateurs de l’initiative EuroHPC. Il est optimisé pour le résumé, la classification et la complétion de texte – ainsi que de code. Il en existe une déclinaison Instruct adaptée à la conversation et à l’exercice des questions-réponses.
Voici quelques-unes des adaptations de Mistral 7B ayant émergé sur Hugging Face.
Dolphin est devenu ANIMA à l’appui de :
– 4000 exemples de biomimétisme
– 60 000 exemples de processus fondés sur le biomimétisme
– 600 000 exemples STEM issus de Wikipédia
Cinq cycles d’affinage ont mené à la version actuelle.
Ce modèle résulte du finetuning de Mistral 7B sur plus d’un milliard de tokens pour améliorer ses aptitudes de raisonnement scientifique et ses capacités éducatives. Il en existe une version spécialisée sur le dataset self-RAG, destiné à conférer aux modèles une capacité d’autoréflexion.
Cette variante de Mistral 7B a été affinée avec la méthode QLoRA pour répondre à des problèmes mathématiques. Elle peut produire des programmes Python. Le dataset utilisé combine des éléments de MetaMathQA, lila OOD et MathInstruct.
Même objectif qu’Arithmo-Mistral-7B, mais avec uniquement MetaMathQA en source. Les performances sur le benchmark GMS8K sont meilleures que pour LLaMA-2 7B entraîné sur les mêmes données (77,7 vs 66,5).
Dataset source : Evol-Instruct-Code-80k (implémentation ouverte du dataset décrit dans l’article WizardCoder). Configuration de travail : trois GPU RTX 3090 (coût estimé : 15 $ d’électricité). Des versions quantisées sont disponibles (formats GPTQ, GGUF et AWQ).
Source : le dataset Evol-CodeAlpaca, qui contient des instructions plus longues qu’Evol-Instruct-Code-80k. Également entraîné sur 3 RTX 3090… et également quantisé, aux mêmes formats que Mistral-7B-code-16k-qlora.
Pour obtenir LeoLM, on a poursuivi l’entraînement de Mistral 7B… mais en allemand, avec 65 milliards de tokens de texte extrait du corpus OSCAR-2301. Deuxième étape : du finetuning à l’appui des datasets OpenPlatypus et OpenAssistant (OASST1), via l’API GPT-3.5-Turbo. Des données issues du projet MultilingualSIFT sont aussi mises à contribution. Pour pallier les faiblesses en créativité et en prosodie, on exploite des poèmes et des chansons écrits par GPT-4.
Il existe aussi des versions de LeoLM fondées sur LLaMA-2 7B et 13B. L’ensemble a été entraîné sur le superordinateur 42 du Centre hessois pour l’intelligence artificielle.
Autre variante germanophone de Mistral 7B. Elle aussi a été formée sur un mélange de texte « natif » et traduit. Des versions quantisées (GPTQ, GGUF, AWQ) sont disponibles. Il existe des variantes fondées sur LLaMA (7B, 13B, 70B). Ainsi qu’un modèle 3B entraîné « from scratch ».
Plusieurs bases pour cet autre LLM germanophone : LLaMA-2 (version 70B entraînée avec le soutien du programme start-up OVHcloud), LeoLM (7B, 13B)… et une combinaison Mistral-LeoLM. Version quantisées disponibles (GPTQ, GGUF, AWQ).
Il s’agit d’une variante de Mistral 7B optimisée pour la rédaction en espagnol. Elle conserve globalement le reste des capacités ud modèle de base.
Similaire à Mistral 7B Instruct, mais amélioré pour travailler à contexte étendu (utilisation d’une fenêtre glissante de 16k en entraînement). Trois datasets sources : SLED (SLidingEncoder and Decoder, qui exploite le découpage, l’encodage et la recombinaison des inputs), NQ (Natural Questions) et OASST1.
Autre modèle spécialisé sur le suivi d’instructions. Dataset source : open-instruct de VMware, lui-même fondé sur des fragments d’OASST1, de Dolly (Databricks) et de HH-RLHF (Anthropic).
Entraîné sur le dataset du même nom, modelé à partir de l’article InstructGPT. Coût estimé : 1212 $ (un cycle d’une quarantaine de minutes sur un A6000-48).
L’auteur de ce modèle est aussi à l’origine de Metal Trismegitus, entraîné sur 10 000 instructions générées par GPT-4 dans le domaine ésotérique / occulte / spirituel.
Autre modèle entraîné sur contexte long (1500 étapes avec la méthode YaRN). Tâche effectuée sur le superordinateur JUWELS, installé en Allemagne.
Modèle de la série dRAGon (Delivering RAG On…), entraîné pour fournir des réponses courtes à des questions factuelles sur des documents business et juridiques.
Modèle de complétion entraîné, sur un format proche du non supervisé, à partir de 315 Mo de littérature érotique amateur. Sur cette base, il existe une adaptation de LimaRP (variante de LLaMA-2 axée jeu de rôle).
Le voile est levé sur Oracle Code Assist. Présenté comme spécialisé en Java et SQL,…
EPEI, la société d'investissement de Daniel Kretinsky, a déposé une offre de reprise d'Atos. En…
Onepoint, l'actionnaire principal d'Atos, a déposé une offre de reprise du groupe. En voici quelques…
Broadcom a repris seul la main sur la vente de l'offre VMware d'AWS... qui, dans…
Microsoft expérimente, sous la marque ZTDNS, une implémentation des principes zero trust pour le trafic…
Accord de principe entre créanciers, propositions de reprise, discussions avec l'État... Le point sur le…