Stability AI, ce n’est pas que Stable Diffusion. Cette famille de modèles générateurs d’images lancée en 2022 reste l’emblème de l’entreprise britannique. Mais elle voisine désormais avec StableLM.
Sous cette bannière, Stability AI entend proposer des modèles générateurs de texte et de code. Il vient d’en publier une première série, au stade expérimental (alpha). Elle se compose de quatre modèles : deux « de base »… et leurs déclinaisons affinées sur davantage de données.
Fondés sur l’architecture GPT-NeoX (transformeurs autorégressifs), ils comptent respectivement 3 et 7 milliards de paramètres.
L’un et l’autre ont été entraînés en FP16 sur 800 milliards de tokens issus d’un jeu de données basé sur The Pile, qu’on doit au collectif EleutherAI.
Stability AI a renforcé les modèles de base en exploitant la bibliothèque Hugging Face Transformers et une combinaison de cinq datasets :
Alpaca (made in Stanford ; 52 000 instructions et démonstrations générées par le modèle text-davinci-003 d’OpenAI)
GPT4All (origine Nomic AI ; 400 000 instructions et réponses générées par GPT-4)
ShareGPT52K (sous-ensemble de conversations récupérées sur le service communautaire ShareGPT)
Dolly (produit par Databricks ; 15 000 instructions et réponses générées par des humains sur des domaines d’aptitude d’InstructGPT)
HH (signé Antrhropics ; données destinées à guider le comportement des assistants IA)
L’un et l’autre modèle sont, comme ceux sur lesquels ils se fondent, hébergés sur le hub Hugging Face.
L’ensemble du code publié sur le dépôt GitHub StableLM est sous licence Apache 2.0.
Les modèles de base sont en Creative Commons (CC BY-SA-4.0). Licence qui, dans les grandes lignes, impose de créditer Stability AI et de signaler les modifications qu’on a éventuellement effectuées.
Les modèles « affinés » sont aussi en Creative Commons, mais limités à un usage non commercial (CC BY-NC-SA-4.0).
Un notebook Python est disponible pour expérimenter les quatre modèles. Officiellement, pour générer du texte (on ne nous parle pas de code).
Par défaut, quatre instances s’exécutent en parallèle pour les modèles de base (deux pour les modèles « affinés »). Chacune pèse environ 10 Go.
Il existe aussi une démo web pour le plus puissant des modèles. Officiellement, qu’en anglais. Dans la pratique, des langues comme l’allemand et l’espagnol ne lui sont pas (tout à fait) inconnues. C’est plus difficile en français…
Stability AI promet des modèles StableLM à 15, 30, 65 et 175 milliards de paramètres. Il vise aussi une intégration avec OpenAssistant pour renforcer sa boucle de feed-back. Et la mise en place d’une passerelle avec le portage C/C++ de LLaMA.
Elle a été générée avec Stable Diffusion XL. Instruction : « A Stochastic Parrot, flat design, vector art ».
Illustration principale générée par IA
EPEI, la société d'investissement de Daniel Kretinsky, a déposé une offre de reprise d'Atos. En…
Onepoint, l'actionnaire principal d'Atos, a déposé une offre de reprise du groupe. En voici quelques…
Broadcom a repris seul la main sur la vente de l'offre VMware d'AWS... qui, dans…
Microsoft expérimente, sous la marque ZTDNS, une implémentation des principes zero trust pour le trafic…
Accord de principe entre créanciers, propositions de reprise, discussions avec l'État... Le point sur le…
Un temps pressenti pour constituer le socle d'une suite bureautique AWS, Amazon WorkDocs arrivera en…