Pixtral, un premier modèle multimodal pour Mistral AI
À qui la première implémentation de Pixtral ?
Depuis quelques heures, c'est l'agitation dans la communauté Mistral AI, après la publication, sous licence Apache2, des poids de ce VLM (vision language model).
Acceptant les images en entrée, il est la première incarnation des travaux de l'entreprise sur la multimodalité.
Pour la création d'images, on repassera. De manière générale, très peu de modèles combinent les capacités « vision » et « génération ». GPT-4o en est capable, mais OpenAI a choisi de s'appuyer sur un back-end DALL-E.
Mistral just dropped a new vision multimodal model called Pixtral 12b!
Also downloaded params json - GeLU & 2D RoPE are used for the vision adapter. The vocab size also got larger - 131072
Also Mistral's latest tokenizer PR shows 3 extra new tokens (the image, the start & end). https://t.co/Kj8vy2egGy pic.twitter.com/BvBbp9q3zp
- Daniel Han (@danielhanchen) September 11, 2024
La bibliothèque mistral-common a été mise à jour pour permettre de tokeniser les images (encodage en dur, en base64 ou à partir d'URL).
Pixtral arrive sur un terrain où évoluent d'autres VLM Apache2 comme MiniCPM-V. Il vient aussi côtoyer une foule de modèles made in Chine, comme ceux de QwenLM.
À consulter en complément :
Pour son premeir LLM codeur ouvert, Mistral AI a choisi une architecture alternative
Silo AI, point d'ancrage européen pour Mistral AI
Safe Superintelligence Inc, la start-up qui vaut déjà 5 milliards de dollars
SpreadSheetLLM ou la promesse d'une GenAI plus à l'aise avec Excel
Le raisonnement inductif, capacité sous-estimée des LLM ?
Mozilla face au dilemme de la GenAI dans Firefox
Illustration principale générée par IA
Sur le même thème
Voir tous les articles Data & IA