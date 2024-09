À qui la première implémentation de Pixtral ?

Depuis quelques heures, c’est l’agitation dans la communauté Mistral AI, après la publication, sous licence Apache2, des poids de ce VLM (vision language model).

Acceptant les images en entrée, il est la première incarnation des travaux de l’entreprise sur la multimodalité.

Pour la création d’images, on repassera. De manière générale, très peu de modèles combinent les capacités « vision » et « génération ». GPT-4o en est capable, mais OpenAI a choisi de s’appuyer sur un back-end DALL-E.

Mistral just dropped a new vision multimodal model called Pixtral 12b!

Also downloaded params json – GeLU & 2D RoPE are used for the vision adapter. The vocab size also got larger – 131072

Also Mistral’s latest tokenizer PR shows 3 extra new tokens (the image, the start & end). https://t.co/Kj8vy2egGy pic.twitter.com/BvBbp9q3zp

— Daniel Han (@danielhanchen) September 11, 2024