Phi-3-mini : Microsoft lance son premier SLM

Avec Phi-3-mini, Microsoft lance un SLM conçu pour attirer une clientèle disposant de ressources financières et techniques plus limitées.

Dans un article de blog , Misha Bilenko, vice-président de Microsoft GenAI, affirme que les modèles Phi-3 « sont les petits modèles de langage (SLM) les plus performants et les plus rentables disponibles, surpassant les modèles de même taille et de taille supérieure dans une variété de tests de langage, de raisonnement, de codage et de mathématiques ».

À l’heure actuelle, la taille des LLM signifie que leur fonctionnement nécessite des ressources informatiques importantes.

Microsoft a donc développé une série de petits modèles de langage (SLM) qui offrent bon nombre des mêmes fonctionnalités que les LLM, mais sont de plus petite taille et sont formés sur de plus petites quantités de données.

Microsoft va publier trois petits modèles de langage (SLM), le premier étant Phi-3-mini. Microsoft affirme que le Phi-3-mini mesure 3,8 milliards de paramètres et fonctionne mieux que les modèles deux fois plus grands.

Dans les semaines à venir, des modèles supplémentaires seront ajoutés à la famille Phi-3.

Selon Misha Bilenko, Phi-3-small et Phi-3-medium seront bientôt disponibles dans le catalogue de modèles Azure AI et dans d’autres jardins modèles.

Phi-3-mini est disponible sur Microsoft Azure AI Studio, la plateforme de modèles d’apprentissage automatique, Hugging Face et le framework Ollama.

Le SLM sera également disponible sur l’outil logiciel Nvidia Inference Microservices (NIM) de Nvidia et a également été optimisé pour ses unités de traitement graphique (GPU).

Selon Microsoft, le Phi-3-mini est disponible en deux variantes de longueur de contexte : 4K et 128K tokens. Il s’agit du premier modèle de sa catégorie à prendre en charge une fenêtre contextuelle allant jusqu’à 128 000 tokens, avec peu d’impact sur la qualité.

« Phi-3-mini fait mieux que les modèles deux fois plus grands, et Phi-3-small et Phi-3-medium surpassent les modèles beaucoup plus grands, y compris le GPT-3.5T. » affirme Bilenko.

Misha Bilenko a également écrit que grâce à leur petite taille, les modèles Phi-3 peuvent être utilisés dans des environnements d’inférence limités en calcul. Phi-3-mini, en particulier, peut être utilisé sur l’appareil, en particulier lorsqu’il est optimisé avec ONNX Runtime pour une disponibilité multiplateforme.

La sortie du Phi-3-mini de Microsoft intervient après que le géant du logiciel a investi la semaine dernière 1,5 milliard $ dans la société d’IA G42 basée aux Émirats Arabes Unis.

Tom Jowitt, Silicon UK

Lire aussi : ChatGPT : le Financial Times signe avec OpenAI