Grok 3 est lancé : ce qui le distingue d'entre les LLM
xAI a dévoilé une nouvelle itération de Grok. Sur le papier, elle se rapproche des capacités et des performances de modèles à l'état de l'art.

Grok 3, une belle preuve que ça n'en est pas fini des lois d'échelle ?
Cette opinion fait son chemin dans la Silicon Valley. Plusieurs éléments la nourrissent. À commencer par les capacités de calcul dédiées à son entraînement.
Colossus : un cluster de 200 000 GPU pour Grok 3
Au printemps 2024, xAI avait entrepris de construire un cluster de 100 000 GPU H100. Face aux délais de 18 à 24 mois annoncés par les fournisseurs de datacenters, la société avait investi une ancienne usine Electrolux à Memphis (Tennessee).
Il lui a fallu environ quatre mois pour installer 100 000 GPU (120 MW). Et trois de plus pour passer à 200 000 (250 MW). Des accumulateurs Tesla Megapack ont été déployés en renfort des générateurs pour absorber les fluctuations de demande inhérentes à l'entraînement de Grok 3.
xAI dit travailler sur un cluster "5 fois plus puissant" ; en l'occurrence, de 1,2 GW. Elon Musk évoque les cartes accélératrices NVIDIA GB200, qui associent un CPU Grace et des GPU Blackwell.
Lire aussi : Choisir le bon GPU pour l'IA et le machine learning
Raisonnement et mise à l'échelle de l'inférence
La mise à l'échelle de l'inférence, dont on a beaucoup parlé avec DeepSeek, apparaît également bénéfique à Grok 3. Elle va de pair avec ses capacités de raisonnement. xAI l'a intégrée sous la forme d'un mode "Big Brain". En l'activant, on accorde au modèle davantage de temps et de ressources de calcul pour qu'il approfondisse sa réflexion.
Cette réflexion fait l'objet d'une chaîne de pensée accessible à l'utilisateur. Mais pas en intégralité. Objectif : éviter la distillation. C'est-à-dire l'usage des outputs du modèle pour en entraîner un autre. Une pratique dont OpenAI - et, avec lui, Washington - a accusé DeepSeek.
Ce dernier a utilisé quasi exclusivement de l'apprentissage par renforcement (sans fine-tuning) pour développer les capacités de raisonnement de ses derniers modèles. xAI ne dévoile pas sa recette, mais semble avoir suivi la même voie. Il affirme cependant avoir limité l'exercice à des problèmes de maths et de code, Grok 3 parvenant ensuite à généraliser.
Dans la continuité des aptitudes de raisonnement, xAI introduit, comme bien d'autres avant lui, une fonctionnalité de "recherche en profondeur". La promesse, désormais, est connue : effectuer en quelques minutes des tâches qui pourraient prendre plusieurs heures. Le modèle cite ses sources et affiche ses étapes de progression.
Grok 3 se distingue sur la Chatbot Arena
xAI annonce des résultats d'évaluation sur les benchmarks AIME (maths), GPQA (science) et LiveCodeBench (codage), mais ne précise pas dans quelles conditions il les a réalisées.
Grok 3 might be the best base LLM for real-world physics!
- Yuchen Jin (@Yuchenj_UW) February 18, 2025
Prompt: "write a python script of a ball bouncing inside a spinning tesseract".
There is no "thinking" or "big brain" mode enabled, it's just the base model. I'm very interested in trying their reasoning models. pic.twitter.com/Fv2rfEbB4j
Pour des indicateurs plus parlants, on peut se tourner vers la Chatbot Arena. Son principe : l'internaute soumet une requête, reçoit des réponses de deux modèles et sélectionne la meilleure. Au bout d'environ 8000 évaluations, l'ELO de Grok 3 dépassait 1400, ce qui le plaçait en tête.
BREAKING: @xAI early version of Grok-3 (codename "chocolate") is now #1 in Arena! 🏆
- lmarena.ai (formerly lmsys.org) (@lmarena_ai) February 18, 2025
Grok-3 is:
- First-ever model to break 1400 score!
- #1 across all categories, a milestone that keeps getting harder to achieve
Huge congratulations to @xAI on this milestone! View thread 🧵... https://t.co/p8z8lccNd5 pic.twitter.com/hShGy8ZN1o
Vers une séparation plus marquée entre Grok et X
Le déploiement de Grok 3 sur X a démarré lundi 17 février, pour les abonnés Premium+ (21,90 € TTC/mois ou 262,80 €/an). On le trouvera aussi dans l'app mobile Grok, pour le moment disponible sur iOS et dont le lancement en France est prévu pour le 28 février.
Cette même app permettra de souscrire un abonnement spécifique dit SuperGrok. Attendu à 30 $/mois (300 $/an), il donnera accès à davantage de requêtes avec raisonnement et recherche en profondeur. Ainsi qu'à la génération d'images en illimité.
Pour disposer des versions les plus récentes de Grok 3, ce ne sera pas sur l'application mobile, mais sur le site grok.com. Celui-ci n'est pour le moment pas ouvert dans l'Union européenne (il l'est en Suisse, par exemple).
xAI entend rendre la version mini de Grok 3 accessible "gratuitement à tous dans les prochains jours". Un mode vocal natif (sans passage par la modalité texte) devrait suivre, avant la disponibiité de Grok 3 sur l'API. Quant à l'ouverture des poids de Grok-2, c'est une question de mois, nous affirme-t-on.
Grok speaks pic.twitter.com/CEgy9jS5L9
- Ebby Amir (@ebbyamir) February 18, 2025
Des framboises aux pélicans, les inconstances de Grok 3
Lors de sa présentation, Grok 3 s'est montré plus à l'aise sur la simulation physique (calcul et restitution, dans un plan 3D, d'une trajectoire viable pour un aller-retour Terre-Mars) que sur la création d'un jeu vidéo. Ce dernier devait mêler les règles de Tetris (entre autres, faire disparaître toute ligne complète) et de Bejeweled (faire disparaître tout alignement de trois joyaux de même couleur).
Le mode raisonnement permet à Grok 3 de résoudre certains problèmes sur lesquels butent des modèles à l'état de l'art. Par exemple, déterminer la quantité de calcul ayant servi à entraîner GPT-2 à partir de l'article scientifique qu'OpenAI lui avait consacré. Ou, plus prosaïquement, identifier que 9,11 < 9,9 (ce qui ne coule pas de source pour les LLM) et qu'il y a trois r dans "strawberry"...
Sur le fameux test de Simon Willison (cocréateur de Django) consistant à générer une image vectorielle 2D d'un pélican qui fait du vélo, Grok 3 ne s'en sort pas aussi bien que Claude, entre autres. L'humour n'est pas non plus son fort.
Un an et demi de xAI
En un an et demi, xAI aura donc atteint - à en croire les performances qu'il annonce - le niveau des modèles à l'état de l'art.
L'entreprise avait officiellement lancé ses activités en juillet 2023. Cinq mois plus tard, elle avait ouvert, en bêta, son chatbot Grok. Le LLM sous-jacent était alors Grok-1. Il résultait de l'entraînement de Grok-0 (33B) puis de son amélioration sur le codage et, déjà, le raisonnement. Il se hissait alors au niveau de GPT-3.5. Voire de Claude 2 sur le traitement du langage.
En fin d'année, le chatbot arrivait sur X, pour les abonnés Premium+.
En mars 2024, xAI avait publié les poids de Grok-1, dans une version de base datée d'octobre 2023. On avait pu noter l'adoption d'une architecture MoE (Mixture of Experts), dans laquelle des modèles spécialisés coexistent et s'activent en fonction des requêtes. Sorti peu après, Grok-1.5 avait, tout du moins sur le papier, amélioré les capacités de résolution de problèmes. Tout en élargissant la fenêtre de contexte de 8k à 128k. xAI y avait ensuite ajouté la vision. Puis à l'été 2024 était arrivée la bêta de Grok-2, pour les abonnés X Premium. Son ELO sur Chatbot Arena (environ 1280) était en dessous de ceux de GPT-4o et de Gemini 1.5. L'ouverture à tous les utilisateurs du réseau social intervint en décembre 2024, parallèlement à l'ajout de la recherche sur le web et des citations, ainsi que d'un nouveau modèle pour la génération d'images.
Sur le même thème
Voir tous les articles Data & IA