AMD : des GPU et une roadmap pour rester dans la course à l'IA
En parallèle des annonces de NVIDIA à la GTC Paris, AMD étoffe sa gamme de GPU pour serveurs et prépare une nouvelle version de la stack ROCm.

En deux ans, la capacité de calcul IA disponible en Europe aura décuplé et le spectre d'une pénurie de GPU sera loin.
On y croira ou non, mais tel est l'engagement pris par NVIDIA. Principal levier pour y parvenir : les racks NVL72, équipés des puces Grace Blackwell (CPU Grace + GPU Blackwell). Plus précisément, pour le moment, de la génération GB200, dite capable de délivrer 20 Pflops en FP8 (avec dispersion).
AMD vient d'officialiser une offre concurrente associant CPU EPYC de 5e génération, NIC Pensando Pollara... et GPU MI350.
Ces derniers, nouveaux au catalogue, embarquent 8 dies à 32 CU (256 Mo de cache partagé) et 288 Go de mémoire HBM, pour 8 To/s de bande passante. Il en existe deux versions :
- MI350X, cadencé à 2,2 GHz avec enveloppe de 1000 W et refroidissement passif
- MI355X, à 2,4 GHz, avec option de refroidissement liquide pour monter à 1400 W
AMD les compare au B200 SXM5-180. Il les intègre dans des racks de 64 GPU (refroidissement passif) ou 128 (liquide). Il annonce, par rapport à la génération précédente, une puissance de calcul quadruplée. Cette affirmation se base sur la comparaison de la performance maximale théorique en FP4, FP8 et FP16 entre des configs à 8 GPU MI355X et MI350X d'un côté ; MI325X, MI300X, MI250X et MI100 de l'autre.
Toujours sur la base de la performance théorique, et en considérant le nombre maximal de GPU, AMD assure que ses racks sont 1,8 fois plus puissants que les GB200 NVL72 en FP4 et 3,6 fois plus en FP6 (2,6 Eflops), avec 2,8 fois plus de mémoire HBM (36 To).
Pour ce qui est de leur disponibilité, un fournisseur est mis en avant : Oracle, qui compte en proposer au deuxième semestre 2025 dans le cadre de clusters zettascale.
ROCm sur Ryzen : la perspective d'un support officiel
En 2026 devrait arriver la génération MI400. Annoncée à 40 Pflops en FP4 pour pour un maximum de 432 Go HBM, elle équipera des racks Helios dotés en CPU EPYC de 6e génération ("Venice", jusqu'à 256 coeurs) et de NIC Vulcano (800G, contre 100G avec les Pollara).
Entre temps - au troisième trimestre 2025 - interviendra la disponibilité générale de la stack ROCm 7. S'il en dit peu à son sujet, AMD met tout de même l'accent sur les connexions avec des moteurs comme SGLang, vLLM et llm-d pour l'inférence distribuée. Ainsi que sur la perspective d'une utilisation sur les laptops et workstations Windows pourvus en Ryzen.
Lire aussi : MLPerf : la quête de benchmarks IA représentatifs
Le support des formats FP4/FP6 aide à revendiquer une hausse de performance par rapport à ROCm 6 : x 3,5 en inférence et x 3 en entraînement. Plus précisément :
- Inférence : x 3,2 pour Llama 3.1 70B ; x 3,4 pour Qwen2-72B ; x 3,8 pour DeepSeek-R1
Mesuré en tokens par seconde, sur des configs à 8 MI300X (192 Go, 750 W)+ 1 EPYC 9534. En TP2 pour Llama et Qwen ; en FP16 pour R1.
Des versions plus anciennes de vLLM, PyTorch et SGLang sont utilisées avec ROCm 6 par rapport à ROCm 7. - Entraînement : x 3 pour Llama 2 70B et Llama 3.1 8B ; x 3,1 pour Qwen-1.5 7B
Mesuré en Tflops, sur la même config, avec Megatron-LM.
AMD Developer Cloud : des GPU à louer chez DigitalOcean
La disponibilité globale est immédiate pour AMD Developer Cloud. Ce service se destine aux développeurs individuels et aux projets open source. Il donne accès à un environnement managé associant notebooks Jupyter managé et toolkits conteneurisés, sur des GPU MI300X hébergés chez DigitalOcean. Deux configurations :
- Small : un GPU + 20 vCPU + 240 Go de RAM + 5 To de disque NVMe
- Large : 8 fois plus de chaque ressource
La facturation se fait à l'usage. Il est néanmoins possible d'obtenir un crédit de 25 heures GPU (environ 50 $). Valable 10 jours, il n'englobe toutefois pas les volumes attachés, le stockage objet et les backups. Dans tous les cas, il est nécessaire de fournir un numéro de carte bancaire.
AMD Developer Cloud s'ajoute à :
- Programme d'évaluation Instinct
Pour les entreprises. Test, via les partenaires cloud d'AMD, de GPU MI300X et MI325X en vue de déploiements commerciaux. - Option cluster IA & HPC
Pour la sphère académique. Jusqu'à un an d'accès à des MI325X, MI300X, MI250X et MI210 pour des projets de recherche. - Essai de ROCm sur Radeon PRO
Jusqu'à 14 jours. En Europe, cartes W7900 sur des stations de travail Grando (partenaire : Comino). En Amérique du Nord, cartes W7800 et W7900 sur des stations de travail Colfax ProEdge TRX5400.
Un objectif d'efficacité énergétique à l'échelle du rack
Parallèlement à ces annonces, AMD affirme avoir rempli son objectif "30x25". Il s'agissait, sur la période 2020-2025, de multiplier par 30 l'efficacité énergétique des noeuds de calcul pour l'entraînement IA et le HPC. Le groupe américain dit avoir atteint, avec la génération MI350, un facteur de x 38 sur une config à 4 GPU + 1 CPU (exercice : multiplication de matrices générales de 4k).
Un autre objectif d'efficacité énergétique avait été atteint auparavant : x 25 sur 2014-2020 pour les processeurs mobiles. AMD a donc ensuite élargi le périmètre des noeuds de calcul. Il vise désormais l'échelle du rack. Promesse : x 20 en inférence et en entraînement entre 2024 et 2030. À cet horizon, la consommation électrique pour un même workload serait réduite de 95 %. Sous un autre angle : on réaliserait avec un rack ce qui en nécessite 275 aujourd'hui.
Cette hypothèse ne tient pas compte des avancées algorithmiques. Elle se fonde sur les ratios de consommation suivants :
FLOPS | Bande passante HBM | Bande passante scale-up | |
Entraînement | 70 % | 10 % | 20 % |
Inférence | 45 % | 32,5 % | 22, 5 % |
Illustrations © AMD
Sur le même thème
Voir tous les articles Data & IA