Après l'edge et le green IT, MLPerf s'ouvre à l'IA générative

Le benchmark MLPerf Training accueille un test fondé sur un modèle GPT-3. Quelles configurations s’en sont le mieux sorties ?

L’apprentissage par renforcement sur le jeu de Go ? Pas la peine de chercher cet exercice dans la dernière vague du benchmark MLPerf Training. Il a disparu à la faveur d’un test à base d’IA générative. Consistant en l’occurrence à entraîner, sur le dataset C4, un modèle de type GPT-3.

La configuration qui s’en est le mieux sortie sur le critère temps a mis environ 11 minutes pour atteindre l’objectif de perplexité attendu. Présentée par NVIDIA et CoreWeave, elle associe 448 nœuds pourvus chacun de 2 CPU Intel Xeon Platinum 8462Y+ (32 cœurs), 8 GPU NVIDIA H100 SXM5-80, 1 To de RAM et 8 To de stockage (NVMe U.2), avec 8 liens InfiniBand 400 Gb/s pour le compute et un DPU BlueField-2 pour la gestion réseau. Framework utilisé : NeMo Megatron.

Il a fallu un peu plus du double de temps (environ 23 minutes) pour une configuration à peu près moitié moins bien dotée (384 CPU et 1536 GPU du même type). Et un peu moins du quadruple (environ 45 minutes 30) pour une configuration à peu près quatre fois moins bien dotée… Une progression quasi linéaire, donc.

MLPerf : l’IA générative remplace le jeu de Go

La configuration qui l’a emporté sur ce benchmark IA générative s’est aussi distinguée sur l’exercice de classification (modèle ResNet sur ImageNet). Elle a mis un peu moins de 20 secondes, avec le framework MXNet version NVIDIA.

Une autre configuration en Xeon Platinum 8462Y+ (768 CPU, 3072 GPU) atteint les sommets sur le benchmark NLP. Il lui a fallu environ 8 secondes pour entraîner BERT-large sur un dataset issu de Wikipédia.

Les cinq autres benchmarks sont dominés par des configurations en Xeon Platinum 8480C (56 cœurs). La plus « modeste » est à 32 CPU (et 128 GPU), avec, par nœud, 2 To de RAM et 38 To de disque (8 To NVMe + 30 To U.2). Elle a mis un peu plus d’une minute et demie sur l’exercice de recommandation (version modifiée du modèle DLRM sur le dataset Criteo 4TB).
La mieux dotée (192 CPU, 768 GPU ; même quantité de disque et de RAM) a permis d’entraîner RetinaNet sur OpenImages (détection d’objets) en environ 1 min 30 s.

À consulter en complément :

Machine learning : quel sera le benchmark de référence ?
MLPerf s’attaque au coût énergétique du machine learning
IA : 4 certifications pour dynamiser votre parcours
Comment TotalEnergies alimente son usine à IA
L’UE ouvre la voie à des centres de « crahs test » de l’IA