MLPerf s'attaque au coût énergétique du machine learning

La mesure de la consommation énergétique fait son entrée sur MLPerf. Les premiers résultats englobent un nombre limité de benchmarks et de systèmes.

Jusqu’où peut monter la consommation énergétique d’un système de machine learning ? À 3564 W, d’après MLPerf. C’est en tout cas la valeur la plus haute qu’on trouve dans la dernière vague de résultats.

Cette vague concerne plus précisément l’une des trois suites de benchmarks qui composent le portefeuille MLPerf. En l’occurrence, celle qui évalue les performances en inférence.

La mesure de la consommation énergétique associée est une nouveauté. Pour cette première, elle était optionnelle. Cela se ressent dans la variété des systèmes mis à l’épreuve : en tout et pour tout, seulement sept qui ne soient pas des cartes de type Jetson, Raspberry Pi, Firefly ou kits de développement Qualcomm.

Six d’entre eux se trouvent dans la catégorie datacenter ; l’autre, dans la catégorie edge. Le seuil des 3564 W est atteint avec un serveur NVIDIA DGX doté de deux processeurs AMD EPYC 7742 et de huit GPU A100 (SXM, 80 Go). Plus précisément sur le benchmark de traitement du langage naturel (jeu de données SQuAD v1.1 ; modèle BERT ; taux de précision ciblé : 99 % en FP32).

Les systèmes de type datacenter sont notamment soumis à une obligation d’ECC sur les mémoires DRAM et HBM. Pour eux, MLPerf rend compte des performances et de la consommation sur cinq autres benchmarks :

Classification d’images (jeu de données ImageNet 2012 224 x 224 ; modèle ResNet50-v1.5, précision ciblée : 99 %)
Détection d’objets (COCO 1200 x 1200 ; SSD-ResNet34 ; 99 %)
Imagerie médicale (BraTS 2019 224 x 224 x 160 ; 3D-UNet ; 99 et 99,9 %)
Reconnaissance vocale (LibriSpeech ; RNN-T ; 99 %)
Recommandation (Criteo Terabyte ; DLRM ; 99 et 99,9 %)

Du SPEC dans MLPerf

Les systèmes de type edge ne sont pas soumis au test « imagerie médicale », mais à un deuxième test de détection d’objets, avec des images 300 x 300 et SSD-MobileNets-v1.

Les résultats sont présentés selon deux catégories « Closed » et « Open ». La première impose d’utiliser, pour la mise à l’épreuve, un modèle équivalent à celui de l’implémentation de référence. La seconde autorise des modifications non seulement du modèle, mais aussi des opérations pré- et post-traitement.

La mesure de la consommation s’appuie sur l’interface PTEDaemon de la SPEC, elle-même à l’origine de plusieurs benchmarks de référence. La liste des capteurs compatibles illustre le chemin qu’il reste pour aboutir à un standard véritablement universel. Et intégrer pleinement la dimension « développement durable » à MLPerf.

MLPerf : trois benchmarks et un consortium

La première incarnation de MLPerf était née en mai 2018. Son objectif : évaluer les performances en entraînement. Trois séries de résultats ont été publiées depuis lors ; la dernière en juillet 2020.

MLPerf Inference avait fait ses débuts en juin 2019. MLPerf HPC – également axé sur l’entraînement, mais avec des systèmes de calcul haute performance – a quant à lui émergé en novembre dernier.

Peu après, le consortium MLCommons s’est constitué pour porter le projet. À son conseil d’administration siègent Alibaba, Facebook, Google, Intel, NVIDIA et l’université Harvard.