Serveurs IA : NVIDIA en fait tout un programme (de certification)

Une dizaine de serveurs associant GPU Ampere et réseau Mellanox bénéficient désormais du sceau que NVIDIA accorde dans le cadre de son dernier programme de certification, axé sur l’IA.

Où en est NVIDIA dans son dernier programme de certification de serveurs ? Le groupe américain avait ouvert la communication sur cette démarche en octobre 2020, à l’occasion de sa conférence GTC. Voici qu’il orchestre une mise au point.

On aura noté que sur la page dédiée au programme, la liste des partenaires affichés a évolué… à la baisse. Le logo de l’américain Boxx Technologies a disparu, comme celui du chinois H3C. Ce dernier figure néanmoins dans le tableau des systèmes certifiés, avec une référence : son serveur R5500 G5.

tableau systèmes certifiés NVIDIA

Six fournisseurs ont donc pour le moment fait valider au moins une plate-forme*. NVIDIA affirme qu’ils sont onze à avoir rejoint le programme avec, pour l’heure, un potentiel global de 70 systèmes certifiés.

NVIDIA ouvre la porte aux vGPU

On l’aura constaté : tous les systèmes validés embarquent des GPU A100. Autre composant obligatoire : le réseau Mellanox, avec les adaptateurs ConnectX-6 et les DPU BlueField-2.
L’ensemble est mis à l’épreuve sur une batterie de tests à partir d’applications disponibles dans le catalogue NGC :

  • Entraînement de modèles de deep learning en mono- et multicœur avec TensorFlow et PyTorch
  • Inférence avec le SDK TensorRT et le serveur Triton
  • Analyse de données avec RAPIDS
  • Développement d’applications avec le toolkit CUDA
  • Apprentissage profond sur nœuds multiples
  • Tâches de gestion du réseau et du stockage
  • Sécurité, gestion matérielle des clés de chiffrement

Configuration test

NVIDIA dispose d’un autre programme de certification référent fondé sur des tests similaires : NGC-Ready. Mais il concerne les systèmes à nœud unique avec GPU V100, T4 ou RTX 6000/8000. Le « nouveau » programme (NVIDIA-Certified Systems) englobe la mise en cluster et se limite à l’architecture Ampere.

Une extension est prévue pour couvrir des configurations dotées de GPU A40. On nous promet par ailleurs une fusion avec un autre programme : celui via lequel NVIDIA certifie des systèmes pour ses solutions vGPU.

configurations certifiées

Illustration principale © TophostCC BY-SA 2.0