NVIDIA libère un nouvel étage de la fusée GPUDirect

NVIDIA GPUDirect Storage

GPUDirect Storage sorti de phase expérimentale, les fournisseurs de systèmes de stockage commencent à communiquer leurs plans d’intégration.

Excelero, IBM, Pavilion, ScaleFlux, VAST Data… Autant de fournisseurs qui y sont récemment allés de leur annonce à propos de GPUDirect Storage. Et pour cause : la technologie vient de sortir de phase expérimentale. 

NVIDIA en avait orchestré la première démonstration publique voilà plus de deux ans, à la GTC 2019. Il avait ouvert le cycle alpha en fin d’année, à la SuperComputing. Puis la bêta en octobre dernier, à la GTC 2020.

Tout du long, la promesse n’a pas changé. Il s’agit de permettre le transfert direct de données entre la mémoire des GPU et les systèmes de stockage, locaux (NVMe) ou distants (NVMe-oF). À l’image de ce que NVIDIA propose déjà pour les communications entre ses GPU (GPUDirect peer-to-peer) et avec des NIC (GPUDirect RDMA).

La pile se présente comme suit. Elle repose sur l’API cuFile – alternative à POSIX.

architecture GPUDirect Storage

Magnum IO accueille GPUDirect Storage

GDS est validé sur les GPU T10x, T4, A100, Quadro P6000 et V100. Pour en exploiter pleinement les capacités, on utilisera RHEL 8.3/8.4 ou Ubuntu 18.04/20.04. NVIDIA l’intègre notamment dans la stack Magnum IO, destinée à gérer les flux de données au sein des datacenters. Il l’a aussi ajouté à sa plate-forme HGX, aux côtés de l’A100 80 Go PCIe et du contrôleur InfiniBand NDR 400G.

Magnum IO stack

Du côté d’IBM, on a commencé à expérimenter DGS sur Spectrum Scale 5.1.1. Et on l’a validé sur les configuration DGX POD à deux, quatre et huit nœuds. On nous promet par ailleurs, d’ici à fin septembre, l’intégration dans un DGX SuperPOD avec des baies ESS 3200.

Pavilion avance quant à lui un benchmark sur un système DGX-A100. Avec deux baies HyperParallel, il annonce 191 Go/s en lecture et 118 en écriture sur du stockage fichier (NFS RDMA). Et 182/149 Go/s en mode bloc (NVMe-RDMA et NVMe-RoCE).

VAST Data évoque pour sa part plusieurs cas d’usage. Entre autres, une entreprise de services financiers qui utilise Spark et RAPIDS. Ainsi qu’un telco qui réalise de la capture de flux à haut volume pour créer des vidéos 3D.

Illustration principale © railwayfx – Adobe Stock