Pour gérer vos consentements :

Face au phénomène ChatGPT, IBM sort (un peu) du bois

Les modèles de fondation* peuvent-ils s’exécuter efficacement sur des infrastructures composées de matériel « sur étagère » ? IBM a suivi cette piste… pour en arriver à Vela.

Le groupe américain vient de lever le voile sur ce « superordinateur IA » – pour reprendre ses termes, les mêmes que Microsoft utilise dans le cadre de son partenariat avec OpenAI. Ses équipes de recherche l’utilisent, affirme-t-il, depuis mai 2022.

Vela a la particularité d’être intégré avec le cloud d’IBM. Il peut donc en exploiter les composantes (VPC, stockage objet…) et les ressources pour monter en charge.

Concrétiser cette intégration a impliqué de développer un système capable d’exploiter du réseau standard de type Ethernet (par opposition à des technologies dédiées comme InfiniBand).

Pour éviter le goulet d’étranglement, on a notamment activé le SR-IOV (virtualisation d’entrée-sortie à racine unique), les extensions VMX et les pages mémoire larges. Tout en associant un système de contrôle de débit à l’API FSDP (Fully Shared Data Parallel) de PyTorch. Laquelle permet de distribuer les modèles et leurs données entre les GPU.

Vela : VM plutôt que bare metal

L’expérimentation a reposé pour l’essentiel sur du matériel « standard ». En l’occurrence, des nœuds dotés de processeurs x86, de GPU NVIDIA, du NVLink et de deux liens 100 Gbps chacun.

La base est similaire pour Vela. Chaque nœud embarque deux Xeon Scalable (Cascade Lake), quatre disques NVMe de 3,2 To, 1,5 To de RAM et 8 GPU A100 (80 Go) avec NVLink et NVSwitch.

IBM a fait le choix d’instancier des VM plutôt que d’allouer du matériel nu. Motif : cela facilite la montée en charge dynamique des clusters (Vela utilise OpenShift) et la réattribution de ressources entre workloads. Les technologies susmentionnées viennent réduire la surcharge inhérente à ce choix. Elles permettent de « masquer » la latence réseau derrière la latence GPU. Latence qu’IBM estime pouvoir diviser par deux en déploiement le RoCE (RDMA over Converged Ethernet) et le GDR (GPU Direct RDMA).

Sur tout nœud, chaque port de l’interface réseau est connecté à un switch de rack différent. Et chacun de ces switchs est connecté, via deux liens 100G, à cinq spine switches.

* De grande taille, entraînés sur une petite quantité de données non étiquetées, et adaptables à des tâches en aval.

Photo d’illustration © Chetan Creation – Adobe Stock

Recent Posts

Legapass : comment protéger ses données privées jusque dans l’au-delà

Comment gérer les données numériques après la mort de son détenteur ? La jeune pousse…

2 jours ago

Iris, un assistant d’IA conversationnelle en langue des signes

Ivès, expert en accessibilité de la surdité, s’est associé à Sopra Steria et à IBM…

3 jours ago

GenAI : le Royaume-Uni poursuit ses investigations sur les partenariats de Microsoft et Amazon

L'Autorité de la concurrence et des marchés (CMA) a lancé la phase de recherche de…

3 jours ago

Clients de VMware : les raisons de la colère

Broadcom remplace pas moins de 168 logiciels VMware par deux grandes licences de location correspondant…

4 jours ago

Laurent Carlier – BNP Paribas Global Market : « L’IA permet de modéliser des relations plus complexes, mais il faut rester prudent »

La banque d’investissement utilise l'IA pour proposer des stratégies individualisées, en termes de rendement et…

4 jours ago

Open Compute Project : les datacenters partagent des bonnes pratiques pour l’environnement

OVHCloud partage ses efforts environnementaux au sommet de l’Open Compute Project qui se tient à…

4 jours ago