Pour gérer vos consentements :
Categories: Solutions HPC

Supercalculateurs : ce qu’il faut savoir sur LUMI, la vitrine d’EuroHPC

Lumi ? En Finlande, ce mot veut dire neige. Tout en capitales, c’est aussi le nom d’un supercalculateur inauguré sur place cette semaine. Plus précisément à Kajaani (Cajanebourg), dans un datacenter du CSC (Centre de technologie de l’information pour la science).

LUMI est l’acronyme de Large Unified Modern Infrastructure. On est effectivement en présence d’un poids lourds. En tout cas par rapport aux autres supercalculateurs qui sont nés ou naîtront de l’entreprise commune EuroHPC.

Puissance garantie : 375 Pflops, pour 550 Pflops en crête. À comparer aux 323 de Leonardo (installé en Italie ; pas encore en service à grande échelle), aux 18 de MeluXina (Luxembourg), aux 13 de Karolina (Tchéquie), aux 10 de Vega (Slovénie) et aux 6 de Discoverer (Bulgarie).

Photo : Pekka Agarth

Les 151,9 Pflops que LUMI a délivrés sur le benchmark HPL (High-Performance Linpack) du dernier TOP500 – publié fin mai – le placent au premier rang en Europe. Et au troisième dans le monde, derrière Fugaki et Summit (pas de données pour le supercalculateur exascale Frontier).

Sur base Cray EX, LUMI pèse 150 tonnes et occupe 150 m². Il s’architecture comme suit.

Huit partitions… toutes ouvertes en septembre ?

La partition LUMI-G n’est pas encore en service. Elle apportera l’essentiel de la puissance. Avec, à capacité maximale, 2560 nœuds comprenant chacun 2 CPU AMD Trento 64 cœurs, 4 GPU AMD MI250X (128 Go) et un réseau 4 x 200 Gb/s.

LUMI-C est en service. Avec un peu plus de 1500 nœuds à deux CPU EPYC 7763 (architecture Zen 3) embarquant de 256 à 1024 Go de RAM. L’interface réseau, pour le moment à 100 Gb/s, passera à 200 Gb/s à la disponibilité générale de LUMI.

Cette disponibilité générale est censée intervenir fin septembre. La première phase pilote avait été lancée à l’été 2021. Elle a permis de tester la partition CPU, classée 76e au TOP500 de novembre 2021 (benchmark HPCG, High-Performance Conjugate Gradient, complémentaire au HPL). Une trentaine de projets ont participé à cette expérimentation. Dans des domaines comme la génétique, la chimie quantique et la physique des phonons.

La partition GPU en cours de test

Depuis avril 2022, LUMI-C est ouverte à une autre expérimentation. En l’occurrence, l’accès anticipé à quelques nœuds préfigurant ce que seront ceux de LUMI-G. Leur configuration : chacun un CPU EPYC 7662, 512 Go de RAM, 2 x 3 To de stockage NVMe, du réseau 100 Gb/s… et 4 GPU MI100. C’est-à-dire la génération précédant les MI250X. Le tout avec la pile ROCm, pour commencer dès maintenant à convertir les programmes conçus pour CUDA.

La deuxième phase de cette expérimentation doit démarrer en août. Elle réunira douze projets, annoncés en février. Dans des domaines comme l’astrophysique (Belgique), la mécanique des fluides (Pologne), la climatologie (Suède)… et un certain nombre dans le langage (Estonie, Finlande, Norvège).

La partition LUMI-D est orientée analytique et visualisation. Elle comprend 16 nœuds : 8 à 4 To de RAM et 8 doté chacun de 8 GPU NVIDIA A40. Tous embarquent deux CPU EPYC 7742 (architecture Zen 2), avec du réseau 200 Gb/s.

La partition LUMI-K se destine à l’exécution de microservices, sur base OpenShift.

LUMI-P associe deux systèmes de fichiers parallèles. D’un côté, 7 Po sur mémoire flash (débit maximal : 1740 Go/s). De l’autre, 80 Po sur disque dur, en quatre systèmes de fichiers Luster de 20 Po (débit maximal agrégé : 960 Go/s). Cette partition n’est pas destinée au stockage long terme : le délai de rétention est de 90 jours sur la partie HDD et de 30 jours sur la partie flash (facturée dix fois plus cher).

Pour du stockage à plus long terme, il y a la partition LUMI-O, qui propose de l’objet sur base Ceph.

Les promesses environnementales de LUMI

LUMI peut être alimenté en énergie renouvelable (hydroélectrique) à hauteur de 200 MW. Une connexion au réseau national lui apporte une capacité maximale de 900 MW. Sa situation géographique ouvre la voie au free cooling tout au long de l’année. La récupération de chaleur couvrira, estime EuroHPC, 20 % des besoins annuels de la ville. Qui compte environ 35 000 habitants.

Au dernier Green500, LUMI affiche un ration Gflops/W de 51,6. Il se positionne au premier rang en Europe. Et au troisième mondial, derrière deux déclinaisons de Frontier (également sur base Cray) : l’environnement de test/dev et celui de prod.

La France non impliquée directement

Budget alloué à LUMI : 202 millions d’euros. Une moitié apportée par l’UE. L’autre par dix pays membres d’EuroHPC (Belgique, Danemark, Estonie, Finlande, Islande, Norvège, Pologne, Suède, Suisse, Tchéquie).

En conséquence, EuroHPC gère l’allocation de la moitié de la puissance disponible. La recherche académique est sa première cible. Mais la porte n’est pas fermée à la R&D ouverte. Le consortium entend attribuer à l’industrie jusqu’à 20 % des ressources qu’il a à charge. Autant à des chercheurs établis dans des États membres que dans des pays associés au programme Horizon 2020. Des chercheurs non européens peuvent postuler s’ils s’associent à des entités basées sur le continent. Les demandes se font par l’intermédiaire du portail Puhuri, que gère l’université de Tartu (Estonie).

Le processus d’attribution passe par un examen technique des demandes. Une fois par mois pour des accès test/dev, avec un délai maximal de réponse de deux semaines. Une fois par trimestre pour les accès réguliers, avec jusqu’à deux mois de délai. Ces accès réguliers valent pour un an, renouvelable un an. Pas de matériel dédié : les ressources sont livrées en lot.

Les dix pays contributeurs bénéficient d’une capacité au prorata de leur financement. Ils définissent les critères d’allocation. EuroHPC se réserve un canal prioritaire destiné à servir des besoins critiques (sécurité de l’UE, pandémie…).

Des passerelles se sont montées avec deux ordinateurs quantiques : QAL 9000 (Suède) et Helmi (Finlande).

Illustrations © CSC

Recent Posts

GPT-4o : où, quand et pour qui ?

OpenAI orchestre un déploiement très progressif de GPT-4o, y compris de ses capacités multimodales.

23 heures ago

Nom de domaine : Twitter définitivement remplacé par X

Elon Musk avait racheté le nom de domaine X.com à PayPal en 2017. Depuis juillet 2023,…

1 jour ago

Microsoft propose une délocalisation hors de Chine à ses ingénieurs IA et Cloud

Des centaines d'ingénieurs en IA et cloud travaillant pour Microsoft se voient proposer de quitter…

1 jour ago

Du « Monde » à Reddit, le point sur les partenariats data d’OpenAI

Reddit s'ajoute à la liste des « partenaires data » d'OpenAI. Qui rejoint-il ?

1 jour ago

Comment Younited a appliqué la GenAI au crédit conso

Younited a utilisé PaLM 2 puis Gemini pour catégoriser des transactions bancaires en vue de…

1 jour ago

Processeurs : les États-Unis fabriqueront 30 % des puces avancées d’ici 2032

Les États-Unis vont tripler leur capacité nationale de fabrication de puces et contrôler 30 %…

2 jours ago