Pour gérer vos consentements :

Machine learning : IBM pousse ModelMesh de Watson à Kubeflow

Version mineure, changements majeurs ? Ça bouge en tout cas du côté de KFServing. Ou plutôt de KServe. Telle est la nouvelle marque associée à ce projet né voilà deux ans* dans le cadre de l’initiative Kubeflow (« boîte à outils » pour le machine learning sur Kubernetes), dont il constitue la brique « déploiement ».

Ce rebranding s’accompagne d’un nouveau dépôt GitHub indépendant. Kubeflow en reste le coordinateur, mais une sortie de son giron est prévue d’ici à la fin de l’année.

Du changement, il y en a aussi en back-end. Avec la version 0.7.0, fraîchement lancée, KServe adopte ModelMesh. « En substance, il fonctionne comme un cache LRU distribué », résume IBM.

Le groupe américain est à l’origine de cette couche logicielle destinée à optimiser l’un des aspects du processus d’inférence : la mise à disposition des modèles. Il l’utilise sur plusieurs composantes de l’offre Watson (Assistant, NLU, Discovery). La voilà désormais en open source, intégrée au projet KServe.

Moins de serveurs, plus de modèles

Cible de ModelMesh : les applications qui font appel à de nombreux modèles. Par exemple, un par utilisateur pour des questions de privacy. Ou un par catégorie lorsqu’il s’agit de classer des éléments. La promesse : dépasser le paradigme « un modèle, un serveur », dont la mise en œuvre sur Kubernetes présente des complexités. Entre autres :

– Utilisation des ressources de calcul, notamment de par les sidecars injectés dans chaque pod

– Limite de pods par nœud
Par défaut, cette valeur est à 110. Pour un cluster à 50 nœuds, cela veut dire qu’on peut exécuter au mieux 1000 modèles, en partant du principe que chacun va utiliser en moyenne 4 pods (2 répliques transformatrices, 2 répliques prédictrices).

– Plafond d’IP
Chaque pod dans un serveur d’inférence a besoin d’une adresse. Sur la base sus-évoquée, un cluster à 4096 IP peut accueillir au mieux 1024 modèles.

ModelMesh permet d’exploiter des serveurs multimodèles. Il orchestre leur disponibilité sur le principe du LRU (least recently used = remplacement de celui utilisé le moins récemment), via un point de terminaison gRPC (proxy REST disponible). Il équilibre aussi les requêtes d’inférence entre toutes les copies d’un modèle.

On nous promet, avec le couple KServe + ModelMesh, une capacité d’exécution de « centaines de milliers » de modèles dans un environnement de 8 pods.

* Bloomberg, Google, IBM, NVIDIA et Seldon sont impliqués dans le développement de KServe. Leur objectif : fournir un protocole d’inférence standardisé entre frameworks.

Illustration principale © Siarhei – Adobe Stock

Recent Posts

AWS abandonne WorkDocs, son concurrent de Dropbox

Un temps pressenti pour constituer le socle d'une suite bureautique AWS, Amazon WorkDocs arrivera en…

2 jours ago

Eviden structure une marque de « serveurs IA »

Eviden regroupe cinq familles de serveurs sous la marque BullSequana AI. Et affiche le supercalculateur…

2 jours ago

SSE : l’expérience se simplifie plus que les prix

Le dernier Magic Quadrant du SSE (Secure Service Edge) dénote des tarifications et des modèles…

3 jours ago

IA générative : les lignes directrices de l’ANSSI

Formats de paramètres, méthodes d'apprentissage, mutualisation GPU... Voici quelques-unes des recommandations de l'ANSSI sur l'IA…

3 jours ago

De la marque blanche à l’« exemption souveraine », Broadcom fait des concessions aux fournisseurs cloud

À la grogne des partenaires VMware, Broadcom répond par diverses concessions.

3 jours ago

iPadOS finalement soumis au DMA

iPadOS a une position suffisamment influente pour être soumis au DMA, estime la Commission européenne.

4 jours ago