Pour gérer vos consentements :

Plateformes DSML : les Data Science à l’échelle industrielle

La data est au cœur de la stratégie de transformation des entreprises et la mise en œuvre de l’IA laisse augurer de gros gains de productivité dans de multiples métiers. Les plus avancées ont constitué des cellules data science, des IA labs pour expérimenter et délivrer leurs premiers algorithmes, mais se pose rapidement la question de la montée à l’échelle de ces organisations.

La création de modèles d’IA « à la chaîne » par les data scientists pour les métiers, mais aussi le suivi des performances de ces algorithmes dans le temps nécessite un minimum d’outillage. De nombreux éditeurs se sont ainsi placés sur un marché baptisé DSML par Gartner, acronyme de (plateformes de) Data Science & Machine Learning.

Dataiku : un français parmi les leaders

Jean-Claude Raveneau-Dataiku

Parmi les leaders de ce jeune marché figure le français Dataiku. L’éditeur a levé près de 247 millions $ depuis sa création en 2013 et il compte notamment GE Aviation parmi ses premiers clients, mais aussi La Mutuelle Générale, Showroom Privé, Levi’s, NXP Semiconductors.

Dernièrement, Dataiku a lancé une version online de sa plateforme, une offre SaaS qui vise notamment les entreprises de taille plus petite. « La transition vers le cloud a permis à des entreprises plus petites d’utiliser la plateforme sans avoir besoin de compétences système spécifiques », souligne Jean-Claude Raveneau, Senior Director Product Management.

La concurrence est particulièrement nombreuse, avec des pure-players, des généralistes, mais aussi des fournisseurs cloud qui veulent attirer un maxi­mum de Data Scientists sur leurs plateformes. Tous les hyperscalers sont aussi présents sur le marché. Si Google Cloud bénéficie de l’excellente image de ses outils d’IA, AWS, Microsoft Azure et Alibaba Cloud proposent des solutions alternatives.

L’atout de leurs offres réside dans l’intégration de ces outils à l’écosystème cloud de chacun, avec un vrai risque de « vendor lock-in ». Le choix du service cloud qui porte le data lake influe fortement sur la plateforme DSML qui sera mise en œuvre.

Les éditeurs « historiques » de ce que l’on appelait autrefois le data mining se sont bien évidemment lancés dans la bataille. IBM mise sur la forte notoriété de Watson pour pousser son offre Watson Studio et le champion de l’analytique SAS promeut sa plateforme Viya auprès de ses clients historiques, avec une offre qui supporte tant le langage SAS que Python.

Les acteurs du data mining dans la bataille

Rémi Griveau, Business Solutions Manager chez SAS précise : « L’offre s’adresse à toutes les entreprises, qu’elles aient déjà une culture SAS ou pas. Cette culture est un accélérateur à l’adoption, d’autant que ces clients ont la possibilité de capitaliser sur leur existant SAS sans partir d’une feuille blanche. » L’expert souligne que la dernière version « Cloud-Native » de SAS Viya doit simplifier les petits déploiements pour les entreprises de petite taille ou pour les projets ciblés.

Chaque plateforme a ses atouts et ses faiblesses, que ce soit dans l’acquisition et la préparation des données, le support du machine learning ou les outils collaboratifs mis à disposition des data scientists et des utilisateurs métiers.

Toutefois, toutes ces offres se rejoignent sur les composantes open source qu’elles embarquent. C’est notamment le cas des librairies de machine learning /deep learning Python, ainsi que les notebook Jupyter qui proposent des dossiers numériques dans lesquels tous les éléments du projet de modèle sont stockés.

Si le marché des solutions DSML va certainement se concentrer dans les années à venir, celui-ci offre un vaste choix d’approches et de solutions qui permettent déjà de franchir une étape de maturité dans le déploiement de l’IA dans les entreprises.

Décryptage d’experts

Shriman Tiwari – Keyrus

« L’atout d’une plateforme DSML est la réduction de temps Devops, c’est-à-dire le temps de configuration d’environnement de développement et des serveurs. Le temps d’installation est rapide et les coûts de mise en oeuvre sont relativement faibles.

Les organisations peuvent ainsi consacrer leur temps au développement des algorithmes et peuvent être plus efficaces.
En outre, le temps de déploiement de l’outil est réduit grâce aux outils déjà intégrés dans les plateformes. Par exemple, sur Google Cloud Platform et Microsoft Azure il est très facile de packager la solution et de la déployer. »

Shriman Tiwari – Tech Lead Data Science / Data Engineering chez Keyrus

Chems Eeedine Nabti – Ippon Technologies

« Il est fortement recommandé de réaliser un audit préalable afin d’identifier les cas d’usage et les objectifs des projets Machine Learning et Data Science.
La plateforme doit être choisie en fonction de la quantité de données, du niveau de sécurité souhaité selon la sensibilité des données, mais aussi de la taille de l’équipe Data Science & ML, le budget, les contraintes en termes de temps et la nature des projets.
Deep learning, traitement d’images, etc. demandent des ressources de calcul puissantes comparé au Machine Learning et aux algorithmes plus classiques. Tous ces critères, seront des clés qui permettront d’aider l’entreprise à choisir le bon outil qui contient tous les services nécessaires pour faire de la DS & ML, ou bien la combinaison d’outils qui couvre les attentes et répond au mieux aux besoins de l’entreprise. »

Chems Eeedine Nabti – Lead Data Scientist chez Ippon Technologies

Les fonctions clés d’une plateforme de DSML

  • Définition du besoin
  • Ingestion de la donnée
  • Préparation de la donnée
  • Exploration des données avec des outils interactifs
  • Feature engineering (extraction des informations depuis la donnée brute)
  • Création et entraînement des modèles d’IA
  • Test des modèles
  • Déploiement des modèles en production
  • Monitoring des modèles
  • Maintenance des modèles
  • Gouvernance des données et des modèles
  • Brique d’explicabilité des modèles d’IA (XAI)
  • Suivi de la valeur Business
  • Fonctions de collaboration

Les principales offres du marché

Editeurs                                              Solutions

Alibaba Cloud                                Platform for AI, Data Science Workshop

Altair                                                  Altair Knowledge Works

Alteryx                                              Alteryx APA Platform

Amazon Web Services              Amazon SageMaker

Anaconda                                        Anaconda Enterprise Edition

Cloudera                                          Cloudera Machine Learning

Databricks                                     Unified Data Platform

Dataiku                                            Data Science Studio

DataRobot                                    DataRobot Enterprise AI Platform

Domino                                            Domino Data Science Platform

Google Google                          Cloud AI Platform

H2O.ai                                          H2O Driverless AI

IBM                                               IBM Watson Studio

KNIME                                        KNIME Analytics Platform

MathWorks                              Matlab

Microsoft                                  Azure Machine Learning

RapidMiner                              RapidMiner Studio

Samsung                                      SDS Brightics AI

SAS                                                 SAS Viya

Tibco Software                       Tibco Data Science Platform

Recent Posts

EDR : pourquoi le modèle managé MDR s’impose

Les offres de cybersécurité ont le vent en poupe et le marché des solutions EDR…

2 semaines ago

IT frugale : et si vous dépensiez mieux ?

De plus en plus pointée du doigt pour son empreinte environnementale mais aussi son coût…

3 semaines ago

Cloud Management Platform : comment optimiser la gestion d’une infrastructure multicloud

Les plateformes de cloud management ( CMP) montent en puissance pour répondre à la généralisation…

2 mois ago

Sobriété numérique : le nouvel objectif des DSI

Allongement de la durée de vie des équipements, optimisation de l'efficience énergétique des datacenters, éco-conception,…

2 mois ago

SIEM as a Service : la surveillance du SI bascule dans le Cloud

L’ouverture sur le Cloud, mais aussi au télétravail poussent de nombreuses entreprises à vouloir rehausser…

3 mois ago

Assurance cyber : la prime flambe, comment la réduire ?

Face à la multiplication des cyberattaques, les assureurs augmentent leurs primes et élèvent le niveau…

3 mois ago