Plateformes DSML : les Data Science à l’échelle industrielle

0

Si l’Open Source et Python règnent en maîtres dans les Data Science, des éditeurs proposent des plateformes pour structurer la création et la maintenance des modèles d’IA. Une étape clé dans la maturité de l’IA en entreprise.

La data est au cœur de la stratégie de transformation des entreprises et la mise en œuvre de l’IA laisse augurer de gros gains de productivité dans de multiples métiers. Les plus avancées ont constitué des cellules data science, des IA labs pour expérimenter et délivrer leurs premiers algorithmes, mais se pose rapidement la question de la montée à l’échelle de ces organisations.

La création de modèles d’IA « à la chaîne » par les data scientists pour les métiers, mais aussi le suivi des performances de ces algorithmes dans le temps nécessite un minimum d’outillage. De nombreux éditeurs se sont ainsi placés sur un marché baptisé DSML par Gartner, acronyme de (plateformes de) Data Science & Machine Learning.

Dataiku : un français parmi les leaders

Jean-Claude Raveneau-Dataiku

Parmi les leaders de ce jeune marché figure le français Dataiku. L’éditeur a levé près de 247 millions $ depuis sa création en 2013 et il compte notamment GE Aviation parmi ses premiers clients, mais aussi La Mutuelle Générale, Showroom Privé, Levi’s, NXP Semiconductors.

Dernièrement, Dataiku a lancé une version online de sa plateforme, une offre SaaS qui vise notamment les entreprises de taille plus petite. « La transition vers le cloud a permis à des entreprises plus petites d’utiliser la plateforme sans avoir besoin de compétences système spécifiques », souligne Jean-Claude Raveneau, Senior Director Product Management.

La concurrence est particulièrement nombreuse, avec des pure-players, des généralistes, mais aussi des fournisseurs cloud qui veulent attirer un maxi­mum de Data Scientists sur leurs plateformes. Tous les hyperscalers sont aussi présents sur le marché. Si Google Cloud bénéficie de l’excellente image de ses outils d’IA, AWS, Microsoft Azure et Alibaba Cloud proposent des solutions alternatives.

L’atout de leurs offres réside dans l’intégration de ces outils à l’écosystème cloud de chacun, avec un vrai risque de « vendor lock-in ». Le choix du service cloud qui porte le data lake influe fortement sur la plateforme DSML qui sera mise en œuvre.

Les éditeurs « historiques » de ce que l’on appelait autrefois le data mining se sont bien évidemment lancés dans la bataille. IBM mise sur la forte notoriété de Watson pour pousser son offre Watson Studio et le champion de l’analytique SAS promeut sa plateforme Viya auprès de ses clients historiques, avec une offre qui supporte tant le langage SAS que Python.

Les acteurs du data mining dans la bataille

Rémi Griveau, Business Solutions Manager chez SAS précise : « L’offre s’adresse à toutes les entreprises, qu’elles aient déjà une culture SAS ou pas. Cette culture est un accélérateur à l’adoption, d’autant que ces clients ont la possibilité de capitaliser sur leur existant SAS sans partir d’une feuille blanche. » L’expert souligne que la dernière version « Cloud-Native » de SAS Viya doit simplifier les petits déploiements pour les entreprises de petite taille ou pour les projets ciblés.

Chaque plateforme a ses atouts et ses faiblesses, que ce soit dans l’acquisition et la préparation des données, le support du machine learning ou les outils collaboratifs mis à disposition des data scientists et des utilisateurs métiers.

Toutefois, toutes ces offres se rejoignent sur les composantes open source qu’elles embarquent. C’est notamment le cas des librairies de machine learning /deep learning Python, ainsi que les notebook Jupyter qui proposent des dossiers numériques dans lesquels tous les éléments du projet de modèle sont stockés.

Si le marché des solutions DSML va certainement se concentrer dans les années à venir, celui-ci offre un vaste choix d’approches et de solutions qui permettent déjà de franchir une étape de maturité dans le déploiement de l’IA dans les entreprises.

Décryptage d’experts

 Shriman Tiwari – Keyrus

« L’atout d’une plateforme DSML est la réduction de temps Devops, c’est-à-dire le temps de configuration d’environnement de développement et des serveurs. Le temps d’installation est rapide et les coûts de mise en oeuvre sont relativement faibles.

Les organisations peuvent ainsi consacrer leur temps au développement des algorithmes et peuvent être plus efficaces.
En outre, le temps de déploiement de l’outil est réduit grâce aux outils déjà intégrés dans les plateformes. Par exemple, sur Google Cloud Platform et Microsoft Azure il est très facile de packager la solution et de la déployer. »

Shriman Tiwari – Tech Lead Data Science / Data Engineering chez Keyrus

Chems Eeedine Nabti – Ippon Technologies

« Il est fortement recommandé de réaliser un audit préalable afin d’identifier les cas d’usage et les objectifs des projets Machine Learning et Data Science.
La plateforme doit être choisie en fonction de la quantité de données, du niveau de sécurité souhaité selon la sensibilité des données, mais aussi de la taille de l’équipe Data Science & ML, le budget, les contraintes en termes de temps et la nature des projets.
Deep learning, traitement d’images, etc. demandent des ressources de calcul puissantes comparé au Machine Learning et aux algorithmes plus classiques. Tous ces critères, seront des clés qui permettront d’aider l’entreprise à choisir le bon outil qui contient tous les services nécessaires pour faire de la DS & ML, ou bien la combinaison d’outils qui couvre les attentes et répond au mieux aux besoins de l’entreprise. »

Chems Eeedine Nabti – Lead Data Scientist chez Ippon Technologies

Les fonctions clés d’une plateforme de DSML

  •  Définition du besoin
  •  Ingestion de la donnée
  • Préparation de la donnée
  • Exploration des données avec des outils interactifs
  • Feature engineering (extraction des informations depuis la donnée brute)
  •  Création et entraînement des modèles d’IA
  • Test des modèles
  • Déploiement des modèles en production
  •  Monitoring des modèles
  • Maintenance des modèles
  • Gouvernance des données et des modèles
  • Brique d’explicabilité des modèles d’IA (XAI)
  • Suivi de la valeur Business
  •  Fonctions de collaboration

Les principales offres du marché

Editeurs                                              Solutions

Alibaba Cloud                                 Platform for AI, Data Science Workshop

Altair                                                   Altair Knowledge Works

Alteryx                                               Alteryx APA Platform

Amazon Web Services              Amazon SageMaker

Anaconda                                         Anaconda Enterprise Edition

Cloudera                                          Cloudera Machine Learning 

Databricks                                       Unified Data Platform

Dataiku                                            Data Science Studio 

DataRobot                                     DataRobot Enterprise AI Platform

Domino                                            Domino Data Science Platform

Google Google                            Cloud AI Platform

H2O.ai                                            H2O Driverless AI

IBM                                                 IBM Watson Studio

KNIME                                         KNIME Analytics Platform

MathWorks                               Matlab

Microsoft                                    Azure Machine Learning 

RapidMiner                                RapidMiner Studio

Samsung                                       SDS Brightics AI

SAS                                                   SAS Viya

Tibco Software                         Tibco Data Science Platform