Data science : qui se détache sur ce marché dense ?

Magic Quadrant data science

AWS fait son apparition au Magic Quadrant de la data science, où IBM se hisse en « leader ». Comment Gartner perçoit-il l’évolution du marché ?

Le MLOps, point faible des plates-formes de data science ? Gartner ne va pas jusque-là dans son Magic Quadrant, mais pointe un manque d’outils. Non seulement la mise en condition opérationnelle des modèles peut prendre du temps, mais beaucoup ne sont jamais déployés à l’échelle attendue, affirme le cabinet américain.

Sa perception est celle d’un marché « à la fois plus animé et plus désordonné que jamais ». Derrière les poids lourds évolue une foule d’entreprises en hypercroissance. Dans ce contexte, l’innovation a la priorité sur l’exécution. Et les plates-formes de data science deviennent des assemblages de plus en plus complexes, nourris d’open source et de partenariats. Elles s’ouvrent à davantage de publics et se rapprochent ainsi des offres de BI et d’analytics. Lesquelles suivent la même dynamique de convergence à travers l’intégration de fonctionnalités algorithmiques.

Malgré cette convergence fonctionnelle, le Magic Quadrant de la data science a encore peu de ressemblance avec celui de la BI. Il n’a pas de « leader » en commun avec ce dernier et en compte deux fois plus. Six en l’occurrence.

Magic Quadrant DSML 2021
Par rapport à 2020, IBM est passé dans la catégorie des « leaders ». Alteryx a rétrogradé dans celle des « challengers ».

Data scientists & cie

Dataiku se distingue sur l’accessibilité de son offre (Data Science Studio) pour les publics non spécialistes : développement sans code, explication des modèles, aide à l’usage d’AutoML… Gartner souligne aussi les options de personnalisation et la capacité à intégrer des fonctionnalités spécifiques à des industries.

L’entreprise née en France n’a pas autant d’éloges sur le volet de la collaboration. Gartner regrette aussi la cherté de ses offres pour les petites équipes et le recours important à des plug-in/extensions.

Côté accessibilité aux non spécialistes, pas de bon point pour DataBricks, malgré l’intégration de capacités SQL à la faveur de l’acquisition de Redash. L’offre Unified Data Platform est, en revanche, saluée pour son adéquation aux besoins des data scientists. Ainsi que pour ses performances et sa capacité de mise à l’échelle. Les partenariats avec les hyperscalers y sont pour beaucoup, mais ces derniers deviennent des concurrents. AWS, par exemple, fait cette année son entrée au Magic Quadrant de la data science.

Des cas d’usage en périphérie

Parmi les hyperscalers, un seul « leader » : IBM, avec Watson Studio, intégré dans le Cloud Pak for Data. Gartner apprécie la modularité de l’offre (frameworks, analytics, NLP…) et le choix de notebooks, qui favorise la collaboration. Autre bon point : les avancées sur l’IA « éthique » (détection des biais, explicabilité, vie privée différentielle…). Big Blue doit néanmoins encore se faire une place dans l’esprit des experts et rendre son offre plus lisible : il reste difficile d’associer la bonne licence au bon cas d’usage.

Chez MathWorks, ni l’accessibilité, ni l’extensibilité, ni l’éthique n’ont de bon point. Gartner distingue, au contraire, la stabilité de la plate-forme MATLAB. Tout comme sa prise en charge de cas d’usage particuliers (gestion du risque, analyse de flotte, maintenance prédictive…) grâce à des boîtes à outils spécifiques.

On retrouve cet avantage chez TIBCO. Plus précisément dans le domaine de l’IoT, entre autres grâce à l’intégration avec les offres edge de Microsoft et d’AWS. La collaboration et les passerelles analytics sont d’autres points forts de sa plate-forme. La gestion du cycle de vie des modèles ne l’est pas, tout comme l’ouverture aux non-spécialistes.

Comme IBM, SAS est un « ancien » de l’IT. Il fait face au même défi marketing : détacher l’étiquette « legacy » qu’on a tendance à lui attribuer. On perçoit par ailleurs son offre comme onéreuse. Et elle reste difficile à appréhender, malgré une structuration en packs. Néanmoins, la dernière version est développée pour le cloud et peut se nourrir de nombreuses briques open source. La plate-forme VDMML (Visual Data Mining and Machine Learning) retient aussi l’attention de Gartner pour ses capacités d’automatisation.

Illustration principale © agsandrew – shutterstock.com