Data quality : un marché segmenté par l'IA ?
Gartner a focalisé son dernier Magic Quadrant de la data quality sur les solutions "augmentées". Que recoupe la notion et comment le marché se présente-t-il sous cet angle ?

SAP, un fournisseur "traditionnel" sur le marché de la data quality ?
Gartner qualifie ainsi le positionnement de l'éditeur allemand. Le reflet d'une approche désormais portée sur les solutions "augmentées".
Le cabinet américain en fait en tout cas un segment à part. Son dernier Magic Quadrant de la data quality s'en ressent. Il exclut effectivement les offres sans "augmentation" de fonctionnalités dites "critiques". Parmi elles, le profilage et la transformation de données, la création et la gestion de règles, la résolution de problèmes, le matching/linking/merging et le support du non structuré.
Par "augmentation", il faut entendre, dans les grandes lignes, l'enrichissement à base d'algorithmes. Principalement à l'appui de techniques d'apprentissage supervisé, tout du moins pour les cas d'usage où les entités et leurs relations sont bien cernées. Cela comprend l'analyse des graphes et des métadonnées. Sur la partie IA générative, la tendance est à l'ajout de capacités "de type ChatGPT", souvent à renfort de versions spécifiques de l'offre OpenAI (Azure OpenAI, modèles sur Vertex AI...) pour des raisons de sécurité. Il arrivent que les fournisseurs développent leur propre interface avec les LLM pour traduire entrées et sorties.
Jusqu'alors, Gartner n'avait pas considéré la prise en charge des données structurées comme une fonctionnalité critique. Avec le RAG en point de mire, les choses ont changé. Les offreurs eux-mêmes ont pris le pas. Certains en s'associant à des hyperscalers. D'autres en exploitant des LLM open source, en personnalisant des LLM commerciaux, voire en développant les leurs.
INTER
Conséquence de cette focalisation sur les solutions "augmentées", les positions dans le Magic Quadrant de la data quality ont évolué assez sensiblement d'une année à l'autre. Quatre fournisseurs en sortent. Collibra, à défaut d'option de déploiement cloud/SaaS. Datactics, en l'absence de support des données non structurées. MIOsoft, faute d'une augmentation suffisante des fonctionnalités critiques. SAP, entre autres parce que son offre Datasphere n'est pas "autonome" (elle exige des composants supplémentaires pour couvrir pleinement les scénarios de data quality).
À l'inverse, trois fournisseurs font leur entrée : Ab Initio, Anomalo et Irion.
Rang | Fournisseur | Évolution annuelle |
1 | Informatica | = |
2 | Qlik | + 2 |
3 | IBM | = |
4 | Ab Initio | nouvel entrant |
5 | Ataccama | - 3 |
6 | Precisely | + 3 |
7 | Experian | + 1 |
8 | SAS | + 2 |
9 | Irion | nouvel entrant |
10 | DQLabs | - 4 |
11 | CluedIn | - 6 |
12 | Anomalo | nouvel entrant |
Sur l'axe vision :
Rang | Fournisseur | Évolution annuelle |
1 | Informatica | = |
2 | Ataccama | + 1 |
3 | Qlik | + 5 |
4 | DQLabs | + 8 |
5 | IBM | - 3 |
6 | Ab Initio | nouvel entrant |
7 | Precisely | - 1 |
8 | CluedIn | + 2 |
9 | Anomalo | nouvel entrant |
10 | Experian | - 5 |
11 | SAS | - 4 |
12 | Irion | nouvel entrant |
Gartner a arrêté son évaluation au 15 octobre 2024. Sur cette foi, trois fournisseurs se situent dans le carré des "leaders" : Ataccama, Informatica et Qlik.
Ataccama, salué sur l'IA...
L'an dernier, Gartner avait relevé la croissance des revenus, de la base clientèle et de la présence géographique d'Ataccama. Il avait aussi salué la solution ONE de gestion unifiée des données et l'ajout de "technologies émergentes clés" (analyse de causes racines à partir du lineage, usage de GenAI pour générer des descriptions de tables et des règles métiers...).
Cette année, le cabinet américain met aussi en avant l'innovation, sous un angle plus général : l'assistant IA disponible dans la plate-forme ONE. Il y ajoute le support de la data quality dans Snowflake, par l'intermédiaire d'une application gratuite - qui a permis d'attirer certains clients. Ainsi que la qualité du portail de documentation public.
... mais pas sur les données non structurées
En 2024, Gartner avait pointé le peu de capacités sans code pour la transformation de données. Il avait aussi souligné la marge de progression d'Ataccama sur l'exhaustivité et l'intuitivité de la documentation, comme sur la prise en charge linguistique. Tout en attirant l'attention sur l'incertitude liée à l'intégration de Manta, à la suite de son passage dans le giron d'IBM.
Cette fois-ci, Gartner évoque la complexité de l'outil pour les débutants et les ressources de formation limitées. Autres points négatifs : l'absence d'option SaaS multilocataire (prévue néanmoins pour 2025) et le support natif limité des données non structurées.
Informatica développe son écosystème...
L'an dernier, Gartner avait souligné le potentiel qu'Informatica pourrait tirer de l'acquisition de Privitar (gestion des accès et de la confidentialité). Il avait aussi salué l'étendue de l'écosystème de partenaires (en particulier, l'intégration avec Microsoft Fabric et l'arrivée sur OCI) et les initiatives dans le domaine de l'automatisation (métadonnées actives, lineage aux niveaux technique et métier, assistant CLAIRE AI Copilot).
Cette année encore, l'écosystème de partenaires fait mouche auprès de Gartner, qui note, entre autres, l'extension du support de la principale offre d'Informatica à Snowflake et Databricks. CLAIRE AI Copilot est également à nouveau salué, en parallèle de l'offre de gouvernance résultant de l'acquisition de Privitar.
... mais laisse un doute sur l'avenir de ses clients on-prem
En 2024, l'observabilité avait été signalée comme une limite de l'offre d'Informatica. Gartner avait aussi relevé la baisse de sa part de marché, doublée d'une concurrence de plus petits fournisseurs aux offres plus simples et à la tarification plus compétitive. Tout en posant la question de l'avenir de la prise en charge des clients on-prem, au vu de la stratégie ouvertement cloud-only.
Cette fois encore, l'avenir des clients on-prem est mis en question, d'autant plus qu'Informatica ne propose pas de programmes de migration vers son offre cloud. Vigilance également sur le modèle économique, qui nécessite de prévoir l'usage sur un an (pas de report des crédits). Et sur la gestion limitée de certains scénarios complexe avec l'offre cloud, par exemple la supervision en temps réel de la cohérence des données entre systèmes.
Qlik : une offre "augmentée" mais difficile à prendre en main
L'an dernier, Qlik ne faisait pas partie des "leaders".
Gartner salue son niveau de prise en charge des données non structurées, fruit de l'acquisition de Kyndi. Sur la partie innovation, le cabinet américain met en avant les intégrations avec OpenAI et Pinecone pour les pipelines RAG, la préparation de données par appels d'API et la disponibilité d'un "score de confiance" pour évaluer la qualité des données dans le cadre des use cases IA.
Côté reporting, la personnalisation des dashboards est limitée. Attention aussi à la courbe d'apprentissage pour prendre en main l'outil - Gartner affirme le besoin d'une documentation plus exhaustive. Quant à la gestion automatisée des règles, elle présente des limites. Pas possible, par exemple, d'identifier les règles en double par analyse des métadonnées. Ou d'en générer à travers plusieurs attributs.
Illustration © Vitalii Vodolazskyi - Adobe Stock
Sur le même thème
Voir tous les articles Data & IA