Les 9 tendances fortes qui montrent que l’usage de la donnée est désormais incontournable en entreprise

Avec un usage qui gagne en maturité au sein des entreprises et différentes évolutions technologiques, la donnée est désormais à considérer comme un produit.

Les données sont sous les feux de la rampe. La croissance des besoins est rapide et participe à la compréhension de tous les aspects d’une entreprise et de presque tous les secteurs.

Les entreprises commencent à comprendre que la donnée n’est pas un simple artefact du système d’information, qu’elle est devenue un produit. Elle respecte des règles de production et d’utilisation. Elle est cataloguée. Sa production est fiabilisée. Elle répond à un besoin identifié par des consommateurs. Elle a un prix de production, voire de consommation.

Cela signifie que les entreprises ne doivent pas se contenter de disposer de la technologie nécessaire pour récupérer les données dont elles ont besoin, mais qu’elles doivent également surveiller la manière dont elles collectent et utilisent les données.

L’utilisation de la donnée étant strictement réglementée, les organisations devront impérativement s’assurer de la traçabilité (le lignage) et de la conformité de ce produit.

Enfin, la pression des utilisateurs/consommateurs pour avoir des données « chaudes » va s’accentuer. Afin d’être réactifs, les utilisateurs de la donnée souhaitent obtenir et analyser les données immédiatement après leur entrée dans le SI. L’analyse de la donnée va devenir de plus en plus temps réel, pour des décisions plus rapides, voire automatisées.

1 – La gouvernance des données devient un enjeu majeur

L’impact de la donnée au sein des organisations n’est plus à prouver : meilleur ciblage, optimisation du temps et des ressources, automatisation, les cas d’usage sont innombrables. Mais l’effet déceptif est fort, et fréquent : il ne suffit pas de mettre en place un data warehouse et des outils analytiques pour subitement devenir data driven.

Pour atteindre les résultats escomptés, la gouvernance des données doit être abordée en amont de la stratégie data. Et elle ne doit pas se borner à la mise en œuvre d’outils de supervision pour assurer le lignage et la sécurité. Au-delà de la technologie, ce sont les processus et les rôles qu’il faut cadrer (que signifie vraiment être data owner, ou data product owner ? qui est responsable de quoi ?). Les notions de gouvernance, de formation et d’acculturation à la donnée devraient ainsi prendre de l’ampleur.

2 – SQL au cœur des plateformes data

Les technologies liées à la donnée se multiplient, les entreprises développent leurs data lakes et plateformes de données, ce monde bouge très vite, mais une constante demeure : l’usage de SQL.

Langage simple mais puissant, maîtrisé par tous les informaticiens mais aussi par certains analystes métier, SQL devient une clé d’accès universelle à la donnée.

Avec la généralisation des plateformes de données, il sera possible d’écrire une requête qui mélange des données issues d’un tableur, d’un fichier plat, d’une base « NoSQL » (“not only SQL”, pas seulement SQL), et d’un classique entrepôt de données. Cette requête pourra également effectuer des analyses basées sur des algorithmes de machine learning. Certains éditeurs offrent déjà ce type de possibilité.

3 – Le “cloud-native analytics” devient la norme

Les plateformes de données dans le cloud, avec leurs datalakes et entrepôts de données cloud, ou cloud warehouses, sont la nouvelle norme. L’époque où une entreprise devait acheter du matériel, créer des datacenters et former une équipe dédiée pour les faire fonctionner est révolue.

Aujourd’hui, en quelques clics, il est possible d’accéder à une puissance de calcul et à un espace de stockage pratiquement illimités.

Cela a de profonds impacts sur la façon d’envisager les plateformes data, qui deviennent à la fois beaucoup plus agiles que les anciens data warehouses et bien plus simples à administrer que les infrastructures Big Data mises en place il y a une dizaine d’années.

Entre Data Lake et Data Warehouse se remarque la prolifération d’une nouvelle architecture, celle de Data Lakehouse. Elle réunit les meilleures caractéristiques des deux, la performance et la gestion des métadonnées de l’entrepôt de données en sauvegardant toujours les données dans les fichiers, ce qui permet d’éviter le vendor lock-in et de garder de la flexibilité.

L’adoption de cette architecture est amplifiée par la facilité d’intégration d’une solution comme Delta Lake dans les traitements existants. Ce projet open source permet de créer des Lakehouses au-dessus de systèmes comme S3, Google Cloud Storage ou HDFS. Delta Lake offre la prise en charge des transactions ACID, l’unification des modes batch/streaming et la compatibilité complète avec les frameworks existants tels qu’Apache Spark.

4 – Le data mesh suscite l’intérêt

Les plateformes de données Cloud permettent de distribuer, d’ingérer, d’intégrer et de partager des données à grande échelle. La manipulation des données peut se faire par des traitements batch ou des flux.

Il existe deux visions opposées de l’architecture des plateformes de données :

> L’approche data mesh, qui propose une vision décentralisée. L’objectif est d’éviter les goulets d’étranglement et de définir clairement des domaines métiers et des responsabilités sur la propriété et la gestion des données.

> L’approche data fabric, qui propose une vision unifiée de l’architecture et des technologies, facilitant la mécanisation et l’industrialisation des interactions avec les données.

Les éditeurs de logiciels ont tendance à privilégier l’approche data fabric, les sociétés de conseil plutôt les data mesh. La philosophie du data mesh prend de l’importance, au fur et à mesure que les entreprises internationales structurent leurs plateformes de données. Cela permet aux différentes entités d’être autonomes sur leurs domaines de données, tout en permettant de mutualiser les technologies et de réconcilier les données pertinentes pour le groupe.

5 – La virtualisation de données et la BI self-service se relancent

La BI self-service a considérablement aidé à démocratiser l’accès à la donnée. Cela a toutefois souvent été fait de façon incontrôlée, aboutissant à des écarts significatifs entre les jeux de données. De même, les premières solutions de virtualisation de la donnée, qui voulaient se dispenser de la création d’un datawarehouse pour créer des vues agrégeant de la donnée de différents systèmes, pouvaient rapidement engendrer des problèmes de qualité ou de conformité.

Il y avait donc besoin d’une reprise en main : la capacité de proposer une plateforme de données propres, avec un monitoring adapté, qui offre en revanche suffisamment d’agilité pour que les utilisateurs puissent analyser les données sans que cela ne nécessite un projet IT supplémentaire. La BI self-service revient ainsi plus fortement, dans un cadre mieux maîtrisé.

Le concept de virtualisation de données revient également dès lors qu’on met en place une architecture orientée data mesh, pour créer des vues de données issues des différents domaines constituant la plateforme de données distribuées.

6 – Des frameworks pour partager la donnée

La valorisation du patrimoine informationnel n’est véritablement complète qu’en ayant la possibilité de partager les données, sans craindre d’exposer inutilement des informations confidentielles (PII, personally identifiable information), ou même des éléments pouvant contribuer à l’identification d’une personne (PIF, personal information factor).

Plutôt que de tout verrouiller face aux réglementations comme le RGPD, il est possible, moyennant une gouvernance des données bien encadrée, de faciliter ce partage. Des frameworks ont vu le jour (tels que Five Safes, ou au sein de l’UE le Data sharing framework) pour guider les entreprises dans la mise en œuvre des processus de partage et des contrôles à instaurer. Ils aident à se poser les bonnes questions et pointent les besoins éventuels comme le lignage des données et la gestion des métadonnées.

7 – L’analyse prédictive prend son essor

La généralisation des outils de machine learning et la disponibilité de modèles sur étagère poussent à l’émergence de l’analyse prédictive. Là où la BI examine le passé (et éventuellement le présent avec du temps réel), l’objectif de l’analyse prédictive est de donner des tendances sur le futur. Par exemple, l’évolution des stocks d’un produit dans le futur en prenant en compte les saisons, les événements prévus dans les prochains mois, etc.

Ce type d’analyse aide à prendre des décisions de façon plus précise qu’en regardant simplement dans le rétroviseur. Elle se généralise donc, et ouvre la voie à l’analyse prescriptive : quand les programmes s’appuient sur l’analyse prédictive pour recommander des actions à prendre, voire directement les automatiser.

8 – Le MLOps pour mettre l’IA en production

Il faut arrêter de vouloir faire de l’IA sans avoir une stratégie préalable de mise en production. Le machine learning et l’IA ont quitté le domaine de la recherche. Ce sont maintenant des outils au service des métiers, qui résolvent de véritables problèmes.

C’est pourquoi multiplier les expérimentations sans aller en production n’est plus en phase avec les besoins. Il est donc nécessaire de penser toute la chaîne de mise en production des solutions imaginées, pour que les modèles créés par les data scientists puissent être mis à l’échelle tout en restant pertinents. C’est ce qu’on appelle le MLOps.

9 – Une régulation plus poussée de l’IA

Le focus sur la donnée et la montée en puissance de l’IA incitent logiquement la puissance publique à réguler le domaine, ou a minima à définir des cadres éthiques à respecter. Cet encadrement ne va faire que se renforcer. Il va donc falloir stocker, tracer et démontrer.

Un modèle IA devra pouvoir démontrer que les données utilisées pour l’entraîner n’étaient pas biaisées. Il faudra donc historiser toutes les données de manière à être auditable.