Réussir son IA par une gestion efficiente des données

Data & Stockage

L’architecture actuelle des données de nombreuses entreprises n’est pas encore prête pour un changement à grande échelle. Les défis sont donc en grande partie dus à des données de mauvaise qualité et/ou à une piètre gestion de celles-ci.

Peu importe le niveau de performance d’une intelligence artificielle (IA), elle ne pourra pas fournir de résultats satisfaisants si elle est alimentée par des données parcellaires, voire erronées.

En effet, une base de données de bonne qualité, fiable et bien structurée est un must-have absolu. Par conséquent, il est impératif pour les entreprises de mettre en place une gestion efficace des données.

Selon McKinsey, la plupart des activités qui représentent aujourd’hui 60 à 70 % du temps de travail quotidien pourront être automatisées à l’avenir grâce à des technologies basées sur l’IA telles que l’IA prédictive et générative (GenAI).

Un constat également partagé par LaborIA, le laboratoire de recherche dédiée à l’intelligence artificielle, créé par le ministère du Travail, du Plein emploi et de l’Insertion, dans son enquête 2023 sur les impacts de l’usage des systèmes d’intelligence artificielle (SIA) dans les entreprises et organisations publiques. Il en ressort notamment que l’IA est généralement mise en place au motif de la réduction du risque d’erreur (85 %), de l’amélioration de performance des salariés (75 %), et de la réduction des tâches fastidieuses (74 %). 

Avec l’engouement pour la GenAI et les Large Language Models (LLM), le thème de l’intelligence artificielle (IA) a connu un nouvel essor auprès des entreprises. Bien que la mise en œuvre des applications GenAI dans l’environnement commercial n’en soit qu’à ses débuts, Bloomberg estime que le marché pourrait atteindre 1,3 milliard $ dans les dix prochaines années.

Dans ce contexte, les attentes de la part du conseil d’administration et de la direction sont très élevées. Toutefois, pour que la technologie puisse apporter des améliorations tangibles, il faut au préalable trouver des cas d’utilisation pertinents qui se prêtent aux applications de l’IA.

De plus, les exigences concernant les cas d’utilisation et les modèles d’IA diffèrent non seulement d’un secteur ou d’une entreprise à l’autre, mais aussi du niveau de maturité de l’IA. En effet, les entreprises générant naturellement d’énormes quantités de données grâce à l’utilisation d’appareils IoT ont une longueur d’avance sur les autres entreprises en matière de technologie des données.

Néanmoins, cela ne signifie pas qu’elles obtiendront automatiquement le succès escompté en matière d’IA. En règle générale, les analystes et experts estiment qu’entre 60 et 80 % des projets d’IA échouent. La raison étant que la quantité de données ne suffit pas, elles doivent aussi être de bonne qualité.

Sans données de qualité, impossible de profiter des bénéfices de l’IA

Interrogées sur les risques qui freinent la mise en œuvre de l’IA en général, et de GenAI en particulier, les entreprises évoquent généralement le manque de temps, de ressources financières ou de compétences. Toujours selon l’étude de McKinsey, 56% des entreprises estiment que le risque réside dans des résultats potentiellement incorrects.

Le rapport 2023 de Weka sur les tendances globales en matière d’IA démontre également que le principal obstacle à l’innovation en matière d’IA est une gestion insuffisante des données (32 %). Ceci indique clairement que l’architecture actuelle des données de nombreuses entreprises n’est pas encore prête pour un changement à grande échelle. Les défis sont donc en grande partie dus à des données de mauvaise qualité et/ou à une piètre gestion de celles-ci.

Une mauvaise qualité des données entraîne des problèmes tels que des prévisions et des décisions imprécises, des distorsions, un gaspillage de ressources et même des répercussions juridiques. Par conséquent, plus la qualité des données est importante, plus utiles et plus fiables sont les résultats.

Pour y parvenir, les entreprises doivent en premier lieu déterminer où se trouvent les données dans leur réseau, leur niveau de qualité et la manière dont elles sont obtenues. Il en découle aussitôt un autre défi : l’intégration des données. En effet, les données d’entraînement dont les systèmes d’IA ontbesoin se présentent sous différentes formes, proviennent de sources multiples et ont des volumes variables. Cependant, avec la complexité croissante de l’IT, où des silos de données, des données dupliquées, une incompatibilité et des processus ETL complexes se développent, il devient de plus en plus difficile de rassembler des données de haute qualité.

Dans le même temps, il est essentiel de démocratiser les données et de les rendre accessibles afin que les utilisateurs et les systèmes puissent y accéder facilement. Dans ce contexte, les entreprises qui planifient ou mettent déjà en œuvre des projets d’IA doivent tenir compte des réglementations relatives à la protection des données, telles que le RGPD, les prochaines directives de l’EU AI Act et les derniers accords internationaux sur la sécurité de l’IA.

Comment la propriété et l’utilisation des données sont-elles réglementées ? Comment l’accès, la sécurité et la protection de la vie privée sont-ils garantis et contrôlés ? Comment éviter un éventuel biais dans les systèmes d’IA ? Qui est responsable de l’endroit où les données atterrissent et de ce qui en est fait ?

Maitriser le chaos des données grâce à une gestion efficace

Les modèles d’IA sont dépendants de la capacité des entreprises à identifier, collecter, préparer, gérer, sécuriser et rendre accessibles des données pertinentes et fiables afin d’obtenir de bons résultats. Une solution de gestion des données centralisée, évolutive et automatisée, qui répond aux défis décrits ci-dessus, peut y contribuer. Grâce à différentes fonctions, elle relie, unifie et démocratise les données et met ainsi de l’ordre dans un écosystème complexe :

> Le catalogage des données, pour faciliter l’identification, la classification et la traçabilité des données (data lineage).

> L’intégration de données permettant d’intégrer des données dans différents formats et provenant de différentes sources afin de créer un pipeline de données agile.

> La qualité des données, pour avoir une vue d’ensemble de l’état de toutes les données sur l’ensemble du pipeline de données afin d’identifier les anomalies, les doublons et les imprécisions. Pour améliorer la qualité des données, il faut mettre en place des règles de nettoyage et de normalisation des données, qui doivent être intégrées dans le pipeline de données.

> La gestion des données, pour la disponibilité de données précises, cohérentes et fiables.

> Le partage des données, pour la réutilisation de données fiables et de modèles d’IA.

> La protection des données, la confidentialité et la gouvernance, pour la gestion de la qualité, de la confidentialité et de la conformité des données. Par exemple les entreprises n’ont plus besoin de transférer leurs informations vers un cloud public (plus vulnérable).

Dans ce contexte, la question suivante se pose directement : est-ce que l’architecture de données est conçue pour gérer l’écosystème de données de plus en plus complexe et pour automatiser efficacement le nombre croissant de cas d’utilisation de l’IA ?

Dans la majorité des cas, la réponse est non. Par ailleurs, la gestion des données permet certes de créer un modèle, mais elle ne permet pas d’intégrer de manière répétable des données de haute qualité. C’est pourquoi il est indispensable de mettre en place une architecture de données moderne et solide sous la forme d’un data mesh et/ou d’une structure de données.

Les entreprises qui souhaitent automatiser, accélérer et rendre plus efficaces leurs processus à l’aide de l’IA et de l’IA générative doivent, si ce n’est pas déjà fait, se pencher d’une part sur les bases nécessaires de l’IA, la condition de base pour une mise en œuvre efficace, sûre et rapide. D’autre part, elles devraient passer le plus rapidement possible de la phase de battage médiatique à l’identification de cas d’utilisation de l’IA pertinents pour leur cœur de métier.

Ensuite, elles doivent déterminer ce dont elles ont besoin pour la mise en œuvre, comment elles peuvent mettre à jour leur gestion des données et si cela nécessite de modifier une partie de l’architecture de données sous-jacente.

Il ne suffit donc pas de se créer un compte pour des applications d’IA publiques comme Chat GPT. Il s’agit plutôt d’envisager les projets d’IA de manière globale et durable afin d’être également préparé aux exigences futures. Sans données de qualité et fiables, le voyage vers un avenir avec l’IA et l’IA générative sera voué à l’échec.



Livres blancs A la Une