Capital data : la nouvelle ruée vers l'or

Partout dans le monde, les organisations, grandes ou petites, commencent à exploiter la puissance des données. Bientôt, le capital data sera considéré comme l’un des actifs les plus importants d’une entreprise, tout en devenant le moteur principal du business et de l’innovation du 21e siècle.

Qu’il s’agisse d’un constructeur automobile, d’une boulangerie de centre-ville ou d’un fonds d’investissement international, chaque entreprise possède des actifs dont elle tire sa valeur.

Ceux-ci peuvent être matériels (ordinateurs, ustensiles de cuisine, équipement de fabrication robotique), humain, foncier, financier. Il en existe même des immatériel, comme l’est la réputation client ou ceux dont vous pouvez tirer de la propriété intellectuelle, et qui sont au même titre une partie du capital de l’entreprise.

Le capital data, dont nous allons parler, est désormais reconnu comme étant de même importance que ces autres formes d’actifs, et de plus en plus d’organisations réalisent les opportunités qu’il leur offre.

Le capital data, c’est quoi ?

Quand on parle données, on pense d’abord aux données clients. Ces derniers consentent, par exemple, à ce que les données qu’ils génèrent puissent être utilisées par l’organisation à qui ils les confient. Un concept familier à toutes les personnes s’étant déjà inscrit à une liste de diffusion ou ayant accepté les cookies en se connectant à un site internet.

Il existe également une autre source de données, celles non personnelles, telles que les informations produites par les machines, issues de l’état des stocks ou provenant de l’analyse d’un marché.

Une autre source possible revient à recourir à un tiers, comme une agence de recherche ou d’analyse, qui collecte des données externes sur une zone de marché. Ces données externes peuvent alors être croisées avec des données propres, le mélange des deux devenant le potentiel effectif de son capital data.

Les données sont-elles devenues l’actif le plus important d’une entreprise ?

Le capital data est de plus en plus souvent reconnu comme un actif « tangible ». Une fois que les organisations auront compris pleinement le pouvoir qui repose dans les informations qu’elles collectent et comment elles peuvent l’exploiter pour se transformer, les données deviendront un aspect fondamental du monde des affaires. Si vous êtes un de ceux qui se lancent dans la fructification de votre capital data, vous devez savoir comment réellement exploiter tout son potentiel.

Pour répondre à cet objectif, il faut se tourner vers la data science pour trouver des réponses. Cette nouvelle discipline utilise un ensemble d’algorithmes mathématiques pour faire des analyses et prédictions à partir de vos données. Le modèle doit être construit avec l’objectif de « comprendre » les comportements exprimés par celles-ci, ce qui peut être fait grâce à la mise en place d’algorithmes qui déduisent des paramètres en se confrontant aux données recueillies. Les algorithmes peuvent fonctionner avec différents types de données distincts, deux des plus importants, qui appartiennent à la famille des données historisées. Il y a d’une part les informations générées en temps réel, issues des processus d’analyse, qui viennent alimenter en continu les modèles de machine learning (apprentissage automatique). S’y ajoute, d’autre part, les données complémentaires, qui complètent les données en temps réel pour plus de valeur ajoutée, et qui proviennent de sources externes. Cette approche mêlant ces deux types de données est appelée deep learning (apprentissage profond) et est complémentaire au machine learning. Les résultats permis par ces algorithmes donnent des éclairages statistiques et des informations intelligibles directement exploitables pour guider les décisions humaines.

Agriculture et industrie 4.0

Un beau modèle théorique… mais comment mettre cela en œuvre en pratique ? Prenons l’exemple de l’agriculture moderne pour étudier le fonctionnement du processus plus en détail.

Dans ce secteur, AeroFarms utilise les données comme carburant principal de son activité : améliorer le processus traditionnel de production des aliments. Ses scientifiques utilisent des capteurs IoT (Internet des objets) dans tout l’environnement cultivé pour surveiller lors de chaque récolte plus de 130 000 paramètres, et ainsi optimiser en continu les cultures à l’aide de l’analyse prédictive.

Les données analysées par AeroFarms lui fournissent des informations pour cultiver de manière plus économe et plus respectueuse de l’environnement, tout en défiant les saisons traditionnelles. Ce système a mené à la mise en place d’une agriculture locale à proximité des populations urbaines qui peut produire en grande quantité et avec une meilleure traçabilité. AeroFarms démontre que cette montée en puissance est possible tout en utilisant 95% d’eau en moins que les aliments cultivés en pleine terre et avec des rendements 390 fois plus élevés.

Du côté du secteur industriel, un autre bon exemple de l’exploitation des données IoT via le machine learning est le cas de d’Otto Motors.

Cette entreprise fabrique des robots qui transportent les objets lourds dans un environnement industriel. Ces robots autonomes sont équipés de capteurs IoT, qui informent le système de leur parcours et permettent ainsi de gagner en sécurité et en efficacité, pour les travailleurs humains comme pour les robots.

Dix, vingt ou trente de ces robots peuvent ainsi traverser simultanément le même espace grâce à un ensemble d’algorithmes de machine learning qui optimisent en permanence la performance des flottes.

Deep learning – les inconnues… toujours inconnues

Mais que se passe-t-il si vous passez un tel système à grande échelle ? Admettons qu’une entreprise comme Otto Motors soit appelée à installer une flotte de 100 robots pour un client, augmentant ainsi de façon exponentielle la quantité de données collectées et de manière conséquente la complexité de gestion de la flotte. Les mêmes algorithmes seraient-ils toujours efficaces ?

Pour faire face à cas de figure, une solution consisterait à intégrer une « sous-branche » au processus de machine learning existant. Cela reviendrait, pour ce faire, à incorporer des données externes supplémentaires, telles que des données relatives à l’environnement de l’usine comme l’altitude, la météo, la température, la pression ou l’humidité. Elles permettraient ainsi de savoir si le robot fonctionne différemment lorsque la température du sol de l’usine augmente de 5 degrés parce que c’est une chaude journée d’été, par opposition à une froide journée d’hiver. Ou encore si, avec une flotte plus importante, le routage dans l’entrepôt implique que les robots ne fassent que des virages à gauche, et si cela affectera l’usure de leurs composants. Voire encore s’il faudrait en déduire de nouveaux paramètres de conception ou développer des mises à jour logicielles pour améliorer les performances du robot.

Ce genre de déterminants de la performance ne sont pas immédiatement compris sans deep learning : c’est celui-ci qui peut révéler, comme dans cet exemple, ce que nous appelons des « inconnues inconnues ». Des aspects dont nous n’avons pas conscience, mais qui affectent les performances d’un robot se déplaçant dans un entrepôt. Alors qu’il suffit d’ajouter un ensemble de données complémentaires à la matrice d’information existante pour les révéler au grand jour.

De quelle technologie a-t-on besoin pour exploiter ses data IoT ?

Les données IoT, matière première de tout processus d’analyse, sont par nature très peu structurées. Les bases de données dans lesquelles vous les stockerez ne sont pas des bases de données matricielles traditionnelles, elles sont envoyées dans ce que l’on appelle un data lake (lac de données).

Les exigences de stockage et de traitement d’un data lake seront dépendantes du temps de réponse que vous souhaitez pour votre système. Si les données sont à traiter en temps réel, vous utiliserez probablement la combinaison d’un processeur pouvant traiter de grandes quantités de données en parallèle et d’une grande mémoire, au travers desquels les données seront ingérées puis stockées. Les processus de machine learning vous obligeront à placer ces dispositifs de traitement et de stockage à proximité de l’endroit où les données sont générées, selon le principe de l’edge computing (informatique en périphérie).

Les technologies dominant le marché sont appelées convergentes ou hyperconvergées. Ces dispositifs, qui combinent calcul, réseau et stockage délocalisés, fournissent des plates-formes évolutives pour des modèles d’exploitation via le cloud, comme celles proposées par les « hyperscalers » tels que Google, Microsoft et Amazon Web Services.

Ce que ces hyperscalers offrent, c’est un guichet unique pour tout ce dont vous avez besoin. Mais les défis posés par cette approche sont doubles. Premièrement, la question des coûts. Une preuve de concept (PoC) faite à petite échelle permettra de calculer un ensemble de coûts définis pour cette organisation. Or, si le PoC réussit et conduit à un déploiement à l’échelle, les coûts associés risquent de grimper en flèche. Ce scénario imposerait alors un rapatriement de l’application et de l’ensemble des données depuis l’environnement de l’hyperscaler. Cela est particulièrement vrai pour les environnements en edge computing, où le coût et la latence sont incompatibles avec les modèles de stockage et de calcul décentralisés, en particulier dans une organisation à grande échelle.

Deuxièmement, les environnements hyperscaler sont très fermés quant à la façon dont vous accédez aux données : les API sont gérées directement par Google et d’Amazon dont elles sont la propriété, ce qui les rend rigides.

Une alternative est le type de technologie retenu par Dell Technologies, notamment celui qui est proposé en collaboration avec sa société sœur VMWare. Cette technologie permet une approche beaucoup plus ouverte et flexible sur la façon dont vous mettez à jour et accédez aux API et permet d’utiliser un modèle d’exploitation multicloud où vous êtes toujours en contrôle de votre environnement, pour qu’il soit le plus adapté au déploiement de votre application et à l’ensemble de ses données. Aujourd’hui, de nombreuses organisations reconnaissent qu’il s’agit de l’approche la plus pragmatique, flexible et rentable à adopter.

Une fois qu’une entreprise a commencé à utiliser ce modèle de gestion des données, elle peut commencer à leur donner une réelle valeur d’usage.

En outre, une fois cette méthode adoptée, l’entreprise peut choisir de vendre les données ou de les exporter vers d’autres organisations. En élargissant son écosystème, chacun apprenant des meilleures pratiques des autres et, par conséquent, profitant de l’ensemble de données ainsi enrichies.

L’impact du coût marginal et vue d’ensemble

Ce que nous retenons de l’IoT, c’est que cette technologie réduit le coût marginal lié à la mesure à presque zéro. Par exemple, si vous portez une montre intelligente, le coût marginal de mesure de votre fréquence cardiaque est proche de zéro, car la fonction vous permettant de le faire est intégrée au produit.

Les technologies IoT ont justement le potentiel de réduire le coût marginal de la mesure à presque zéro. Cela amène deux conséquences : premièrement, la fréquence de mesure est augmentée car il n’y a plus de contraintes de coût. Deuxièmement, vous aurez un volume de données beaucoup plus important, à partir duquel vous pourrez extraire encore plus de valeur ajoutée.

Si nous mesurons quelque chose à une plus haute fréquence, nous obtenons une plus grande précision sur le comportement de cet objet de mesure. Les données extraites peuvent être ensuite soumises à un deep/machine learning pour en tirer des informations stratégiques. C’est cet impact potentiellement révolutionnaire pour chaque industrie et chaque secteur qui explique pourquoi les données devraient être considérées comme un véritable actif et pourquoi les entreprises, grandes ou petites, devraient évaluer ce potentiel de données qu’elles possèdent. Cela les amènera à déterminer si elles utilisent réellement au mieux cet actif dans leurs quêtes quotidiennes d’avantage concurrentiel, de réduction des coûts, de découverte de nouvelles opportunités de marché… voire tout cela à la fois. A l’ère de la toute-puissance de l’information, le capital data représente une véritable mine d’or pour toutes les entreprises.

Pour en savoir plus, explorez la gamme de solutions Dell pour l’infrastructure de vos systèmes d’information et le traitement de vos données.

Nigel Moulton, membre du département CTO chez Dell Technologies