Spécial Big Data : 1 – Que recouvrent au juste le ‘Big Data’ et la gestion de données ?

DSI

Il y a deux choses dans le Big Data : la gestion massive de données dispersées et la capacité de les analyser pour en faire un outil de prise de décision. Mais que devient le monde de la donnée ?

Il y a quelques années, la problématique de la donnée était encore relativement simple. Elle était majoritairement issue de bases de données construites, c’est-à-dire qu’un enregistrement est un enchainement d’informations placées dans des champs prédéterminés, toujours les mêmes. Exemple : nom, prénom, numéro de téléphone, numéro de client…

Ce mode de compilation et de classement de l’information fait toujours le bonheur des bases de données (Oracle, SQL, DB2, etc.) dites structurées, car l’information est organisée en colonnes. Il est donc simple de classer les enregistrements par ordre alphabétique, de croissance ou autre ; de rechercher une information en posant une requête ; de réaliser des statistiques en cumulant les deux fonctionnalités. Par exemple extraire la liste des clients dont le chiffre d’affaires est supérieur à x, les classer par région et en sortir des statistiques…

Autre avantage de ce modèle, exploité depuis les débuts de l’informatique par les applications de gestion, l’interrogation de la base de données est simplifiée par l’usage d’un langage de requêtes, SQL, connu de tous et qui s’appuie sur l’organisation de la base.

Et arriva la donnée non structurée…

Mais voici qu’est apparu un autre modèle de données, autrement plus complexe à maitriser : la donnée non structurée – également appelée NoSQL. Pour simplifier, disons que cette donnée ne peut pas entrer dans une structure de base de données en colonne, ou alors au prix d’un lourd travail de qualification via des informations qui viennent la compléter – les métadonnées.

Quelles sont ces données ? Elles occupent aujourd’hui notre quotidien, à l’exemple des textes bureautiques qui forment des fichiers, des messages, mails, SMS, etc., des fichiers multimédias, images, son et vidéo, ou encore des contenus web, réseaux sociaux, tweets, pour ne citer que les principaux.

Tant qu’il ne s’agissait que de quelques fichiers de texte stockés sur un ordinateur, la problématique était faible, il suffisait de demander à l’utilisateur de les traiter et la donnée demeurait dans le périmètre de sécurité de l’entreprise. Mais aujourd’hui, cette donnée circule partout. Sur les disques durs de l’entreprise, mais pas dans des bases de données structurées. Dans la mobilité avec des terminaux – PC portable, PC au domicile, smartphone, tablette, ce que l’on nomme ‘device mobile’ – qui sont souvent hors de l’entreprise.

Ces données sont véhiculées dans des services externes, hébergées dans des datacenters, voire partagées par des millions d’autres utilisateurs, comme les messageries, les services de stockage et de partage de fichier, les CRM et autres applications en ligne, voire sur le web avec les moteurs de recherche, les sites d’information, etc.

Aujourd’hui, la tendance serait de qualifier l’ensemble des sources d’information comme issues du nuage ou ‘Cloud’.

La valeur de la donnée change

Hier, la valeur de la donnée était dans le progiciel de gestion. Aujourd’hui, la valeur est dans l’information et dans la capacité à l’exploiter. L’entreprise, comme toutes les organisations, dispose d’un patrimoine informationnel qui fait désormais sa richesse. Une information stratégique et monnayable peut être contenue dans un document bureautique, dans un message, dans une image.

Cette information considérée comme riche doit également pouvoir être partagée, pour prolonger la valeur de l’entreprise et de ses hommes. Toute la difficulté est là : trouver l’information pour l’exploiter. Or, comme décrit plus haut, les formats de cette masse d’information ne se prêtent pas à leur exploitation selon la méthode logique qui a dominé jusqu’ici. En clair, pas de requête SQL sur des données non structurées…

Le Big Data, une première étape

Quotidiennement, ces données sont de plus en plus volumineuses et proviennent de sources diverses et dispersées. Elles se diffusent dans des réseaux empiriques qui échappent à toute forme d’organisation sérieuse. Elles sont qualifiées par des volumes considérables et restent le plus souvent hors de portée.

Le Big Data, c’est la prise en compte de ce phénomène. Pour exploiter l’information, il faut d’abord la repérer, puis la consolider et enfin pouvoir l’interroger. Il faut pour cela faire appel à des outils ou des protocoles qui sont différents de ceux utilisés dans les bases de données de nos progiciels.

Une solution théoriquement simple consisterait, comme déjà évoqué, à placer des métadonnées sur ces données – par exemple ajouter des mots clés qualifiant chaque fichier. Mais le travail serait considérable et pourrait pénaliser le système d’information.

La solution est double :
1- avec la technologie de reconnaissance de l’information, il existe ce que l’on appelle le ‘file system‘ (système de fichier) qui qualifie les données ou les fichiers, ce qui apporte une forme de cartographie de la donnée stockée ;
2 -avec les nouvelles technologies d’infrastructure, très soutenues par la recherche, – tels que les serveurs multicœurs et le traitement in-memory, les systèmes de stockage SSD, algorithmes de déduplication, très hauts débits, etc. – , sont apparues des solutions performantes capables de traiter des volumes d’informations toujours plus vastes dans un temps plus court.

En clair, il aurait été impossible il y a quelques années de traiter toute cette volumétrie de données comme on le fait aujourd’hui ! Les technologies informatiques ne le permettaient pas.

En résumé, considérons que le Big Data se définit comme la capacité de déployer dans le système d’information des technologies de dernière génération permettant d’indexer les informations où quelles résident (pourvu que leur accès soit autorisé), quel que soit leur format, et quel qu’en soit le volume, – et sur un ‘file system’ unique. Cela revient à donner une vue unique à l’ensemble des données dont l’entreprise dispose, auxquelles elle peut accéder.

Ainsi la donnée – qu’elle soit structurée ou non – devient accessible et peut donc faire l’objet de traitements, de recherches et d’analyses.
La reconnaissance des données et leur accès constituent donc une première étape. Le Big Data ouvre l’accès à l’information. Et l’étape suivante, l’analytique, va l’enrichir.

[A suivre]


Lire la biographie de l´auteur  Masquer la biographie de l´auteur