Avis d’expert : les origines du big data

Mike Lynch, patron d’Autonomy, revient sur les raisons de l’émergence du big data : l’explosion du volume de données à traiter et la nécessité d’y répondre.

Cet avis d’expert est signé Mike Lynch, fondateur et président-directeur général d’Autonomy et vice-président exécutif de la division information management de HP

Le big data est devenu sans conteste le sujet du moment : nous sommes incroyablement inondés de vastes flux d’information. Nous produisons de plus en plus de données chaque jour, à des débits de plus en plus rapides. Collectivement, nous produisons chaque jour 2,5 quintillions d’octets de données et le taux de croissance est si élevé que 90 % de l’information jamais créée jusqu’alors a été produite au cours des deux dernières années. Nous constatons également une plus grande variété d’information qu’auparavant sachant qu’un ensemble de données peut se composer à lui seul de vidéo, audio, texte, données de capteur…

Alors que les ordinateurs sont devenus des outils utiles aux entreprises, le premier défi était pour elles de pouvoir stocker et catégoriser leurs données. Et en raison des limites technologiques, la base de données était née. L’étape suivante allait être de commencer à réellement exploiter ces données. Les bases de données consistant en des rangées et des colonnes, les ordinateurs étaient en mesure d’interagir avec elles et de les consulter. Et c’est parce que l’ordinateur savait que la colonne 3, ligne 6 correspondait au nombre d’ours en peluche stockés dans l’entrepôt, qu’il savait qu’il allait devoir passer une nouvelle commande dès lors que le stock allait descendre à zéro. C’est ici que les entreprises allaient pouvoir créer de la valeur ajoutée dans notre monde réel de l’information : en insérant ces informations dans une base de données, les ordinateurs allaient pouvoir commencer à les automatiser et les analyser.

Notre dernier défi en date : celui de gérer le volume, la quantité et la vitesse de l’information que nous produisons aujourd’hui. Avec une quantité accrue de données, nous sommes face à une plus-value potentielle, ce qui nous a conduits à attaquer le problème en trouvant une solution avec une base de données ‘intelligente’ capable de faire face à cette explosion des données. Ces bases de données existent depuis si longtemps que nous avons finalement oublié le problème d’origine. Car même avec la création de la base de données dite intelligente capable de traiter d’infinies quantités d’informations à grande vitesse, il était impossible de résoudre le problème dans son ensemble.

Nous cherchons au mauvais endroit

On se réfère souvent au big data pour parler des données non structurées, ce qui a finalement abouti à créer la confusion entre les deux termes. Les données non structurées peuvent être volumineuses en tant que telles (une image est bien plus lourde que des chiffres ou des mots mémorisés dans une base de données typique). Les entreprises sont désormais face à un besoin croissant de récupération et d’utilisation de données qui ne sont pas simplement composées de texte ou de chiffres et elles doivent par ailleurs répondre de plus en plus à des demandes d’analyses en temps réel de ces données.

Traditionnellement, on considérait qu’en fonction du volume et de la vitesse des données vous étiez en mesure de les analyser. Aujourd’hui, ce n’est plus pertinent. Il est très important de garder à l’esprit que les entreprises qui sauront intégrer et exploiter les données non structurées ou « informations humaines » (vidéo, image, email, SMS, contenus provenant des réseaux sociaux…) pourront en tirer un réel avantage concurrentiel. C’est le problème le plus important à résoudre et il est bien plus important que celui de savoir comment gérer le big data.