Pour gérer vos consentements :

Dataset Search : le nouveau moteur de Google pour les données

Dans le but de faciliter l’accès aux données, Google a lancé un nouveau moteur de recherche répondant au nom de Dataset Search.

Des quantités massives de données existent d’ores et déjà. Seul problème : elles ne sont pas systématiquement présentées dans un format facile à analyser pour les moteurs de recherche.

Des metatags pour faciliter la recherche

L’objectif de la filiale d’Alphabet est de rendre toutes ces informations plus accessibles aux scientifiques, journalistes et autres utilisateurs friands de données. Qu’il s’agisse de satisfaire sa curiosité intellectuelle ou bien d’exploiter ces données pour son travail, Dataset Search doit devenir l’outil de référence en la matière.

A cet effet, la firme de Mountain View fournit des directives aux fournisseurs de jeux de données afin qu’ils décrivent systématiquement leurs données de manière à ce qu’elles soient facilement identifiables par Dataset Search.

Il est ainsi recommandé d’inclure des balises de métadonnées dans les pages Web qui décrivent les données, avec pour informations ceux qui les ont créées, quand elles ont été publiées, comment les données ont été collectées…

Ces informations seront ensuite indexées par le moteur de recherche de Google et combinées avec des informations issues du graphe de connaissances (knowledge graph).

Recours au standard schema.org

L’approche de Google en matière est basée sur le standard ouvert schema.org pour décrire ces informations.

Google incite à utiliser ce système pour décrire les bases de données, comme l’indique le groupe dans un billet de blog : « Quiconque publie des données peut décrire son ensemble de données de cette manière. Nous encourageons les fournisseurs de jeux de données, grands et petits, à adopter cette norme commune afin que tous les ensembles de données fassent partie de cet écosystème robuste. »

Google lance initialement la recherche de données avec du contenu de la NASA, de la NOAA (National Oceanic and Atmospheric Administration), de Harvard Dataverse et du consortium inter-universitaire pour la recherche politique et sociale (ICPSR), entre autres collections universitaires.

Dataset Search devient ainsi le nouveau moteur de recherche de Google spécialisé dans un domaine, rejoignant, entre autres, Google Scholar, Google Books et Google Patents.

(Crédit photo : @Google)

Recent Posts

APT44, bras armé cyber de la Russie

Mandiant a attribué un APT à Sandworm, considéré comme le principal groupe cybercriminel à la…

12 heures ago

Cybersécurité : HarfangLab et Filigran connectent EDR et CTI

Les deux startup proposent un connecteur entre la platefome OpenCTI de Filigran et l’EDR de…

14 heures ago

Le hacking autonome, capacité émergente de GPT-4 ?

Des chercheurs ont mis des agents LLM à l'épreuve dans la détection et l'exploitation de…

15 heures ago

Les applications de messagerie se mettent au chiffrement post-quantique

Dans la lignée de Signal, iMessage intègre une couche de chiffrement post-quantique.

19 heures ago

Infrastructures LAN : une photo du marché avant la fusion HPE-Juniper

Douze fournisseurs sont classés dans le dernier Magic Quadrant des infrastructures LAN.

2 jours ago

Sauvegarde et restauration : Commvault muscle son offre cloud avec Appranix

Commvault s'offre Appranix, éditeur d'une plateforme cloud de protection et de restauration des applications.

2 jours ago