Pour gérer vos consentements :

Dataset Search : Google encourage la structuration de l’open data

Sortie de bêta actée pour Dataset Search.

Google exploite depuis septembre 2018 ce moteur de recherche d’ensembles de données. Il affirme y avoir fédéré « des centaines de milliers » d’utilisateurs.

Chercheurs, journalistes et data scientists composent pour partie ce public.

L’outil leur permet de trouver un large spectre de contenus (fichiers CSV, collections de tableaux, éléments relatifs au machine learning (comme les paramètres d’entraînement ou les définitions de la structure d’un réseau de neurones, etc.)… pour peu qu’ils soient correctement balisés.

Google base sa découverte de données sur le balisage de schema.org et sur des structures équivalentes représentées au format DCAT (Data Catalog Vocabulary). Il envisage de proposer, en complément, un programme expérimental pour les données structurées basées sur CSVW (CSV on the Web).

Structurer l’open data

Les fournisseurs des ensembles de données doivent, au minimum :

documenter, dans leur sitemap, la manière dont ils publient les descriptions des ensembles
intégrer deux propriétés : name (nom descriptif d’un ensemble de données) et description (résumé de 50 à 5 000 caractères)

Les autres propriétés sont recommandées. Parmi elles :

alternateName (autres noms utilisés pour faire référence à un ensemble)
citation (identification de contenus recommandés en plus de l’ensemble)
keywords (mots-clés)
license (conditions de mise à disposition des données)
spatialCoverage (description de l’aspect spatial d’un ensemble)
temporalCoverage (description de l’intervalle temporel couvert)

Côté utilisateur, le moteur permet de filtrer les résultats par :

date de mise à jour
format de téléchargement (tableau, document, image, texte, archive)
usage commercial autorisé ou non
gratuité

À l’occasion de la sortie de bêta, Google annonce la disponibilité d’une version mobile. Ainsi que d’une vue en carte pour les données géographiques.

Le groupe américain déclare travailler sur des fonctions qui lui permettront de mieux comprendre l’utilisation des ensembles de données.

Photo d’illustration via Shutterstock.com

NextIdentité numérique : l'Anssi adoube La Poste »

Previous « IA et vie privée : Amazon vise un traitement plus confidentiel du langage naturel

Published by

Clément Bohic

Tags: Google

4 années ago

Les leçons d’une start-up sur l’usage de l’API OpenAI

Après 500 millions de tokens traités avec GPT-3.5 Turbo et GPT-4 via l'API OpenAI, une…

17 heures ago

ChatGPT

Data & Stockage

Salesforce, d’actionnaire à propriétaire d’Informatica ?

Salesforce songerait à s'emparer d'Informatica après en avoir été un temps investisseur.

23 heures ago

Business

L’évolution fonctionnelle de Twitter/X sous l’ère Elon Musk

Voilà un an et demi qu'Elon Musk a acheté Twitter. Coup d'œil sur quelques fonctionnalités…

4 jours ago

Dataset Search : Google encourage la structuration de l’open data

Structurer l’open data

Recent Posts

Les leçons d’une start-up sur l’usage de l’API OpenAI

OpenAI licencie deux chercheurs suite à des fuites d’informations

ESG : comment le « datacenter vert » gagne du terrain

OpenTofu-HashiCorp : frictions autour de la licence BSL

Salesforce, d’actionnaire à propriétaire d’Informatica ?

L’évolution fonctionnelle de Twitter/X sous l’ère Elon Musk

Dataset Search : Google encourage la structuration de l’open data

Structurer l’open data

Related Post

Recent Posts

Les leçons d’une start-up sur l’usage de l’API OpenAI

OpenAI licencie deux chercheurs suite à des fuites d’informations

ESG : comment le « datacenter vert » gagne du terrain

OpenTofu-HashiCorp : frictions autour de la licence BSL

Salesforce, d’actionnaire à propriétaire d’Informatica ?

L’évolution fonctionnelle de Twitter/X sous l’ère Elon Musk