Google Cloud structure son écosystème Data

Google Cloud écosystème Data Cloud Summit

Programme de certification, hub d’échange de données, alliance pour la portabilité… Google Cloud accentue la com sur son écosystème.

Notre écosystème va bien, merci pour lui. Google Cloud s’est ingénié à le démontrer en amont de son Data Cloud Summit. Le groupe américain a notamment mis en avant le lancement de Databricks SQL sur son cloud ce mois-ci et l’arrivée de Fivetran dans le programme Cloud Ready – BigQuery.

À travers ce programme, Google Cloud valide quatre catégories de solutions pour un usage avec son entrepôt de données : BI & data science, ETL & intégration de données, connecteurs & outils, gouvernance. Une trentaine de fournisseurs ont obtenu le sésame.

connecteurs vérifiés

On retrouve certains de ces fournisseurs dans la Data Cloud Alliance ; une coalition de plus constituée au nom de la portabilité des données. Google Cloud en est le centre de gravité. Accenture, Confluent, Databricks, Dataiku, Deloitte, Elastic, Fivetran, MongoDB, Neo4j, Redis et Starburst en sont membres.

membres Data Cloud Alliance

Toujours sur le volet écosystème, on aura relevé l’ouverture d’une phase expérimentale publique pour Analytics Hub. Ce service managé est censé facilité l’échange de données et d’éléments d’analyse, sous forme de collections de tables et de vues BigQuery. Son unité fonctionnelle : des marketplaces auxquelles les organisations peuvent s’abonner.

Analytics Hub

Autre lancement en preview : celui de BigLake. Le principe : à renfort de formats ouverts, créer une couche d’abstraction qui étend les capacités de BigQuery à des tables reposant sur des magasins objet externes.

Vertex AI se stabilise

Concernant sa base relationnelle Spanner, Google Cloud a choisi de mettre en avant une fonctionnalité pas encore disponible. Mais qui le sera « bientôt », nous assure-t-on : un mécanisme de suivi en temps proche des changements sur les bases (insertions, mises à jour, suppressions).

Autre nouveauté pour Spanner, et quant à elle effectivement intégrée : le doublement de la capacité de stockage pour les instances d’au moins un nœud (1000 unités de traitement). Elle est désormais de 4 To par nœud (ramenable, avec partitionnement, jusqu’à 409,6 Go par tranche de 100 unités de traitement).

Vertex AI – « boîte à outils du machine learning » – fait aussi l’objet d’annonces. En première ligne, le passage en v1.0 des composants destinés à orchestrer des tâches BigQuery et BigQuery ML dans les pipelines Vertex AI. Ils sont au nombre de cinq, avec les usages suivants :

– Écriture d’une table BigQuery permanente ou temporaire
– Création d’un modèle BigQuery ML
– Évaluation d’un modèle
– Réalisation de prédictions avec un modèle
– Export d’un modèle vers un compartiment Google Cloud Storage

Workbench, l’environnement de data science rattaché à Vertex AI, passe quant à lui en phase de disponibilité globale. Avec, pour la même occasion, deux éléments en aperçu. D’un côté, un registre de modèles. De l’autre, l’intégration de ce registre avec BigQuery ML.

pipeline BQML
Ce pipeline a pour objet de prédire le sujet d’un texte. Il le convertir d’abord en vecteur grâce au modèle Swivel, préentraîné avec TensorFlow. Il entraîne ensuite un modèle de régression logistique dans BigQuery ML, en utilisant les vecteurs pour prédire le sujet du texte.

Illustrations © Google