Nettoyer et normaliser la data « jusqu’à 80% plus rapidement » qu’un outil traditionnel de préparation de données, c’est le but d’AWS Glue DataBrew.

Amazon Web Services (AWS) a confirmé la disponibilité générale de DataBrew.

AWS Glue DataBrew est un outil de préparation visuelle des données, serverless (sans serveur à gérer pour le client) et managé, pour AWS Glue. Le service d’extraction, transformation et chargement (ETL) de données lancé en 2017 par le fournisseur cloud.

« Les clients AWS utilisent les données pour l’analyse avancée et le machine learning à un rythme sans précédent », a déclaré Raju Gulabani, vice-président Database and Analytics d’AWS. Selon le fournisseur, toutefois, les équipes passent « jusqu’à 80% » de leur temps à nettoyer et à normaliser les données plutôt qu’à les analyser et à en extraire de la valeur.

AWS Glue DataBrew a été conçu pour inverser la tendance.

Visualisation et automatisation

DataBrew permet aux analystes et scientifiques data de nettoyer et de transformer les données dont ils ont la charge depuis une interface visuelle interactive, de type « pointer et cliquer » (point-and-click), sans avoir à écrire de code informatique.

L’outil facilite ainsi l’accès et l’exploration visuelle de la data à partir de différents services Amazon, lac de données (S3), entrepôt de données (Amazon Redshift) ou encore moteur (Aurora) et gestionnaire de base de données (RDS).

Par ailleurs, plus de 250 fonctions pré-intégrées permettent d’automatiser les tâches de préparation et de transformation des données (filtrage des anomalies, normalisation des formats, correction des valeurs non valides…). Autrement, ces tâches nécessiteraient « des jours ou des semaines d’écriture de code », selon la société américaine.

Une fois les données préparées, les clients peuvent les utiliser avec AWS et des services d’analyse et d’apprentissage automatique tiers pour interroger et extraire de la valeur les données et former des modèles d’apprentissage automatique.

L’outil AWS Glue DataBrew est pour le moment accessible dans les régions AWS suivantes : Europe (Francfort, Irlande), États-Unis Est (Virginie du Nord, Ohio) et Ouest (Oregon), Asie-Pacifique (Tokyo, Sydney). D’autres régions seront couvertes prochainement.