Pour gérer vos consentements :

Google I/O : Dataflow alimente en temps réel Big Query en Big Data

Il y a une vie en dehors d’Android. A Google I/O, les développeurs ont pu également se concentrer sur le Big Data. La firme de Mountain View a en effet présenté un service nommé Cloud Dataflow, un outil intégré dans Cloud Platform et qui permet d’analyser des flux de données à la volée.

Dans un billet de blog, Greg DeMichillie, responsable produit, a expliqué que « ce service est basé sur deux technologies internes à Google, Flume et Millwheel ». La première est capable de créer des « pipelines » de données issues de sources différentes et l’autre facilite le transit des données. A l’occasion de la conférence, Urs Hölzle, responsable de la création du réseau mondial de datacenters de Google, a souligné que ce service permet aux entreprises de faire face à des pétaoctets de données. « Cloud Dataflow est le résultat de plus d’une décennie d’expérience dans l’analyse de données », précise le dirigeant. Sur scène, il a fait la démonstration de cette solution en analysant en temps réel le ressenti des personnes sur Twitter lors du match d’ouverture de la coupe du monde de football au Brésil.

Un successeur à MapReduce

Urs Hölzle a continué son exposé en expliquant que « depuis longtemps, Google travaillait avec le système MapReduce qui est devenu la norme pour le traitement Big Data. Il a parcouru des centaines de serveurs pour nous aider à construire un gigantesque index des pages web qui sous-tend notre moteur de recherche. Maintenant, nous avons un clone Open Source de MapReduce-Hadoop ». Il ajoute, « Google n’utilisera plus MapReduce mais Flume, alias FlumeJava pour le traitement de données massives en mode batch ».

Disponible en version bêta, Dataflow pourra se brancher directement sur Big Query, la solution Big Data as a Service de Google. Cette initiative n’est pas unique comme le montre le service de streaming MapReduce de Twitter baptisé Summingbird et présenté en septembre 2013. Amazon Web Services propose également une offre en mode similaire à Dataflow, Kinesis permettant de traiter en temps réel des données récoltées en continu à une échelle massive. Les données peuvent ensuite être envoyées vers différents services, notamment Amazon S3, DynamoDB et Redshift (solutions d’entreposage de données).

A lire aussi :

Luc de Brabandere, « Le Big Data est un outil de découverte pas d’invention »

Big Data : les bénéfices ne sont pas là où on les attend

Recent Posts

vSphere+ : qu’y a-t-il dans la vitrine multicloud de VMware ?

VMware a structuré une offre commerciale favorisant l'accès à des capacités cloud à travers vCenter.…

2 heures ago

Le PEPR cybersécurité prend forme : les choses à savoir

Le PEPR rattaché à la stratégie nationale de cybersécurité a connu une forme d'officialisation la…

7 heures ago

ESN : Numeum s’étoffe et précise ses priorités

Numeum, qui réprésente les ESN et éditeurs de logiciels en France, a précisé sa feuille…

1 jour ago

HPE Discover 2022 : Red Hat rejoint l’écosystème GreenLake

OpenShift, RHEL, Ansible... Red Hat va proposer une version sur site avec paiement à l'usage…

1 jour ago

Performance applicative : pas d’analyse sans observabilité ?

Cette année, le Magic Quadrant de l'APM (gestion de la performance applicative) englobe officiellement l'observabilité.…

1 jour ago

Cloud : comment protéger l’Europe de lois à portée extraterritoriale

Arbitrons en faveur d'un niveau élevé de sécurité dans le cadre du schéma européen de…

1 jour ago