Big Data : Impala de Cloudera interroge Hadoop en temps réel

Impala répond à la première demande des utilisateurs des Big Data : interroger plus simplement et en temps réel les données stockées sur Hadoop.

Développé selon un modèle flexible, Impala est un moteur d’interrogation qui permet d’exprimer des requêtes au standard SQL sur des données HDFS (Hadoop Distributed File System) ou HBase, donc sur les Big Data sous Hadoop. La solution s’appuie sur Cloudera Enterprise RTQ (Real-Time Query), développée par Cloudera, auteur d’une distribution majeure d’Hadoop.

Impala, un projet Hadoop sur Apache

Impala dans l'architecture Hadoop
Impala dans l’architecture Hadoop

La solution présente l’avantage de permettre d’interroger un ensemble de données dispersées dans des bases structurées et non-structurées via une plateforme Big Data unique, et d’obtenir la réponse en temps réel.

Traditionnellement, cette opération requiert d’exprimer la requête sur une ferme de données (datawarehouse) via les infrastructures de Business Intelligence (BI).

Contourner la complexité de l’analytique

L’architecture parallèle évolutive de la plateforme Hadoop séduit les entreprises par sa capacité à approcher et à analyser au plus près du temps réel des volumes très importants et dispersés de données structurées et non-structurées.

Mais l’analytique sur Hadoop souffre d’une réelle complexité et demande de nouvelles compétences (lire notre interview de Roxane Edjali, du Gartner : « Le Big Data n’est pas un marché en soi »). C’est pourtant certainement le principal usage attendu liée à l’adoption du Big Data.

L'architecture de Impala
L’architecture de Impala

Impala, disponible en version 1.0, est une solution open source (comme Hadoop) sous licence Apache. Elle simplifie l’interrogation en reprenant les modèles et outils SQL. Selon une étude de Cloudera sur ses clients, elle répond aux attentes de 78 % des entreprises qui exploitent Hadoop, obtenir plus rapidement des réponses à leurs interrogations.