Pour gérer vos consentements :

Big Data : Hortonworks planche sur le futur de Hive avec Stinger.next

Word Cloud "Big Data"

Depuis le mois d’avril dernier, des équipes de Hortonworks ont travaillé avec la communauté Open Source Hive (soit plus de 140 développeurs) pour préparer le futur de ce logiciel d’analyse de données permettant d’utiliser Hadoop avec une syntaxe proche du SQL. L’objectif de cette initiative, baptisée Stinger.next, est d’être capable de gérer les transactions en temps réel, de prendre en charge l’ensemble de la sémantique SQL et d’afficher des résultats d’une requête en moins d’une seconde.

Pour réaliser cela, le projet a réuni plus de 390 000 lignes de code et a bénéficié du soutien de 44 entreprises qui ont fourni des ingénieurs spécialisés dans l’analytique et les datas, un moteur puissant de requêtes SQL, ainsi qu’un jeu de données à l’échelle du Po. Comme le soulignent nos confrères de GigaOM, c’est la seconde fois que Hortonworks mène un projet pour optimiser Hive. Des travaux avaient eu lieu en 2012, sous le nom Stinger. Ils avaient permis, selon l’éditeur, d’améliorer par un facteur 100 les performances du moteur.

Une roadmap sur les améliorations à apporter

Stinger.next s’inscrit donc dans la continuité de ces travaux et un billet de blog donne les grandes orientations de cette initiative et la roadmap de ces efforts avec la communauté Hadoop. Sur l’échéancier, on distingue 3 phases (comme le montre l’image ci-dessous). Primo, le support des transactions ACID (atomicité, cohérence, isolation et durabilité), attendu d’ici à la fin de cette année. Secundo, au début de l’année prochaine, le projet devrait atteindre l’objectif du temps réel et l’intégration de Spark. Tertio, vers la fin 2105, Stinger.next accueillera des requêtes SQL complètes.

Si le succès est au rendez-vous pour Stinger.next, cela pourrait impacter d’autres fournisseurs qui ont fait le pari de construire leur propre moteur SQL basé sur d’autres technologies que Hive. On peut citer, par exemple, Impala de Cloudera, Big SQL chez IBM, Greenplum pour Pivotal. D’autres projets Open Source sont en cours de développement comme Presto chez Facebook, Apache Phoenix pour Salesforce.com et Apache Drill chez MapR. La communauté Spark travaille également sur des moteurs interactifs avec SparkDB et BlinkDB.