Pour gérer vos consentements :
Categories: Big DataDSILogiciels

Big Data : Hortonworks planche sur le futur de Hive avec Stinger.next

Depuis le mois d’avril dernier, des équipes de Hortonworks ont travaillé avec la communauté Open Source Hive (soit plus de 140 développeurs) pour préparer le futur de ce logiciel d’analyse de données permettant d’utiliser Hadoop avec une syntaxe proche du SQL. L’objectif de cette initiative, baptisée Stinger.next, est d’être capable de gérer les transactions en temps réel, de prendre en charge l’ensemble de la sémantique SQL et d’afficher des résultats d’une requête en moins d’une seconde.

Pour réaliser cela, le projet a réuni plus de 390 000 lignes de code et a bénéficié du soutien de 44 entreprises qui ont fourni des ingénieurs spécialisés dans l’analytique et les datas, un moteur puissant de requêtes SQL, ainsi qu’un jeu de données à l’échelle du Po. Comme le soulignent nos confrères de GigaOM, c’est la seconde fois que Hortonworks mène un projet pour optimiser Hive. Des travaux avaient eu lieu en 2012, sous le nom Stinger. Ils avaient permis, selon l’éditeur, d’améliorer par un facteur 100 les performances du moteur.

Une roadmap sur les améliorations à apporter

Stinger.next s’inscrit donc dans la continuité de ces travaux et un billet de blog donne les grandes orientations de cette initiative et la roadmap de ces efforts avec la communauté Hadoop. Sur l’échéancier, on distingue 3 phases (comme le montre l’image ci-dessous). Primo, le support des transactions ACID (atomicité, cohérence, isolation et durabilité), attendu d’ici à la fin de cette année. Secundo, au début de l’année prochaine, le projet devrait atteindre l’objectif du temps réel et l’intégration de Spark. Tertio, vers la fin 2105, Stinger.next accueillera des requêtes SQL complètes.

Si le succès est au rendez-vous pour Stinger.next, cela pourrait impacter d’autres fournisseurs qui ont fait le pari de construire leur propre moteur SQL basé sur d’autres technologies que Hive. On peut citer, par exemple, Impala de Cloudera, Big SQL chez IBM, Greenplum pour Pivotal. D’autres projets Open Source sont en cours de développement comme Presto chez Facebook, Apache Phoenix pour Salesforce.com et Apache Drill chez MapR. La communauté Spark travaille également sur des moteurs interactifs avec SparkDB et BlinkDB.

Crédit Photo ©-Ben-Chams-Fotolia.com

A lire aussi :

Pivotal et Hortonworks s’associent dans la gestion de Hadoop

Apache vient booster Hadoop avec Spark 1.0

Recent Posts

Treize ans après, fin de parcours pour Women Who Code

Après avoir essaimé dans 145 pays, la communauté de femmes de la tech Women Who…

3 heures ago

Broadcom : la grogne des fournisseurs et des utilisateurs converge

Les voix du CISPE et des associations d'utilisateurs s'accordent face à Broadcom et à ses…

4 heures ago

Numérique responsable : les choix de Paris 2024

Bonnes pratiques, indicateurs, prestataires... Aperçu de quelques arbitrages que le comité d'organisation de Paris 2024…

21 heures ago

Programme de transfert au Campus Cyber : point d’étape après un an

Le 31 mars 2023, le PTCC (Programme de transfert au Campus Cyber) était officiellement lancé.…

24 heures ago

Worldline fait évoluer sa gouvernance des IA génératives

Nicolas Gour, DSI du groupe Worldline, explique comment l’opérateur de paiement fait évoluer sa gouvernance…

1 jour ago

À trois mois des JO 2024, le rappel cyber de l’ANSSI

Comme avant la Coupe du monde de rugby, l'ANSSI dresse un état des lieux de…

1 jour ago