Pinterest dévoile Terrapin, un outil Open Source pour le Big Data

Pinterest apporte sa pierre à l’édifice du Big Data en publiant un outil Open Source, Terrapin, capable d’ingérer plus de données dans Hadoop et de les rendre utilisables par d’autres systèmes.

Pinterest a rendu disponible une solution Open Source, nommée Terrapin, conçue pour placer plus efficacement des données dans Hadoop et rendre les informations utilisables par d’autres systèmes. Pour cela, les ingénieurs de Pinterest ont élaboré Terrapin comme un remplaçant de la base de données NoSQL, HBase, car elle est relativement lente et à des performances réduites au-delà de 100 Go de données. La société a regardé aussi le logiciel Open Source ElephantDB comme autre alternative, mais les résultats n’ont pas été parfaits.

Varun Sharma, ingénieur de l’équipe infrastructure de Pinterest, explique sur un blog que « Terrapin offre un accès aléatoire à faible latence pour les valeurs-clés sur un grand nombre de jeux de données, lesquels sont immuables et regénerer dans leur globalité (cf diagramme ci-dessous) ». Il ajoute : « Terrapin peut ingérer des données issues de S3 (Amazon), HDFS ou d’un traitement via MapReduce. Il est élastique, tolérant aux pannes et assez performant pour être utilisé par des applications de Pinterest comme Pinnability et Data Discovery. »

Pinterest Terrapin

Pinterest a testé Terrapin en production pendant un peu plus d’un an avec une capacité de données qui s’établit aujourd’hui à 180 To de données. Avec la disponibilité de l’outil sur GitHub d’autres entreprises pourront l’essayer, voire l’adopter. Pinterest a déjà publié des solutions Open Source comme Pinball, PINCache et Secor.

A lire aussi :

Comment extraire de la valeur du Big Data, selon Intel
Big Data : les technologies sont déployées, mais pas sécurisées

Crédit : McIek Shutterstock