Amazon WS : le pied sur l’accélérateur

Résultats, datawarehouse, AWS Data Pipeline… Amazon a multiplié les annonces à l’occasion de AWS re: Invent 2012.

AWS Data Pipeline

AWS Data Pipeline est une nouvelle solution qui prend place au dessus de EC2, S3, des clusters EMR (Elastic MapReduce) ou d’une couche matérielle. Elle vise à automatiser les mouvements de données et les processus liés à l’orchestration, l’intégration et au traitement des workflows de très gros volumes de données.

Le principe de cette solution est de définir où sont les données, ce qu’il faut en faire, et où stocker les résultats, ce qu’Amazon nomme un ‘Pipeline Definition’ et qui réunit les sources, des pré-conditions (sous la forme d’assertions appliquées dans un ordre défini et dans les processus), les destinations, les étapes des processus, et le schéma opérationnel. Une instance Task Runner, du nom de l’application open source développée pour Data Pipeline, surveille les tâches et s’exécute lorsqu’elles sont disponibles. Et un message avertit Amazon SNS lorsqu’un pipeline est complet.

AWS Data Pipeline

Nouvelles instances Amazon EC2

Destinée aux bases de données ou aux outils analytiques en mémoire, une instance cluster High Memory (cr1.8xlarge) fait son apparition sur Amazon EC2. Elle possède 240 Go de mémoire vive RAM et 2×120 Go de mémoire SSD.

Pour l’exécution des analyses à très grande échelle ou les grandes tâches Hadoop avec Amazon Elastic MapReduce sur EC2, le nouveau type d’instance cluster High Storage (hs1.8xlarge) possède 117 Go de mémoire vive RAM et 48 To de mémoire (configuré comme 24x2To de disques durs).

<hr style= »width:50px;text-align:left;margin-left:0;text-align:left;margin-left:0″/>

<b>Voir aussi</b>

Quiz Silicon.fr – Le vocabulaire du cloud