ElasticMapReduce

AmazonWebServiceのElastic MapReduceに関することを記載します。

概要

Elastic MapReduceとは、Amazonのウェブインフラストラクチャを利用して、Hadoopフレームワークを利用することが出来るサービスです。

Hadoopは複数のマシンを利用したクラスタ構造で動作させるのが定石ですが、そのクラスタ構造をAmazonがセットアップや管理、調整を行ってくれます。

  • Hadoopを利用するマシンのインスタンス数は、実際にJobFlowを実行する際に利用する台数を指定することが出来、料金は従量課金制となります。
  • JobFlowAはデータ件数もそこそこで単純な処理だから2台、JobFlowBはデータ件数も多く複雑な処理だから10台といったような柔軟な利用が可能です。

http://aws.amazon.com/jp/elasticmapreduce/
尚、利用するにはクライアントが必要です。

これはRubyクライアントの例です。
http://aws.amazon.com/developertools/2264

処理フロー

以下のような流れとなります。

  1. JobFlowの作成(Create Job Flow)
  2. 処理実行
  3. JobFlowの終了処理(Terminate Job Flow)

※ JobFlowまでちゃんと実行して立ち上げたインスタンスを落とさないと課金が発生し続けます。
Jobの実行時のコマンドのオプション次第で処理実行後、自動でJobFlowが終了するようにできるようです(未確認)。

動作環境に付いて

Emr_image

トラックバック


この記事へのトラックバック一覧です: ElasticMapReduce:

コメント

コメントを書く



(ウェブ上には掲載しません)