Amazon EMR Task Instance Group

1

Amazon Elastic MapReduce

AWS Black Belt Tech Webinar 2015アマゾンデータサービスジャパン株式会社ソリューションアーキテクト岩永亮介

2015/9/16 ※2015/11/30更新

2

Amazon Elastic MapReduceの歴史

• 2009年に最初のリリース– MapReduceジョブを、ボタン1つで実行できる環境を提供

• Hadoopエコシステムの進化に対応– Pig, Hive, HBase, Impala, Presto, Hue, Hadoop 2.0, Spark

• AWSサービスの進化に対応– Spot, IAM, DynamoDB, VPC, CloudWatch, CLI, Kinesis, KMS

→ もはやMapReduceだけではない！

3

ビッグデータパイプライン

S3

Kinesis

DynamoDB

AWS Lambda

KCL Apps

EMR

EMR Redshift

MachineLearning

Collect Process Analyze

Store

Data Collectionand Storage

DataProcessing

EventProcessing

Data Analysis

Data Answers

4

分散処理基盤

• 分散処理に必要なリソースを簡単に調達/廃棄可能

– Master/Core/Task node

– EMRFS

– Bootstrap Action, Steps

分散処理アプリケーション

• 複雑な設定無しに分散アプリケーションを利用可能

– Hadoop, YARN

– Hive, Pig, HBase, Spark..

Amazon EMRを構成する2つの要素

5

Agenda

• 分散処理基盤としてのAmazon EMR

• Amazon EMR主要アップデート (2014/10以降)

• 分散処理アプリケーションとしてのAmazon EMR

• まとめ

6

分散処理基盤としてのAmazon EMR- アーキテクチャ -

7

Task Node

Task Instance Group

Amazon EMRのアーキテクチャ

Master Node

Master Instance Group

Amazon S3

Core Node

Core Instance Group

HDFS HDFS

HDFS HDFS

Task Node

Task Instance Group

スレーブ群を管理

HDFSアクセス

AWSサービスアクセス

8

Amazon EMR Master Instance Group

• Master Nodeは1つ– Failoverは非対応

• いわゆるマスターの役割を担う– NameNodeや

JobTrackerなどが動く

– Core NodeやTask Nodeの監視

Master Node

Master Instance Group

Hadoop1: JobTracker

Hadoop2: ResourceManager

HDFS: NameNode

Hive: HiveServer, MetaStore

Presto: Coordinator

9

Amazon EMR Core Instance Group

• 1つ以上のCore Node

• いわゆるスレーブの役割を担う

– TaskTrackerなど

– DataNodeが動きローカルディスクがHDFSとして使われる

HDFS

Core Node

Core Instance Group

Hadoop1: TaskTracker

Hadoop2: NodeManager

HDFS: DataNode

Presto: Worker

10

Amazon EMR Core Instance Group

• Core Node追加可能

– HDFS容量増加

– CPU/RAM増設

• HDFSを持っているため、削減はできない

– 4.1.0からは削減も可能に

HDFS

Core Node

Core Instance Group



HDFS: DataNode

Presto: Worker

11

Amazon EMR Task Instance Group

• HDFSを持たない以外はCoreと同じ役割

• HDFSのデータはCore Nodeにアクセスする

• HDFSを持たないので削除も自由

Task Node

Task Instance Group



(Presto: Worker)

12

Amazon EMR Task Instance Group

• 複数Group設定可能

– Spotのbid価格を調整

– Instance Typeを調整

• 余っているRIを活用したり、市場価格に合わせてSpotを調整したりと柔軟に対応

Task Instance Group 2

Task Instance Group 1

c3.xlarge * 2

bid: $0.1

r3.xlarge * 2

bid: $0.5

13

Spot Instanceの活用例

Task Instance GroupCore Instance Group

予測されたコストで最低要件を満たす低コストでより高速に

On-demandをCore Nodeに利用

最低要件を満たすだけのキャパシティをOn-demand価格で確保

Spot InstanceをTask Nodeに利用

On-demandの最大90%引き程度の価格で追加のリソースを確保

例: m3.xlarge 6台で10時間かかる処理 (倍の12台なら、5時間で終わると仮定)

Core Node(On-demand)のみ: $0.336×10h×6台 = $20.16 で10時間※

Task Node(Spot)で倍に: $0.336×5h×6台 + $0.12×5h×6台 = $13.68 で5時間※

※2015年9月16日現在のus-east-1の価格です。Spotの価格は時によって変動するので仮の価格です。

14

分散処理基盤としてのAmazon EMR- 機能・特徴 -

15

EMRFS: Amazon S3をHDFSの様に扱う

• 計算資源とストレージを隔離できる

• クラスタのシャットダウンが可能

– クラスタを消してもデータをロストしない

• 複数クラスタ間でデータ共有が簡単

– クラスタのバージョンアップ検証が並行できる

• データの高い耐久性

EMR

EMR

Amazon S3

16

EMRFSの特徴

• “s3://”と指定するだけで利用可能

• Amazon S3の機能がそのまま使える– 例: 古いデータはAmazon Glacierに自動で移動させる

• Amazon S3のサーバサイド・クライアントサイドの暗号化も利用可能– 他のアプリでクライアント暗号化したAmazon S3データも読み

出し可能

• クラスタを消してもデータは消えない

17

EMRFSのConsistent View

• Amazon S3は結果整合性

– 書き込み直後の読み取りは不整合の可能性

• EMRFSではConsistent Viewを提供

– Amazon DynamoDBにメタデータを格納し整合性担保

• 結果としてオブジェクトのリスト取得も高速に

Amazon S3 Amazon DynamoDB

EMRFSのメタデータを格納

18

Amazon EMRならではの使い方

• 必要な時だけクラスタ起動– 消せばお金はかからない– 処理が終わったら自動で消え

る設定も可能

• データは全てAmazon S3– クラスタを消してもデータは

消えない– データを貯める段階ではクラ

スタ不要

t

19

Amazon EMRの機能: Bootstrap Action

• 全てのNode起動時に実行されるスクリプト– 実行可能ファイルであれば何でもOK

• Bash, Ruby, Python, etc.

– Amazon S3に置いて指定、コマンドライン引数も自由に指定

• 任意のソフトウェアをインストールしたり、設定したりできる– AWS提供のものもいくつか存在する

20

Amazon EMRの機能: Step

• クラスタが準備できたら始まる処理– クラスタ起動時に設定することもできるし、起動しているクラスタ

に後から追加することもできる– 例: 日次のETL処理を行うHiveQL実行

• Amazon S3上のjarファイルを指定して実行– Streaming, Hive, Pig, SparkはEMRがサポート– script-runner.jarでbashスクリプトを実行させることも可能

• 最後のStepが終わったら自動でクラスタを終了させることもできる(Auto-terminate)

21

Amazon EMRでのジョブ実行方法

• Stepで実行– Amazon EMRの仕組みの上で実行

– 成功/失敗等を簡単に管理できる

– 現状はシリアル実行のみ

• 各アプリケーション毎のインタフェースで実行– Master Nodeにsshして、コマンド実行

– Hiveserver, spark-submit等でジョブを叩き込むなど

22

Amazon EMR主要アップデート(2014/10以降)

23

Amazon EMR主要アップデート (2014/10以降)

• (前出)複数のTask Node Group

• Release 4.0.0/4.1.0/4.2.0登場

• カスタムSecurity Group

• Amazon S3のクライアントサイド暗号化対応

• アプリケーションサポート追加(Hue, Spark)

24

Amazon EMR Release 4.0.0登場

• アプリケーションのバージョンアップ– Apache Bigtopベースの新しいパッケージングへ

• ポートやパスを標準的なものへ変更– Amazon EMR独自の設定から、オープンソースの標準設定へ

• アプリケーションの設定を直接的に変更できる様に– 設定ファイルを編集するのではなく、パラメータを直接指定できる

• マネージメントコンソール、ドキュメントも刷新– Quick Createでより簡単にクラスタ作成

– ドキュメントは、Management GuideとRelease Guideへ

※従来のAMIベースのバージョンの時との差分について、ドキュメントに詳細がまとまっています

http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-release-differences.html

http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-release-differences.html

25

Release 4.0.0: アプリケーション更新

• サポートアプリケーションが以下に変更– Hadoop 2.6.0

– Hive 1.0.0

– Pig 0.14.0

– Mahout 0.10.0

– Spark 1.4.1

• Apache Bigtopベースのパッケージングシステムへ– これまでよりも、速い更新が可能に

26

Release 4.0.0: ポートやパスの変更

• オープンソースの標準的な設定に変更– 従来はカスタムのポートやパスを利用していた

– 変更例:

• yarn.resourcemanager.webapp.address port 9026 => 8088

• /home/hadoop/hive => /usr/lib/hive, /etc/hive/conf, /var/log/hive

• 実行ユーザもコンポーネント毎に別ユーザへ– 従来は全てhadoopユーザだった

– yarnユーザ、hiveユーザなどに変更

27

Release 4.0.0: アプリケーションの設定変更

• Classification + Propertiesで直接的な指定– 従来はBootstrap Actionなどで変更していた

– 以下の様な構造のデータを指定するだけで設定変更可能になった

http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-configure-apps.html

[{"Classification": "mapred-site","Properties": {"mapred.tasktracker.map.tasks.maximum": "2","mapreduce.map.sort.spill.percent": "90","mapreduce.tasktracker.reduce.tasks.maximum": "5"

}}

]

/etc/hadoop/conf/mapred-site.xmlに設定値が記述される

http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-configure-apps.html

28

Release 4.0.0: コンソール、ドキュメント変更

• マネージメントコンソールでQuick Create可能に– ソフトウェア、ハードウェア、セキュリティの3項目だけ

– 従来通りのコンソールもGo to advanced optionsのリンクから利用可能

• ドキュメントが新たにリリース– Management Guide

• Amazon EMRのサービスとプラットフォームに関するドキュメント• http://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide

– Release Guide• インストールされているソフトウェア等のリリースに関するドキュメント• http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide

http://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide

http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide

29


• サポートアプリケーションの変更点– Spark 1.5.0

– Hue 3.7.1 (新規追加)

• サンドボックスアプリケーションで、開発中のアプリケーションも利用可能に– Presto 0.119

– Zeppelin 0.6 (Snapshot)

– Oozie 4.0.1

30


• サポートアプリケーションの変更点– Spark 1.5.2

– Ganglia 3.6.0 (新規追加)

• サンドボックスアプリケーションの変更点– Presto 0.125

– Zeppelin 0.5.5

– Oozie 4.2.0

31

カスタムSecurity Groupが利用可能に

• 自身で作成したSecurity Groupを指定可能– 例: クラスタ毎に別のSecurity Groupを設定して、分離度を上げる

• Security Groupは2種類– Managed: 必須、必要なルールが自動的に追加される

• SG内、master-slave間、管理用通信(Amazonから8443 portへ)

– Additional: 任意、追加のルールを設定する用途

https://aws.amazon.com/about-aws/whats-new/2015/01/22/customizable-security-groups-and-

multiple-task-instances-now-available-for-amazon-emr/

https://aws.amazon.com/about-aws/whats-new/2015/01/22/customizable-security-groups-and-multiple-task-instances-now-available-for-amazon-emr/

32

Amazon S3クライアントサイド暗号化対応

• EMRFSの拡張として提供– EMRFSを使っていれば透過的に暗号化・復号される

• クライアントサイド暗号化– (サーバサイド暗号化では、Amazon S3の内部で暗号化も復号も行う)

– クライアントサイド暗号化では、Amazon EMRで暗号化・復号する

• Amazon S3への保存前に暗号化して保存する

• 鍵の提供元として、Amazon KMSまたはカスタムプロバイダを指定可能

https://aws.amazon.com/about-aws/whats-new/2015/03/amazon-emr-support-for-amazon-s3-client-

side-encryption-now-available/

https://aws.amazon.com/about-aws/whats-new/2015/03/amazon-emr-support-for-amazon-s3-client-side-encryption-now-available/

33

EMRFS – クライアントサイド暗号化

Amazon S3

クラ

イア

ント

から

Am

azo

n S

3に

暗号

化し

て保

存ク

ライ

アン

トサ

イド

暗号

化を

有効

化し

たEM

RFSで

復号

して

読み

込み

キーベンダー (AWS KMSか、カスタムのプロバイダ)

(クライアントサイドで暗号化されたオブジェクト)

34

アプリケーションサポートの追加

• Spark– AMI Version 3.8.0以降

• Hue– AMI Version 3.3.0以降

– Release 4.1.0以降

• Release 4.0.0には含まれていないので注意

https://aws.amazon.com/about-aws/whats-new/2015/06/apache-spark-now-available-on-amazon-emr/

https://aws.amazon.com/about-aws/whats-new/2014/11/07/amazon-elastic-mapreduce-now-supports-hue/

https://aws.amazon.com/about-aws/whats-new/2015/06/apache-spark-now-available-on-amazon-emr/

https://aws.amazon.com/about-aws/whats-new/2014/11/07/amazon-elastic-mapreduce-now-supports-hue/

35

分散処理アプリケーションとしてのAmazon EMR

36

Amazon EMRにおけるアプリケーション

• サポートアプリケーション– クラスタ作成時に簡単なオプションをつけるだけでインストー

ル可能なもの

– Release Label/AMI Version毎に使えるアプリケーション、バージョンが異なる

• カスタムインストールアプリケーション– サポートが無くても、Bootstrap ActionやStepsを組み合わせ

て任意のアプリケーションをインストール可能

37

アプリケーション: Hadoop

• YARN = Yet-Another-Resource-Negotiator

• Hadoop2から導入されたリソース管理の仕組み– 以前は全てJobTrackerが行っていた

• Resource Requestベースのスケジューラ– ApplicationMasterからのリクエストに

応じて、空いているリソースをResourceManagerが割り当てる

MapReduce

Pig Hive OtherOther

HDFS

OtherMap

ReducePig Hive

YARN

HDFS

Hadoop V1

Hadoop V2

38

YARN: ResourceManager

• マスターサーバで稼働

• スレーブ群のリソース情報を集約

– CPU, Memory, etc.

• 必要なリソースを探して割り当てる

• ジョブの管理は行わない

– ApplicationMasterの仕事

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html


39

YARN: NodeManager

• スレーブサーバで稼働

• そのサーバのリソース情報をRMに報告

• サーバ上のContainerの管理を行う

– 要求に答えてContainerを起動する



40

YARN: Container

• スレーブのリソースが切り出されたもの

• NMによって起動される

• 実行方式– DefaultContainerExecutor

• プロセス

– LinuxContainerExecutor• cgroups

– DockerContainerExecutor• Docker



41

YARN: ApplicationMaster

• ジョブ全体を管理するContainer

– 旧JobTrackerの様な存在

– ジョブ毎に1つのAM

• ジョブを分散処理するContainer全体の進捗管理や監視を行う

– Scheduler



42

Amazon EMRとYARN

• MapReduce, Hive, Pig, Spark on YARN– Amazon EMRクラスタが持つ計算資源を、YARNがアプリケー

ションに割り振ってくれる

• マルチテナントなクラスタも簡単に作れる– MRでもHiveでもSparkでも、共通のリソースを分割して使える

43

アプリケーション: Hive

• SQL likeな宣言的言語で、ビッグデータに対する処理が行えるアプリケーション

• データソースに対してスキーマを定義することで、あたかもテーブルの様に扱える– 通常はHDFSがデータソース– Amazon EMRではEMRFS(Amazon S3)が利用可能

• 他にも、Amazon Kinesis, Amazon DynamoDBへのコネクタを提供

• 処理の実際は実行エンジンによって異なる– MapReduce, Tez, Spark

https://hive.apache.org/

https://hive.apache.org/

44

Hiveの処理例

Metastore

HDFS

Cluster

Amazon S3

HiveserverCREATE

TABLE

SELECT

FROM

1: テーブル定義でHDFSやAmazon S3をソースに指定

2: テーブル定義がメタデータとして保存される

3: 定義したテーブルに対して処理を実行 4: テーブルの

メタデータを取得

5:クラスタに処理を依頼

6: 実際のデータソースから読み出しつつ指定された処理を行う

AmazonDynamoDB

Amazon Kinesis

45

Hive Metastoreの重要性

• 他のSQL実行エンジンでも同じMetastoreを参照可能

• MetastoreのMySQLをクラスタ外に持つことも可能– Amazon EMRの通常は

Masterのローカル

Metastore

Amazon S3

HDFS

46

新しいファイルフォーマット ORC File / Parquet

• 列指向ファイルフォーマット– カラム毎にデータをまとめて保存する– 特定の列を扱う処理ではファイル全体を読む必要が

ない– → Optimized Row Columnar(ORC) File / Parquet

• 行指向ファイルフォーマット– 1行ずつファイルに保存する– 1カラムのみ必要でも、レコード全体を読む必要があ

る– → TEXTFILE, SEQUENCEFILE

ORCのデータ構造

https://orc.apache.org/docs/spec-intro.html

https://orc.apache.org/docs/spec-intro.html

47

列指向フォーマットを使うメリット

• 特定列のみの読み書きが効率的– ビッグデータ分析では全列を使うことは稀

– 単純な統計データならメタデータのみで完結する

• 列毎には似たデータが続くので圧縮効率が良い

• 行毎にグループ化されているので、1行のデータは1つのファイルに収まっている

48

HiveでのORC File/Parquetの使い方

• テーブル定義で指定するだけ

• あとは何も意識しなくて良い

CREATE TABLE t (

col1 STRING,

…

) STORED AS [ORC/PARQUET];

INSERT INTO t (…);

SELECT col1 FROM t;

49

HiveでAmazon Kinesisのデータを処理

• Amazon Kinesisが保持するStreamデータを、Hiveのテーブルとして扱える– Amazon Kinesisの保持期限を考慮して、データアーカイブ用途など– 注: Hiveでは速度が出ないので、いわゆるストリーム処理は厳しい

• Stream内のShard毎にMapperがデータを読み出す– デフォルトはAmazon Kinesisの保持データをフルスキャン– チェックポイント(Amazon DynamoDBに記録)を使うと、前回読みだした

データ以降のみ読むことも可能

Shard-0

Shard-1

Mapper

Mapper

SELECT

FROM

123

id data

1 …

2 …

3 …Amazon Kinesis

50

HiveでAmazon Kinesisのデータを処理Hiveテーブル作成

Amazon KinesisStreamを指定

HQLの実行(例)

通常のHQLを実行するだけ。内部的にはAmazon Kinesisからデータを取得し処理を行う

51

アプリケーション: Spark

• 高速な分散処理フレームワークとして話題– メモリキャッシュ、なるべく

ディスクを使わない– 繰り返し処理(機械学習等)で

効果が高い

• フレームワーク上で、更にアプリケーションが展開– SQL,ストリーム,機械学習,グ

ラフ

http://spark.apache.org/

http://spark.apache.org/

52

Spark SQL & DataFrame API

• Spark SQL– DataFrame APIを操作する

1つの手段– Hive Metastoreも利用可能

• DataFrame API– RDD + Schema– SQL/Java/Scala/Python/

Rで同等の処理速度を実現• JVMのバイトコードへ変換

http://www.slideshare.net/databricks/2015-0616-spark-summit/16

http://spark.apache.org/sql/

http://www.slideshare.net/databricks/2015-0616-spark-summit/16

http://spark.apache.org/sql/

53

• Discretized Stream(DStream)と呼ばれる、高レベルの抽象表現

• Resilient Distributed Dataset(RDD)のシーケンスとして表現される– いわゆる、マイクロバッチ処理

DStreamRDD@T1 RDD@T2

Messages

Receiver

Spark Streaming – 基本コンセプト

54

Amazon KinesisとSpark Streaming

• Amazon KinesisのStreamが、Amazon EMR上のSparkにDStreamとして流れてくる– Sparkの中にAmazon Kinesis用のライブラリが同梱されている– 裏側では、Kinesis Client Libraryを利用して読み込み

• 数秒〜数分のマイクロバッチで、ニア-リアルタイム処理を実現– 速報値ダッシュボード、異常検知など

http://spark.apache.org/docs/latest/streaming-kinesis-integration.html

Shard-0

Shard-1

KCL thread

KCL threadAmazon Kinesis

DStream

RDD@T1 RDD@T2

http://spark.apache.org/docs/latest/streaming-kinesis-integration.html

55

Spark Dynamic Resource Allocation

• 複数Executorのメモリ上でRDDをキャッシュ– Heapを全て使えるわけではないので、サイズに注意

• Dynamic Resource Allocation = Executorの数を動的に調整可能– StreamingのApplicationがトラフィックに合わせてスケール

– spark-shell等が使わないリソースを確保し続けることもない

– 4.0.0では面倒な設定が終えてあるので、すぐに利用可能！

https://spark.apache.org/docs/1.4.1/job-scheduling.html

https://spark.apache.org/docs/1.4.1/job-scheduling.html

56

まとめ

57

分散処理基盤

• 分散処理に必要なリソースを簡単に調達/廃棄可能

分散処理アプリケーション

• 複雑な設定無しに分散アプリケーションを利用可能

Amazon EMRで分散処理

分散処理したいデータがあるなら、ボタン1つで今すぐに！

58

参考資料（英語）

• Amazon EMR Management Guidehttp://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide

• Amazon EMR Release Guidehttp://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide

• Amazon EMR API Referencehttp://docs.aws.amazon.com/ElasticMapReduce/latest/API/

• Amazon EMR Developer Guide (2.x and 3.x 向け)http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/

• AWS CLI emrhttp://docs.aws.amazon.com/cli/latest/reference/emr/index.html

http://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide

http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide

http://docs.aws.amazon.com/ElasticMapReduce/latest/API/

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/

http://docs.aws.amazon.com/cli/latest/reference/emr/index.html

59

Q&A

次回Webinarのお申し込みhttp://aws.amazon.com/jp/event_schedule/

http://aws.amazon.com/jp/event_schedule/

60

Webinar資料の配置場所

• AWS クラウドサービス活用資料集– http://aws.amazon.com/jp/aws-jp-introduction/

http://aws.amazon.com/jp/aws-jp-introduction/

61

公式Twitter/FacebookAWSの最新情報をお届けします

@awscloud_jp

検索

最新技術情報、イベント情報、お役立ち情報、お得なキャンペーン情報などを日々更新しています！

もしくはhttp://on.fb.me/1vR8yWm

62

ご参加ありがとうございました。

63

Appendix

64

IAM Roleの指定が必須に

• 2015年6月30日以降、IAM Roleを指定しないとクラスタが起動できなくなった

• IAM Roleは2種類、デフォルトで作成される– EMR role

• Amazon EMRが、Amazon EC2を起動したりするのに必要な権限

– EC2 instance profile

• Amazon EC2が、Amazon S3等にアクセスするのに必要な権限

http://aws.typepad.com/sajp/2015/06/emr-mandatory-iam-update.html

http://aws.typepad.com/sajp/2015/06/emr-mandatory-iam-update.html

Documents

Amazon EMR Task Instance Group