80
ビッグデータの3つのVと4つの プロセスを支えるAWS活用法 アマゾンデータサービスジャパン ソリューションアーキテクト 大谷 晋平 ([email protected])

ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Embed Size (px)

DESCRIPTION

ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法 登壇者名・社名 大谷 晋平(アマゾン データ サービス ジャパン 株式会社)

Citation preview

Page 1: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

アマゾンデータサービスジャパン

ソリューションアーキテクト

大谷 晋平

([email protected])

Page 2: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

WIFIおよびハッシュタグ

# hashtag

#AWSTokyo

WiFi access

Network:awssummit

Password:awstokyo

Page 3: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

自己紹介

大谷 晋平(おおたに しんぺい)

アマゾンデータサービスジャパン

• お客様がAWSクラウドを最適に使えるように、 お手伝いをするお仕事をしています

• ソリューションアーキテクト

ソーシャルネットワーク(連絡先)

• Twitter: @shot6

• Facebook: facebook.com/shot6

• Mail: [email protected]

Page 4: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

自己紹介(続き)

経歴

• 金融エンジニア

• →ITアーキテクト

• →ソリューションアーキテクト(←イマココ)

執筆

Page 5: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

アジェンダ

AWSのおさらい

ビッグデータとは何か?

事例に学ぶビッグデータ活用

ビッグデータアーキテクチャ

まとめ

Page 6: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

AWSのおさらい

Page 7: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
Page 8: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビッグデータとは何か?

Page 9: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

amazon.co.jp, today

Page 10: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

amazon.co.jp, today

Page 11: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビッグデータ?

Page 12: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビッグデータ =データ量??

Page 13: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビッグデータ =3つのV

Page 14: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

1つ目のV Volume

(データ量)

Page 15: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

そもそもデータ量はなぜ増えるか?

• デバイス数の増加・高機能化

• パーソナライゼーション • 各ユーザ毎の動向・リコメンデーション

• ビジネスメトリクスの確保

• 低価格Webストレージの出現 • 桁違いの量の補完が実現可能に

Page 16: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビッグデータの成長速度

そもそもコンシューマが 扱うデバイスの大容量化

2012年で2.7ゼタバイトのデータ(PBの上)

そのほとんどが構造化されていないデータ

Page 17: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

1

S3

S3 S3

データを 自動複製

リージョン

サーバ

ビッグデータを支えるAmazon S3

データは3つ以上のデータセンターに自動複製

設計上のデータ耐久性は 99.999999999%

容量は無制限で従量課金。初期費用ゼロ。

約11円/GBスタート

Webサイトホスティングも可能に

Page 18: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Amazon S3のコンセプト

堅牢 常時利用可能 スケーラブル 安全・安心

高速 シンプル

EASY!

従量課金・低価格

Page 19: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

2つ目のV Velocity

(データ到達速度)

Page 20: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

・エンドユーザはデバイスの多様化、 高機能化によって、あらゆるシーンに おいてITを利用 ・マシンが直接生成するデータも増加 =データの生成速度があがった =データがビジネスのライフライン

Page 21: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Velocity:AmazonのWebサーバ移行

あらゆるデバイスからの膨大なリクエスト

EC2+オートスケールで自在にスケール Amazon.com AWS

Load Balancer

・・・

EC2 www 1

EC2 www n

EC2 www 1

EC2 www n

アベイラビリティゾーンA

アベイラビリティゾーンN

DB

VPC

他サービス

Page 22: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

3つ目のV Variety

(データの種類)

Page 23: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
Page 24: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Varietyへの対応 リレーショナルDB: 顧客マスターデータ

リレーショナルDB: ターゲット情報の抽出

DynamoDB テーブル: 発注データ

Page 25: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Varietyへの対応(2)

S3上の クリックログデータ

サードパーティ製品で 抽出したソーシャルメディア のデータ

リレーショナルDB: 顧客マスターデータ

DynamoDB テーブル: 発注データ

リレーショナルDB: ターゲット情報の抽出

Page 26: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Varietyへの対応(3)

S3に月次レポートを抽出 s3://weekly-trend-data/ CSV形式

S3に週次レポートを抽出 s3://weekly-trend-data/ CSV形式

Page 27: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

EC2上のデータウェアハウス

S3

インフラやアプリケーション監視 サードパーティの

データセット

EMRのクラスタ

Dynamo DB

RDS

事実:AWSではビッグデータに対応する様々な インフラストラクチャサービスを展開しています

Page 28: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

BIG DATA 4つのプロセス

1.収集 2.保存 3.分析 4.共有

Page 29: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

データ収集 データ解析 結果の共有 ビジュアライズ

1

分析クラスタ

Amazon EMR

データ保存

EC2 EC2+BI

2 3 4

Dynamo DB

RDS

S3 Glacier

AWSを使うとシンプルに実現可能

Page 30: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

データ構造 非構造化 構造化

大きい

小さい

データ サイズ

S3

RDS

EMR

Dynamo DB

データサイズ、構造によらず、 AWSクラウドでは幅広くカバーできる

Glacier

データサイズ・構造とのAWSサービス対応

Page 31: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

事例に学ぶ ビッグデータ活用

Page 32: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

リクルート様

Page 33: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

リクルート様の課題

Suumoでのビジネスニーズの追及 • ユーザの行動分析をすぐにやりたい

• 利用者800万ユニークユーザ

• ユーザへのレコメンドもすぐにやりたい

スピード最優先で進めたい

Page 34: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ソリューション:EMR+S3で分析基盤を構築

ログ転送 基礎データ <分析環境>

レコメンド アプリケーション <施策環境>

モジュール

モジュール

モジュール

AWSクラウド

オンプレミス ※一部クラウド

Page 35: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

リクルート様での効果 物件情報のリコメンド

• 「この物件見た方はこちらも見ています」

• RDBMSで構築した場合、1日以上→EMRで30分

Webサイトでのユーザ行動分析

• 統計専門家がすぐ開始。リードタイムの劇的短縮

ターゲッティングメルマガ

コンバージョン数集計、月次集計

おすすめメンバのリコメンド

Page 36: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Sonet様

Page 37: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Sonet様の課題

広告分析基盤の構築 • データ量は増え続ける

• 初期費用がかかりすぎる

データ量が増えても、スケールさせたい

人材は自社メンバだけでやりたい

Page 38: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ソリューション: S3+EMR+SQSとSFDCの連携

AWS+SalesForceのクラウド連携 SFDCは表示部分のみ

AWSはビッグデータ処理部分全て

Page 39: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Sonet様での効果

広告配信ログの分析

• 1日平均10GB、年間3.65TB以上

• 1年分5TBをS3アップロードしてEMRで解析

コスト効果

• オンプレミス試算:初期費用で数千万円単位

• AWSの価格:毎月50万円(年間600万円)

• 価格差は20分の1

• EC2スポットインスタンスで、アドホック分析

• 更にコストを50%削減

Page 40: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

アンデルセンサービス様

Page 41: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

アンデルセンサービス様の課題

原材料からの原価計算バッチが4時間 かかっている

• BOM展開、原価積み上げ、組み合わせ爆発

原価計算をもっと頻度高く行いたい

• 想定データではなく、実際の数字で

• 何回も実施し、原価への影響をみたい

Page 42: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ソリューション: VPC上での原価計算バッチ処理

VPN

Hadoop Master Hadoop

Slave

基幹DB

原価計算バッチ環境(EC2)

VPN経由で データ送信

監視

バッチサーバ

ユーザ

EMRに移行し、 より簡単に利用しやすく

EMR

Hadoopでバッチ処理して、 終了後クラスタは停止する

Page 43: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

アンデルセンサービス様での効果

夜間バッチからの解放→業務変革

• データ量は多くないが、組み合わせが膨大

時間的制約からの解放

より新しいチャレンジへ

運用コストの大幅削減

既存データベースの負荷軽減

Page 44: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

アンデルセンサービス様での効果

実行時間が大幅短縮→何度も試行可能に

• 4時間→20分

2 2 12 3 2

0 5 10 15 20 25

バッチ処理時間

Clusterの起動 データの転送 原価計算

データの受信 Clusterの停止

Page 45: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Netflix様

Page 46: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

2500万人以上のストリーミング会員

Page 47: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

500億以上のイベント

Page 48: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Netflix様の課題

複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築

大量に発生するイベントデータの処理

複数の分析方法でどれが良いかをもっと安価に試したい

Page 49: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Netflix様の課題

複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築

大量に発生するイベントデータの処理

複数の分析方法でどれが良いかをもっと安価に試したい

Page 50: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Netflix Web Services (Honu) S3

Netflix様でのデータ収集

1日に8TBのイベントデータを収集

Page 51: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Data Center

S3

Netflix Data Center

オンプレミスデータセンターからのレガシーデータもS3

へアップロード

レガシーデータ

DWH RDBMS

Page 52: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

NoSQLデータベース上の 顧客データもS3へエクス

ポート

DWH RDBMS

Page 53: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

S3

事実:Netflixでは1PB以上のデータを Amazon S3に保存しています

Page 54: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Netflix様の課題

複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築

大量に発生するイベントデータの処理

複数の分析方法でどれが良いかをもっと安価に試したい

Page 55: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

EMR

Prod Cluster (EMR)S3

EMRを活用して、 データはすべてS3から提供

HDFS

Netflix様でのデータ解析

EMRクラスタ

Page 56: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

EMR

Prod Cluster (EMR)S3

結果はS3へ書き戻す

HDFS

Netflix様でのデータ解析

EMRクラスタ

Page 57: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

S3

EMR

Prod Cluster (EMR)

リコメンデーション

アドホック 分析

パーソナライゼーション

Netflix様でのデータ解析

EMRクラスタ

EMRで生成したデータは 様々な用途で利用

Page 58: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

EMRクラスタのリサイズ

Netflixでは土日の夜がピーク

• EMRはクラスタのサイズが変更可能

• ジョブの再起動なしに、ピークに合わせて300から400ノード以上に変更

Job Flow

平日夜

土日夜

平日

Job Flow

Job Flow

Page 59: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Netflix様の課題

複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築

大量に発生するイベントデータの処理

複数の分析方法でどれが良いかをもっと安価に試したい

Page 60: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

S3EMR

EMR

Prod Cluster (EMR)

Query Cluster (EMR)

Netflix本番クラスタ構成

本番クラスタ

アドホック 分析用

Page 61: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

EMR

S 3 EMR

EMR

Prod Cluster ( EMR )

Query Cluster ( EMR )

各分析毎にクラスタを構築できる

本番クラスタ

各分析毎にクラスタを柔軟に構築

EMR

EMR

Page 62: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Yelp様の事例

Page 63: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

検索ワードの 自動補完

リコメン デーション

スペルミスの 自動修正

Page 64: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

どこでAWSクラウドが動いているか?

月間のユーザ毎の履歴 一般的な間違いの データ

必要なデータ

Westen

Wistin

Westan

Whestin

スペルミスの自動修正

Page 65: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

月間のユーザ検索データ

検索用語

ミススペルデータ

クリックデータ

YelpのWebサイトログは全てS3で保管

Amazon S3

Page 66: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

Elastic MapReduceで200ノードのHadoopクラスターを起動

Hadoop Cluster

Amazon EMR

Amazon S3

Page 67: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

200ノードのクラスタ同時に 一般的なスペルミスを検索する

検索・解析は数時間で処理される

Hadoop Cluster

Amazon EMR

Amazon S3

Westen

Wistin

Westan

Page 68: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

検索した一般的なスペルミスは再度S3上でデータ保存し、アプリケーションから利用する

検索・解析は数時間で処理される

Hadoop Cluster

Amazon EMR

Amazon S3

Westen

Wistin

Westan

Page 69: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

EMRクラスターは処理完了後シャットダウン Yelpは利用した分のみの支払い

Hadoop Cluster

Amazon EMR

Amazon S3

Page 70: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

での効果

Yelpのエンジニアで、ビッグデータ処理は日常になった

• いつでも、好きな時に、制限なく利用可能

1日400GBのログはS3に保存

• 月間5000万PV、1800万レビューデータ

• データを捨てる必要もない

毎週平均250台のクラスターを利用

Page 71: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビッグデータ アーキテクチャ

Page 72: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

標準的なアーキテクチャ

Amazon EC2

ELB Web/APサーバ ワーカー

ログを蓄積 分析結果

Hadoopクラスタ

EMR

SQSや 他ミドルウェア

Amazon S3

データの収集

データの 保存

データの 分析

データの 共有

Page 73: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

BIツールとの連携アーキテクチャ

EMR

Oracle RDS

外部の広告データなどを エクスポート

S3

VPN経由 Karmasphere Analyst BIツールでGUIで利用

アナリスト

エンジニア SQLでそのまま利用

Page 74: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

高速バッチ処理

データ可視化 レポーティング

データ集約・変換

データ中心アーキテクチャ

S3

パーソナライゼーション

リコメンデーション

ビッグデータ処理部分は ・いつでも実施可能 ・いつでもリサイズ可能 ・いつでも複製可能 ・揮発・長期どちらも可能

データを中心にコンピュート処理は柔軟に状況に応じて、処理の仕方・

量を変動させる =クラウドがベストフィット

Page 75: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

まとめ

Page 76: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビジネス編まとめ

AWSクラウドxビッグデータ=革新

• 3つのV(Volume, Velocity, Variety)

• 4つのプロセス(収集、保存、分析、共有)

• AWSクラウドがベストフィット

•従量課金・低コスト・スケール

ビッグデータ処理自体も普及期へ • バズワードからの脱却

Page 77: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

技術編まとめ 3つのV(Volume, Velocity, Variety) • Volume:S3のスケーラビリティ

• Velocity:EC2+AutoScaling

• Variety:S3、RDS、DynamoDB

4つのプロセス(収集、保存、分析、共有) • AWSでは4プロセスを全方位カバー

• S3、EC2、EMR、RDS等、柔軟に選択可能

ビッグデータ処理のアーキテクチャが、 確立しつつある

Page 79: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビッグデータビジネスでぜひAWSクラウドをご活用ください!

Meet the SAコーナーでお待ちしています

質問・疑問等ありましたらお気軽にどうぞ!

Page 80: ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ご静聴ありがとう ございました!