ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

ビッグデータの3つのVと4つのプロセスを支えるAWS活用法

アマゾンデータサービスジャパン

ソリューションアーキテクト

大谷晋平

([email protected])

WIFIおよびハッシュタグ

# hashtag

#AWSTokyo

WiFi access

Network:awssummit

Password:awstokyo

自己紹介

大谷晋平(おおたにしんぺい)

アマゾンデータサービスジャパン

• お客様がAWSクラウドを最適に使えるように、お手伝いをするお仕事をしています

• ソリューションアーキテクト

ソーシャルネットワーク(連絡先)

• Twitter: @shot6

• Facebook: facebook.com/shot6

• Mail: [email protected]

mailto:[email protected]

自己紹介(続き)

経歴

• 金融エンジニア

• →ITアーキテクト

• →ソリューションアーキテクト（←イマココ）

執筆

アジェンダ

AWSのおさらい

ビッグデータとは何か？

事例に学ぶビッグデータ活用

ビッグデータアーキテクチャ

まとめ

AWSのおさらい

ビッグデータとは何か？

amazon.co.jp, today

amazon.co.jp, today

ビッグデータ？

ビッグデータ＝データ量？？

ビッグデータ =3つのV

１つ目のV Volume

(データ量)

そもそもデータ量はなぜ増えるか？

• デバイス数の増加・高機能化

• パーソナライゼーション • 各ユーザ毎の動向・リコメンデーション

• ビジネスメトリクスの確保

• 低価格Webストレージの出現 • 桁違いの量の補完が実現可能に

ビッグデータの成長速度

そもそもコンシューマが扱うデバイスの大容量化

2012年で2.7ゼタバイトのデータ（PBの上）

そのほとんどが構造化されていないデータ

1

S3

S3 S3

データを自動複製

リージョン

サーバ

ビッグデータを支えるAmazon S3

データは3つ以上のデータセンターに自動複製

設計上のデータ耐久性は 99.999999999%

容量は無制限で従量課金。初期費用ゼロ。

約11円/GBスタート

Webサイトホスティングも可能に

Amazon S3のコンセプト

堅牢常時利用可能スケーラブル安全・安心

高速シンプル

EASY!

従量課金・低価格

http://www.flickr.com/photos/14466267@N07/3237986628/

http://www.flickr.com/photos/lazyousuf/3112028635/

http://theunquietlibrary.files.wordpress.com/2007/12/pennies.jpg

２つ目のV Velocity

(データ到達速度)

・エンドユーザはデバイスの多様化、高機能化によって、あらゆるシーンにおいてITを利用・マシンが直接生成するデータも増加＝データの生成速度があがった＝データがビジネスのライフライン

Velocity：AmazonのWebサーバ移行

あらゆるデバイスからの膨大なリクエスト

EC2+オートスケールで自在にスケール Amazon.com AWS

Load Balancer

・・・

EC2 www 1

EC2 www n

…

EC2 www 1

EC2 www n

アベイラビリティゾーンA

アベイラビリティゾーンN

DB

VPC

他サービス

…

3つ目のV Variety

(データの種類)

Varietyへの対応リレーショナルDB: 顧客マスターデータ

リレーショナルDB：ターゲット情報の抽出

DynamoDB テーブル: 発注データ

Varietyへの対応(2)

S3上のクリックログデータ

サードパーティ製品で抽出したソーシャルメディアのデータ

リレーショナルDB: 顧客マスターデータ

DynamoDB テーブル: 発注データ

リレーショナルDB：ターゲット情報の抽出

Varietyへの対応(3)

S3に月次レポートを抽出 s3://weekly-trend-data/ CSV形式

S3に週次レポートを抽出 s3://weekly-trend-data/ CSV形式

EC2上のデータウェアハウス

S3

インフラやアプリケーション監視サードパーティの

データセット

EMRのクラスタ

Dynamo DB

RDS

事実：AWSではビッグデータに対応する様々なインフラストラクチャサービスを展開しています

BIG DATA 4つのプロセス

1.収集 2.保存 3.分析 4.共有

データ収集データ解析結果の共有ビジュアライズ

1

分析クラスタ

Amazon EMR

データ保存

EC2 EC2＋BI

2 3 4

Dynamo DB

RDS

S3 Glacier

AWSを使うとシンプルに実現可能

データ構造非構造化構造化

大きい

小さい

データサイズ

S3

RDS

EMR

Dynamo DB

データサイズ、構造によらず、 AWSクラウドでは幅広くカバーできる

Glacier

データサイズ・構造とのAWSサービス対応

事例に学ぶビッグデータ活用

リクルート様

リクルート様の課題

Suumoでのビジネスニーズの追及 • ユーザの行動分析をすぐにやりたい

• 利用者800万ユニークユーザ

• ユーザへのレコメンドもすぐにやりたい

スピード最優先で進めたい

ソリューション：EMR+S3で分析基盤を構築

ログ転送基礎データ＜分析環境＞

レコメンドアプリケーション＜施策環境＞

モジュール

モジュール

モジュール

AWSクラウド

オンプレミス ※一部クラウド

http://www.recruit.jp/index.html

リクルート様での効果物件情報のリコメンド

• 「この物件見た方はこちらも見ています」

• RDBMSで構築した場合、1日以上→EMRで30分

Webサイトでのユーザ行動分析

• 統計専門家がすぐ開始。リードタイムの劇的短縮

ターゲッティングメルマガ

コンバージョン数集計、月次集計

おすすめメンバのリコメンド

Sonet様

Sonet様の課題

広告分析基盤の構築 • データ量は増え続ける

• 初期費用がかかりすぎる

データ量が増えても、スケールさせたい

人材は自社メンバだけでやりたい

ソリューション： S3+EMR+SQSとSFDCの連携

AWS+SalesForceのクラウド連携 SFDCは表示部分のみ

AWSはビッグデータ処理部分全て

Sonet様での効果

広告配信ログの分析

• 1日平均10GB、年間3.65TB以上

• 1年分5TBをS3アップロードしてEMRで解析

コスト効果

• オンプレミス試算：初期費用で数千万円単位

• AWSの価格：毎月50万円(年間600万円)

• 価格差は20分の1

• EC2スポットインスタンスで、アドホック分析

• 更にコストを50%削減

アンデルセンサービス様

アンデルセンサービス様の課題

原材料からの原価計算バッチが4時間かかっている

• BOM展開、原価積み上げ、組み合わせ爆発

原価計算をもっと頻度高く行いたい

• 想定データではなく、実際の数字で

• 何回も実施し、原価への影響をみたい

ソリューション: VPC上での原価計算バッチ処理

VPN

Hadoop Master Hadoop

Slave

基幹DB

原価計算バッチ環境(EC2)

VPN経由でデータ送信

監視

バッチサーバ

ユーザ

EMRに移行し、より簡単に利用しやすく

EMR

Hadoopでバッチ処理して、終了後クラスタは停止する

アンデルセンサービス様での効果

夜間バッチからの解放→業務変革

• データ量は多くないが、組み合わせが膨大

時間的制約からの解放

より新しいチャレンジへ

運用コストの大幅削減

既存データベースの負荷軽減

アンデルセンサービス様での効果

実行時間が大幅短縮→何度も試行可能に

• 4時間→20分

2 2 12 3 2

0 5 10 15 20 25

バッチ処理時間

Clusterの起動データの転送原価計算

データの受信 Clusterの停止

Netflix様

2500万人以上のストリーミング会員

500億以上のイベント

Netflix様の課題

複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築

大量に発生するイベントデータの処理

複数の分析方法でどれが良いかをもっと安価に試したい

Netflix様の課題




Netflix Web Services (Honu) S3

Netflix様でのデータ収集

1日に8TBのイベントデータを収集

Data Center

S3

Netflix Data Center

オンプレミスデータセンターからのレガシーデータもS3

へアップロード

レガシーデータ

DWH RDBMS

NoSQLデータベース上の顧客データもS3へエクス

ポート

DWH RDBMS

S3

事実：Netflixでは1PB以上のデータを Amazon S3に保存しています

Netflix様の課題




EMR

Prod Cluster (EMR)S3

EMRを活用して、データはすべてS3から提供

HDFS

Netflix様でのデータ解析

EMRクラスタ

EMR

Prod Cluster (EMR)S3

結果はS3へ書き戻す

HDFS


EMRクラスタ

S3

EMR

Prod Cluster (EMR)

リコメンデーション

アドホック分析

パーソナライゼーション


EMRクラスタ

EMRで生成したデータは様々な用途で利用

EMRクラスタのリサイズ

Netflixでは土日の夜がピーク

• EMRはクラスタのサイズが変更可能

• ジョブの再起動なしに、ピークに合わせて300から400ノード以上に変更

Job Flow

平日夜

土日夜

平日

Job Flow

Job Flow

Netflix様の課題




S3EMR

EMR

Prod Cluster (EMR)

Query Cluster (EMR)

Netflix本番クラスタ構成

本番クラスタ

アドホック分析用

EMR

S 3 EMR

EMR

Prod Cluster ( EMR )

Query Cluster ( EMR )

各分析毎にクラスタを構築できる

本番クラスタ

各分析毎にクラスタを柔軟に構築

EMR

EMR

Yelp様の事例

検索ワードの自動補完


スペルミスの自動修正

どこでAWSクラウドが動いているか？

月間のユーザ毎の履歴一般的な間違いのデータ

必要なデータ

Westen

Wistin

Westan

Whestin

スペルミスの自動修正

月間のユーザ検索データ

検索用語

ミススペルデータ

クリックデータ

YelpのWebサイトログは全てS3で保管

Amazon S3

Elastic MapReduceで200ノードのHadoopクラスターを起動

Hadoop Cluster

Amazon EMR

Amazon S3

200ノードのクラスタ同時に一般的なスペルミスを検索する

検索・解析は数時間で処理される

Hadoop Cluster

Amazon EMR

Amazon S3

Westen

Wistin

Westan

検索した一般的なスペルミスは再度S3上でデータ保存し、アプリケーションから利用する

検索・解析は数時間で処理される

Hadoop Cluster

Amazon EMR

Amazon S3

Westen

Wistin

Westan

EMRクラスターは処理完了後シャットダウン Yelpは利用した分のみの支払い

Hadoop Cluster

Amazon EMR

Amazon S3

での効果

Yelpのエンジニアで、ビッグデータ処理は日常になった

• いつでも、好きな時に、制限なく利用可能

1日400GBのログはS3に保存

• 月間5000万PV、1800万レビューデータ

• データを捨てる必要もない

毎週平均250台のクラスターを利用

ビッグデータアーキテクチャ

標準的なアーキテクチャ

Amazon EC2

ELB Web/APサーバワーカー

ログを蓄積分析結果

Hadoopクラスタ

EMR

SQSや他ミドルウェア

Amazon S3

データの収集

データの保存

データの分析

データの共有

BIツールとの連携アーキテクチャ

EMR

Oracle RDS

外部の広告データなどをエクスポート

S3

VPN経由 Karmasphere Analyst BIツールでGUIで利用

アナリスト

エンジニア SQLでそのまま利用

高速バッチ処理

データ可視化レポーティング

データ集約・変換

データ中心アーキテクチャ

S3

パーソナライゼーション


ビッグデータ処理部分は・いつでも実施可能・いつでもリサイズ可能・いつでも複製可能・揮発・長期どちらも可能

データを中心にコンピュート処理は柔軟に状況に応じて、処理の仕方・

量を変動させる＝クラウドがベストフィット

まとめ

ビジネス編まとめ

AWSクラウドxビッグデータ=革新

• 3つのV(Volume, Velocity, Variety)

• 4つのプロセス(収集、保存、分析、共有)

• AWSクラウドがベストフィット

•従量課金・低コスト・スケール

ビッグデータ処理自体も普及期へ • バズワードからの脱却

技術編まとめ 3つのV(Volume, Velocity, Variety) • Volume：S3のスケーラビリティ

• Velocity：EC2+AutoScaling

• Variety：S3、RDS、DynamoDB

4つのプロセス(収集、保存、分析、共有) • AWSでは4プロセスを全方位カバー

• S3、EC2、EMR、RDS等、柔軟に選択可能

ビッグデータ処理のアーキテクチャが、確立しつつある

次のアクションは？

AWSの始め方 • http://aws.amazon.com/jp/aws-first-step/

AWSクラウドサービス活用 • http://aws.amazon.com/jp/aws-jp-introduction/

お問い合わせ • http://aws.amazon.com/jp/contact-us/aws-sales/

• [email protected] まで

http://aws.amazon.com/jp/aws-first-step/





http://aws.amazon.com/jp/aws-jp-introduction/






http://aws.amazon.com/jp/contact-us/aws-sales/





mailto:[email protected]

ビッグデータビジネスでぜひAWSクラウドをご活用ください！

Meet the SAコーナーでお待ちしています

質問・疑問等ありましたらお気軽にどうぞ！

ご静聴ありがとうございました！

Documents

ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法