Upload
amazon-web-services-japan
View
2.533
Download
10
Embed Size (px)
DESCRIPTION
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法 登壇者名・社名 大谷 晋平(アマゾン データ サービス ジャパン 株式会社)
Citation preview
WIFIおよびハッシュタグ
# hashtag
#AWSTokyo
WiFi access
Network:awssummit
Password:awstokyo
自己紹介
大谷 晋平(おおたに しんぺい)
アマゾンデータサービスジャパン
• お客様がAWSクラウドを最適に使えるように、 お手伝いをするお仕事をしています
• ソリューションアーキテクト
ソーシャルネットワーク(連絡先)
• Twitter: @shot6
• Facebook: facebook.com/shot6
• Mail: [email protected]
自己紹介(続き)
経歴
• 金融エンジニア
• →ITアーキテクト
• →ソリューションアーキテクト(←イマココ)
執筆
アジェンダ
AWSのおさらい
ビッグデータとは何か?
事例に学ぶビッグデータ活用
ビッグデータアーキテクチャ
まとめ
AWSのおさらい
ビッグデータとは何か?
amazon.co.jp, today
amazon.co.jp, today
ビッグデータ?
ビッグデータ =データ量??
ビッグデータ =3つのV
1つ目のV Volume
(データ量)
そもそもデータ量はなぜ増えるか?
• デバイス数の増加・高機能化
• パーソナライゼーション • 各ユーザ毎の動向・リコメンデーション
• ビジネスメトリクスの確保
• 低価格Webストレージの出現 • 桁違いの量の補完が実現可能に
ビッグデータの成長速度
そもそもコンシューマが 扱うデバイスの大容量化
2012年で2.7ゼタバイトのデータ(PBの上)
そのほとんどが構造化されていないデータ
1
S3
S3 S3
データを 自動複製
リージョン
サーバ
ビッグデータを支えるAmazon S3
データは3つ以上のデータセンターに自動複製
設計上のデータ耐久性は 99.999999999%
容量は無制限で従量課金。初期費用ゼロ。
約11円/GBスタート
Webサイトホスティングも可能に
Amazon S3のコンセプト
堅牢 常時利用可能 スケーラブル 安全・安心
高速 シンプル
EASY!
従量課金・低価格
2つ目のV Velocity
(データ到達速度)
・エンドユーザはデバイスの多様化、 高機能化によって、あらゆるシーンに おいてITを利用 ・マシンが直接生成するデータも増加 =データの生成速度があがった =データがビジネスのライフライン
Velocity:AmazonのWebサーバ移行
あらゆるデバイスからの膨大なリクエスト
EC2+オートスケールで自在にスケール Amazon.com AWS
Load Balancer
・・・
EC2 www 1
EC2 www n
…
EC2 www 1
EC2 www n
アベイラビリティゾーンA
アベイラビリティゾーンN
DB
VPC
他サービス
…
3つ目のV Variety
(データの種類)
Varietyへの対応 リレーショナルDB: 顧客マスターデータ
リレーショナルDB: ターゲット情報の抽出
DynamoDB テーブル: 発注データ
Varietyへの対応(2)
S3上の クリックログデータ
サードパーティ製品で 抽出したソーシャルメディア のデータ
リレーショナルDB: 顧客マスターデータ
DynamoDB テーブル: 発注データ
リレーショナルDB: ターゲット情報の抽出
Varietyへの対応(3)
S3に月次レポートを抽出 s3://weekly-trend-data/ CSV形式
S3に週次レポートを抽出 s3://weekly-trend-data/ CSV形式
EC2上のデータウェアハウス
S3
インフラやアプリケーション監視 サードパーティの
データセット
EMRのクラスタ
Dynamo DB
RDS
事実:AWSではビッグデータに対応する様々な インフラストラクチャサービスを展開しています
BIG DATA 4つのプロセス
1.収集 2.保存 3.分析 4.共有
データ収集 データ解析 結果の共有 ビジュアライズ
1
分析クラスタ
Amazon EMR
データ保存
EC2 EC2+BI
2 3 4
Dynamo DB
RDS
S3 Glacier
AWSを使うとシンプルに実現可能
データ構造 非構造化 構造化
大きい
小さい
データ サイズ
S3
RDS
EMR
Dynamo DB
データサイズ、構造によらず、 AWSクラウドでは幅広くカバーできる
Glacier
データサイズ・構造とのAWSサービス対応
事例に学ぶ ビッグデータ活用
リクルート様
リクルート様の課題
Suumoでのビジネスニーズの追及 • ユーザの行動分析をすぐにやりたい
• 利用者800万ユニークユーザ
• ユーザへのレコメンドもすぐにやりたい
スピード最優先で進めたい
ソリューション:EMR+S3で分析基盤を構築
ログ転送 基礎データ <分析環境>
レコメンド アプリケーション <施策環境>
モジュール
モジュール
モジュール
AWSクラウド
オンプレミス ※一部クラウド
リクルート様での効果 物件情報のリコメンド
• 「この物件見た方はこちらも見ています」
• RDBMSで構築した場合、1日以上→EMRで30分
Webサイトでのユーザ行動分析
• 統計専門家がすぐ開始。リードタイムの劇的短縮
ターゲッティングメルマガ
コンバージョン数集計、月次集計
おすすめメンバのリコメンド
Sonet様
Sonet様の課題
広告分析基盤の構築 • データ量は増え続ける
• 初期費用がかかりすぎる
データ量が増えても、スケールさせたい
人材は自社メンバだけでやりたい
ソリューション: S3+EMR+SQSとSFDCの連携
AWS+SalesForceのクラウド連携 SFDCは表示部分のみ
AWSはビッグデータ処理部分全て
Sonet様での効果
広告配信ログの分析
• 1日平均10GB、年間3.65TB以上
• 1年分5TBをS3アップロードしてEMRで解析
コスト効果
• オンプレミス試算:初期費用で数千万円単位
• AWSの価格:毎月50万円(年間600万円)
• 価格差は20分の1
• EC2スポットインスタンスで、アドホック分析
• 更にコストを50%削減
アンデルセンサービス様
アンデルセンサービス様の課題
原材料からの原価計算バッチが4時間 かかっている
• BOM展開、原価積み上げ、組み合わせ爆発
原価計算をもっと頻度高く行いたい
• 想定データではなく、実際の数字で
• 何回も実施し、原価への影響をみたい
ソリューション: VPC上での原価計算バッチ処理
VPN
Hadoop Master Hadoop
Slave
基幹DB
原価計算バッチ環境(EC2)
VPN経由で データ送信
監視
バッチサーバ
ユーザ
EMRに移行し、 より簡単に利用しやすく
EMR
Hadoopでバッチ処理して、 終了後クラスタは停止する
アンデルセンサービス様での効果
夜間バッチからの解放→業務変革
• データ量は多くないが、組み合わせが膨大
時間的制約からの解放
より新しいチャレンジへ
運用コストの大幅削減
既存データベースの負荷軽減
アンデルセンサービス様での効果
実行時間が大幅短縮→何度も試行可能に
• 4時間→20分
2 2 12 3 2
0 5 10 15 20 25
バッチ処理時間
Clusterの起動 データの転送 原価計算
データの受信 Clusterの停止
Netflix様
2500万人以上のストリーミング会員
500億以上のイベント
Netflix様の課題
複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築
大量に発生するイベントデータの処理
複数の分析方法でどれが良いかをもっと安価に試したい
Netflix様の課題
複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築
大量に発生するイベントデータの処理
複数の分析方法でどれが良いかをもっと安価に試したい
Netflix Web Services (Honu) S3
Netflix様でのデータ収集
1日に8TBのイベントデータを収集
Data Center
S3
Netflix Data Center
オンプレミスデータセンターからのレガシーデータもS3
へアップロード
レガシーデータ
DWH RDBMS
NoSQLデータベース上の 顧客データもS3へエクス
ポート
DWH RDBMS
S3
事実:Netflixでは1PB以上のデータを Amazon S3に保存しています
Netflix様の課題
複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築
大量に発生するイベントデータの処理
複数の分析方法でどれが良いかをもっと安価に試したい
EMR
Prod Cluster (EMR)S3
EMRを活用して、 データはすべてS3から提供
HDFS
Netflix様でのデータ解析
EMRクラスタ
EMR
Prod Cluster (EMR)S3
結果はS3へ書き戻す
HDFS
Netflix様でのデータ解析
EMRクラスタ
S3
EMR
Prod Cluster (EMR)
リコメンデーション
アドホック 分析
パーソナライゼーション
Netflix様でのデータ解析
EMRクラスタ
EMRで生成したデータは 様々な用途で利用
EMRクラスタのリサイズ
Netflixでは土日の夜がピーク
• EMRはクラスタのサイズが変更可能
• ジョブの再起動なしに、ピークに合わせて300から400ノード以上に変更
Job Flow
平日夜
土日夜
平日
Job Flow
Job Flow
Netflix様の課題
複数の箇所で発生するフォーマットのデータを受けきるデータハブの構築
大量に発生するイベントデータの処理
複数の分析方法でどれが良いかをもっと安価に試したい
S3EMR
EMR
Prod Cluster (EMR)
Query Cluster (EMR)
Netflix本番クラスタ構成
本番クラスタ
アドホック 分析用
EMR
S 3 EMR
EMR
Prod Cluster ( EMR )
Query Cluster ( EMR )
各分析毎にクラスタを構築できる
本番クラスタ
各分析毎にクラスタを柔軟に構築
EMR
EMR
Yelp様の事例
検索ワードの 自動補完
リコメン デーション
スペルミスの 自動修正
どこでAWSクラウドが動いているか?
月間のユーザ毎の履歴 一般的な間違いの データ
必要なデータ
Westen
Wistin
Westan
Whestin
スペルミスの自動修正
月間のユーザ検索データ
検索用語
ミススペルデータ
クリックデータ
YelpのWebサイトログは全てS3で保管
Amazon S3
Elastic MapReduceで200ノードのHadoopクラスターを起動
Hadoop Cluster
Amazon EMR
Amazon S3
200ノードのクラスタ同時に 一般的なスペルミスを検索する
検索・解析は数時間で処理される
Hadoop Cluster
Amazon EMR
Amazon S3
Westen
Wistin
Westan
検索した一般的なスペルミスは再度S3上でデータ保存し、アプリケーションから利用する
検索・解析は数時間で処理される
Hadoop Cluster
Amazon EMR
Amazon S3
Westen
Wistin
Westan
EMRクラスターは処理完了後シャットダウン Yelpは利用した分のみの支払い
Hadoop Cluster
Amazon EMR
Amazon S3
での効果
Yelpのエンジニアで、ビッグデータ処理は日常になった
• いつでも、好きな時に、制限なく利用可能
1日400GBのログはS3に保存
• 月間5000万PV、1800万レビューデータ
• データを捨てる必要もない
毎週平均250台のクラスターを利用
ビッグデータ アーキテクチャ
標準的なアーキテクチャ
Amazon EC2
ELB Web/APサーバ ワーカー
ログを蓄積 分析結果
Hadoopクラスタ
EMR
SQSや 他ミドルウェア
Amazon S3
データの収集
データの 保存
データの 分析
データの 共有
BIツールとの連携アーキテクチャ
EMR
Oracle RDS
外部の広告データなどを エクスポート
S3
VPN経由 Karmasphere Analyst BIツールでGUIで利用
アナリスト
エンジニア SQLでそのまま利用
高速バッチ処理
データ可視化 レポーティング
データ集約・変換
データ中心アーキテクチャ
S3
パーソナライゼーション
リコメンデーション
ビッグデータ処理部分は ・いつでも実施可能 ・いつでもリサイズ可能 ・いつでも複製可能 ・揮発・長期どちらも可能
データを中心にコンピュート処理は柔軟に状況に応じて、処理の仕方・
量を変動させる =クラウドがベストフィット
まとめ
ビジネス編まとめ
AWSクラウドxビッグデータ=革新
• 3つのV(Volume, Velocity, Variety)
• 4つのプロセス(収集、保存、分析、共有)
• AWSクラウドがベストフィット
•従量課金・低コスト・スケール
ビッグデータ処理自体も普及期へ • バズワードからの脱却
技術編まとめ 3つのV(Volume, Velocity, Variety) • Volume:S3のスケーラビリティ
• Velocity:EC2+AutoScaling
• Variety:S3、RDS、DynamoDB
4つのプロセス(収集、保存、分析、共有) • AWSでは4プロセスを全方位カバー
• S3、EC2、EMR、RDS等、柔軟に選択可能
ビッグデータ処理のアーキテクチャが、 確立しつつある
次のアクションは?
AWSの始め方 • http://aws.amazon.com/jp/aws-first-step/
AWSクラウドサービス活用 • http://aws.amazon.com/jp/aws-jp-introduction/
お問い合わせ • http://aws.amazon.com/jp/contact-us/aws-sales/
• [email protected] まで
ビッグデータビジネスでぜひAWSクラウドをご活用ください!
Meet the SAコーナーでお待ちしています
質問・疑問等ありましたらお気軽にどうぞ!
ご静聴ありがとう ございました!