Upload
cloudera-japan
View
2.744
Download
0
Embed Size (px)
Citation preview
1©Cloudera,Inc.Allrightsreserved.
Cloud Native HadoopTsuyoshi Miyake, Cloudera2016/11/08
2©Cloudera,Inc.Allrightsreserved.
⾃⼰紹介
•三宅 剛史(みやけ つよし)•Sr. Systems Engineer@Cloudera• Java 開発(製品・サービス)のキャリアがメイン•Cloudera では主にクラウド担当
@tsuyokb | [email protected] | github.com/tsuyo
3©Cloudera,Inc.Allrightsreserved.
Cloud Native Hadoop とは?
4©Cloudera,Inc.Allrightsreserved.
Lift and Shift Cloud-native
Cloudera Enterprise in the Cloudデプロイモデルの選択
Object Store
5©Cloudera,Inc.Allrightsreserved.
Lift-and-shift ユースケース
Lift-and-shift cluster への要求• ⾼可⽤性とディザスタリカバリ• 運⽤管理(パッチ・アップグレード)• リソース管理• セキュリティ
ユースケース• HBase clusters• Kafka clusters• BI analytics*(transient もあり)• Large, multi-user clusters• ローリングアップグレード
6©Cloudera,Inc.Allrightsreserved.
クラスタの短期利⽤、コスト削減
リソース競合を回避、ワークロードの最適化
Object Store
ストレージと計算の分離
ストレージ
計算
Cloud-native アプリケーションパターン
7©Cloudera,Inc.Allrightsreserved.
Cloud-native ユースケースオブジェクトストレージと elastic computing の活⽤
Transient cluster への要求• オブジェクトストレージの統合• 迅速なクラスタープロビジョニング
ユースケース• ETL ワークフロー• モデル・トレーニング• Dev & Test ワークフロー
8©Cloudera,Inc.Allrightsreserved.
ストレージオプション
9©Cloudera,Inc.Allrightsreserved.
クラスターライフサイクル
HDFS[Lift & Shift]
S3[Cloud Native]
Persistent Transient
Multi-tenant
Cloud デプロイ・パターン
Single user Multi-tenant
ストレージオプション
クラスターライフサイクル
最もポピュラー
10©Cloudera,Inc.Allrightsreserved.
• 安価• レプリケーション不要 (9s durability)• コンピュートとデータの分離• 複数クラスタでの共有
• ⾼レイテンシー・低スループット• API の制限(スロットリング)• Eventually Consistent
ストレージオプション – S3
11©Cloudera,Inc.Allrightsreserved.
• Hive on S3• Spark on S3• Hive-on-Spark on S3• Impala on S3• S3A (s3a://) connector
ストレージオプション – S3 サポートサービス
12©Cloudera,Inc.Allrightsreserved.
• HDFS support only(HBase, Navigator auditing & lineage)• I/O intensive なジョブ(Spark ML ジョブの反復的な繰り返しなど)• S3 をバックアップとして都度 HDFS にコピーする Hybrid 型• 中間データは HDFS に書き、最終結果を S3 に格納する Hybrid 型
ストレージオプション – HDFS & Hybrid (+S3)
S3
Run jobStart Cluster Stop Cluster
Copy to HDFSStart Cluster Run Job Copy to S3 Stop Cluster
HDFS
1 hour
Time
S3 Only
Hybrid
13©Cloudera,Inc.Allrightsreserved.
Lambda Architecture with CDH in CloudData
Sources
Kafka/Flume
Spark Streaming
HBase orImpala/Kudu (beta)
Kafka
オブジェクトストレージ
Hive/Spark/HoS
Impala
Analytics
Batch Data Transformations
Batch Analytics
直接のクエリ
Real-TimeServing
アプリケーション
14©Cloudera,Inc.Allrightsreserved.
Cloudera Director のご紹介
15©Cloudera,Inc.Allrightsreserved.
Cloudera Director
At the core:• Cloudera EDH をクラウド環境で管理するためのアプリケーション• 幾つかのベストプラクティスを統⼀し、さらにカスタマイズをするための
フックを提供• クラスターのライフサイクルを管理• Cloudera Manager のコア機能の拡張
Main Goals:• Cloudera 製品をデプロイする際の time-to-value の削減• 新しい利⽤パターン(オンデマンドクラスター)
16©Cloudera,Inc.Allrightsreserved.
Azure
アーキテクチャー with Java SPI (plugins)
Web UI
API console
SDKs
Director Server (Orchestration
Engine)API SPI CM-2CDH5
CDH5
AWS
GCP
Director Client.conf file
local statebootstrap
SPI
CM-1CDH5CDH5
bootstrap-remoteterminate-remote
import
17©Cloudera,Inc.Allrightsreserved.
Cloudera Director ができること
• クラスターの作成・終了• インスタンスの追加・削除• AWS プラグイン• GCP プラグイン• Azure プラグイン• サービスの DB 作成• ヘルスチェックと利⽤情報(ダッ
シュボード)• bootstrap スクリプトの実⾏• クラスター作成後、終了前にカス
タムスクリプトを実⾏
• HA クラスターの作成• Kerberos クラスターの作成• H2(組み込みの DB)または
MySQL/MariaDB を Director DB に利⽤可能
• spot / preemptible インスタンスの利⽤可能
• マルチクラウド、マルチリージョンサポート
18©Cloudera,Inc.Allrightsreserved.
パッケージング
cloudera-director-client• cloudera-director コマンドを提供• 設定ファイルを読み込みクラスターを作成、拡張、終了• 設定ファイルと同じディレクトリに状態をローカルに保存(H2 DB)• 設定ファイルをサーバーに送信することもできる
cloudera-director-server• service cloudera-director-server [start | stop | status]• 主にクラスタ管理のための API を提供• API console と Web UI (デフォルト 7189 ポート)を持つ• 状態管理に組み込み DB を使⽤(MySQL などの外部 DB も使⽤可能)
19©Cloudera,Inc.Allrightsreserved.
Cloudera Director デモ
20©Cloudera,Inc.Allrightsreserved.
Cloudera Director Client Bootstrap Demo
•For Mac: https://github.com/tsuyo/cloudera-boot•Check AWS console•docker run (~20min.)•Browse cluster.conf•Check CM http://<ip_address>:7180•Create a Hive external table to data on S3 (by Hue)•Check worker IP•Query the table (by beeline)
21©Cloudera,Inc.Allrightsreserved.
Thank [email protected]