21
1 © Cloudera, Inc. All rights reserved. Cloud Native Hadoop Tsuyoshi Miyake, Cloudera 2016/11/08

Cloud Native Hadoop #cwt2016

Embed Size (px)

Citation preview

Page 1: Cloud Native Hadoop #cwt2016

1©Cloudera,Inc.Allrightsreserved.

Cloud Native HadoopTsuyoshi Miyake, Cloudera2016/11/08

Page 2: Cloud Native Hadoop #cwt2016

2©Cloudera,Inc.Allrightsreserved.

⾃⼰紹介

•三宅 剛史(みやけ つよし)•Sr. Systems Engineer@Cloudera• Java 開発(製品・サービス)のキャリアがメイン•Cloudera では主にクラウド担当

@tsuyokb | [email protected] | github.com/tsuyo

Page 3: Cloud Native Hadoop #cwt2016

3©Cloudera,Inc.Allrightsreserved.

Cloud Native Hadoop とは?

Page 4: Cloud Native Hadoop #cwt2016

4©Cloudera,Inc.Allrightsreserved.

Lift and Shift Cloud-native

Cloudera Enterprise in the Cloudデプロイモデルの選択

Object Store

Page 5: Cloud Native Hadoop #cwt2016

5©Cloudera,Inc.Allrightsreserved.

Lift-and-shift ユースケース

Lift-and-shift cluster への要求• ⾼可⽤性とディザスタリカバリ• 運⽤管理(パッチ・アップグレード)• リソース管理• セキュリティ

ユースケース• HBase clusters• Kafka clusters• BI analytics*(transient もあり)• Large, multi-user clusters• ローリングアップグレード

Page 6: Cloud Native Hadoop #cwt2016

6©Cloudera,Inc.Allrightsreserved.

クラスタの短期利⽤、コスト削減

リソース競合を回避、ワークロードの最適化

Object Store

ストレージと計算の分離

ストレージ

計算

Cloud-native アプリケーションパターン

Page 7: Cloud Native Hadoop #cwt2016

7©Cloudera,Inc.Allrightsreserved.

Cloud-native ユースケースオブジェクトストレージと elastic computing の活⽤

Transient cluster への要求• オブジェクトストレージの統合• 迅速なクラスタープロビジョニング

ユースケース• ETL ワークフロー• モデル・トレーニング• Dev & Test ワークフロー

Page 8: Cloud Native Hadoop #cwt2016

8©Cloudera,Inc.Allrightsreserved.

ストレージオプション

Page 9: Cloud Native Hadoop #cwt2016

9©Cloudera,Inc.Allrightsreserved.

クラスターライフサイクル

HDFS[Lift & Shift]

S3[Cloud Native]

Persistent Transient

Multi-tenant

Cloud デプロイ・パターン

Single user Multi-tenant

ストレージオプション

クラスターライフサイクル

最もポピュラー

Page 10: Cloud Native Hadoop #cwt2016

10©Cloudera,Inc.Allrightsreserved.

• 安価• レプリケーション不要 (9s durability)• コンピュートとデータの分離• 複数クラスタでの共有

• ⾼レイテンシー・低スループット• API の制限(スロットリング)• Eventually Consistent

ストレージオプション – S3

Page 11: Cloud Native Hadoop #cwt2016

11©Cloudera,Inc.Allrightsreserved.

• Hive on S3• Spark on S3• Hive-on-Spark on S3• Impala on S3• S3A (s3a://) connector

ストレージオプション – S3 サポートサービス

Page 12: Cloud Native Hadoop #cwt2016

12©Cloudera,Inc.Allrightsreserved.

• HDFS support only(HBase, Navigator auditing & lineage)• I/O intensive なジョブ(Spark ML ジョブの反復的な繰り返しなど)• S3 をバックアップとして都度 HDFS にコピーする Hybrid 型• 中間データは HDFS に書き、最終結果を S3 に格納する Hybrid 型

ストレージオプション – HDFS & Hybrid (+S3)

S3

Run jobStart Cluster Stop Cluster

Copy to HDFSStart Cluster Run Job Copy to S3 Stop Cluster

HDFS

1 hour

Time

S3 Only

Hybrid

Page 13: Cloud Native Hadoop #cwt2016

13©Cloudera,Inc.Allrightsreserved.

Lambda Architecture with CDH in CloudData

Sources

Kafka/Flume

Spark Streaming

HBase orImpala/Kudu (beta)

Kafka

オブジェクトストレージ

Hive/Spark/HoS

Impala

Analytics

Batch Data Transformations

Batch Analytics

直接のクエリ

Real-TimeServing

アプリケーション

Page 14: Cloud Native Hadoop #cwt2016

14©Cloudera,Inc.Allrightsreserved.

Cloudera Director のご紹介

Page 15: Cloud Native Hadoop #cwt2016

15©Cloudera,Inc.Allrightsreserved.

Cloudera Director

At the core:• Cloudera EDH をクラウド環境で管理するためのアプリケーション• 幾つかのベストプラクティスを統⼀し、さらにカスタマイズをするための

フックを提供• クラスターのライフサイクルを管理• Cloudera Manager のコア機能の拡張

Main Goals:• Cloudera 製品をデプロイする際の time-to-value の削減• 新しい利⽤パターン(オンデマンドクラスター)

Page 16: Cloud Native Hadoop #cwt2016

16©Cloudera,Inc.Allrightsreserved.

Azure

アーキテクチャー with Java SPI (plugins)

Web UI

API console

SDKs

Director Server (Orchestration

Engine)API SPI CM-2CDH5

CDH5

AWS

GCP

Director Client.conf file

local statebootstrap

SPI

CM-1CDH5CDH5

bootstrap-remoteterminate-remote

import

Page 17: Cloud Native Hadoop #cwt2016

17©Cloudera,Inc.Allrightsreserved.

Cloudera Director ができること

• クラスターの作成・終了• インスタンスの追加・削除• AWS プラグイン• GCP プラグイン• Azure プラグイン• サービスの DB 作成• ヘルスチェックと利⽤情報(ダッ

シュボード)• bootstrap スクリプトの実⾏• クラスター作成後、終了前にカス

タムスクリプトを実⾏

• HA クラスターの作成• Kerberos クラスターの作成• H2(組み込みの DB)または

MySQL/MariaDB を Director DB に利⽤可能

• spot / preemptible インスタンスの利⽤可能

• マルチクラウド、マルチリージョンサポート

Page 18: Cloud Native Hadoop #cwt2016

18©Cloudera,Inc.Allrightsreserved.

パッケージング

cloudera-director-client• cloudera-director コマンドを提供• 設定ファイルを読み込みクラスターを作成、拡張、終了• 設定ファイルと同じディレクトリに状態をローカルに保存(H2 DB)• 設定ファイルをサーバーに送信することもできる

cloudera-director-server• service cloudera-director-server [start | stop | status]• 主にクラスタ管理のための API を提供• API console と Web UI (デフォルト 7189 ポート)を持つ• 状態管理に組み込み DB を使⽤(MySQL などの外部 DB も使⽤可能)

Page 19: Cloud Native Hadoop #cwt2016

19©Cloudera,Inc.Allrightsreserved.

Cloudera Director デモ

Page 20: Cloud Native Hadoop #cwt2016

20©Cloudera,Inc.Allrightsreserved.

Cloudera Director Client Bootstrap Demo

•For Mac: https://github.com/tsuyo/cloudera-boot•Check AWS console•docker run (~20min.)•Browse cluster.conf•Check CM http://<ip_address>:7180•Create a Hive external table to data on S3 (by Hue)•Check worker IP•Query the table (by beeline)

Page 21: Cloud Native Hadoop #cwt2016

21©Cloudera,Inc.Allrightsreserved.

Thank [email protected]