46
Cloudera ののののののののの ~ Hadoop の CDH Cloudera Manager ~ Cloudera のののの のののの 2012/02/19

Cloudera大阪セミナー 20130219

Embed Size (px)

DESCRIPTION

2013/02/19に開催された、大阪セミナーでの資料です。 Cloudera Managerを使用してCDHをインストールするデモ動画はこちら↓ https://vimeo.com/49643526/

Citation preview

Page 1: Cloudera大阪セミナー 20130219

Cloudera のビッグデータ技術~ Hadoop と CDH 、 Cloudera Manager ~

Cloudera 株式会社 小林大輔2012/02/19

Page 2: Cloudera大阪セミナー 20130219

2

アジェンダ

• Hadoop とは?• Cloudera が提供する Hadoop ディストリ

ビューション• Hadoop の運用について• 運用管理ツールのご紹介

Page 3: Cloudera大阪セミナー 20130219

3

自己紹介

• 小林大輔• カスタマーオペレーションズエンジニアと

してテクニカルサポート業務を担当

[email protected]

( 小中高を神戸の田舎の方で過ごしました )( いまは両親とも東京に移住済み )

Page 4: Cloudera大阪セミナー 20130219

4

Hadoopとは?

Page 5: Cloudera大阪セミナー 20130219

5

データ処理の課題

• ストレージ• データをどこにどう貯めておくか

• 処理• データをどこでどう計算するか

Page 6: Cloudera大阪セミナー 20130219

6

ストレージの容量

1997 2004 20120

500

1000

1500

2000

2500

3000

3500

2.1

200

3000

HDD単体容量 (GB)

Page 7: Cloudera大阪セミナー 20130219

7

ストレージの価格

1997 2004 2012$0

$20

$40

$60

$80

$100

$120

$140

$160

$180

$157.00

$1.05 $0.05

GBあたりのコスト

Page 8: Cloudera大阪セミナー 20130219

8

ディスクの性能

1997 2004 20120.0

50.0

100.0

150.0

200.0

250.0

16.6

56.5

210.0

転送レート (MB/s)

Page 9: Cloudera大阪セミナー 20130219

9

ディスク読み込み時間

• ディスク全体の読み込み時間はむしろ増えている状況といえる

年 容量 時間

1994 年 2.1GB 126 秒

2004 年 200GB 59 分

2012 年 3000GB 3 時間 58 分

Page 10: Cloudera大阪セミナー 20130219

10

ディスク読み込み時間

• ディスク全体の読み込み時間はむしろ増えている状況といえる

年 容量 時間

1994 年 2.1GB 126 秒

2004 年 200GB 59 分

2012 年 3000GB 3 時間 58 分

Page 11: Cloudera大阪セミナー 20130219

11

つまり、、、

• ディスク容量は増え、価格も下がった• しかし、データを読み書きする速度 (I/O)

はそれほど改善されていない

データアクセスがボトルネックになる

Page 12: Cloudera大阪セミナー 20130219

12

• 一般的に計算処理は CPU に依存• ムーアの法則

「マイクロプロセッサの性能は 18 ヶ月で 2 倍になる」

• iPhone5 の CPU は、 1977 年に発表された富士通のスーパーコンピュータ、FACOM 230-75 の 20 倍

処理

Page 13: Cloudera大阪セミナー 20130219

13

• 一般的に計算処理は CPU に依存• ムーアの法則

「マイクロプロセッサの性能は 18 ヶ月で 2 倍になる」

• iPhone5 の CPU は、 1977 年に発表された富士通のスーパーコンピュータ、FACOM 230-75 の 20 倍

処理

Page 14: Cloudera大阪セミナー 20130219

14

大規模処理をしようと思ったら、、、

• 現代の大規模処理はマシン間で処理を分散する• 分散処理システムが必要

「開拓時代には重いものを引くのに雄牛が使われたものですが、一頭の雄牛が丸太を

引くことができなくても、もっと大きな雄牛を育てようとはしませんでした」

Grace Hopper: 初期の分散コンピューティングの研究者

Page 15: Cloudera大阪セミナー 20130219

15

分散処理の問題:データ処理のボトルネック

• 少量のデータでは問題ない• 計算サーバーが増えると悪化する

• ネットワーク間の通信による

Page 16: Cloudera大阪セミナー 20130219

16

分散処理の問題:複雑さ

• 可用性• 部分障害• 連鎖障害• データの一貫性• イベントの同期• 帯域の制限• …..• …..

Page 17: Cloudera大阪セミナー 20130219

17

分散処理の問題:複雑さ

• 可用性• 部分障害• 連鎖障害• データの一貫性• イベントの同期• 帯域の制限• …..• ….. そこで登場したのが Hadoop

Page 18: Cloudera大阪セミナー 20130219

18

Hadoop とは何か?

• コモディティハードウェアにより構成される

• スケールアウト型のアーキテクチャ• Hadoop は Google の論文を参考に開発

されている

Page 19: Cloudera大阪セミナー 20130219

20

Hadoop での解決:ディスクのパフォーマンス

• 複数のディスクを並列に使用する• 単一ディスクの転送レートが 210MB/s

• 3TB のデータ読み込みには約 4 時間• 1000 台並列であれば 210GB/s

• 3TB のデータ読み込みには 15 秒弱

Page 20: Cloudera大阪セミナー 20130219

22

Hadoop での解決:複雑さと耐障害性

• MapReduce プログラミングモデルにより処理を単純化

• 障害が不可避であるという前提で動作• 大規模なクラスタであれば、 1日あた

り 1 台の障害が起こりうる• MTBF(平均故障間隔 ) が 5 年、 2000 台と仮定• 365日 *5 年 =1825日 ( ほぼ 2000日 )

Page 21: Cloudera大阪セミナー 20130219

Hadoop とは ?

23

• コモディティハードウェアにより構成される

• スケールアウト型のアーキテクチャ• 耐障害性を備えている• オープンソースのソフトウェア

Page 22: Cloudera大阪セミナー 20130219

Hadoop のコアコンポーネント

24

HDFS

自己修復機能を持つ

分散ストレージ

MapReduce

分散コンピューティング・フレームワーク

Page 23: Cloudera大阪セミナー 20130219

HDFS

• Hadoop の分散ファイルシステム• 大量のデータを多数のノードに分散し

て保存する• 耐障害性が高く、シーケンシャルアク

セスに対するスループットが高い•低レイテンシのデータアクセスや小さ

いファイルへのアクセスは苦手

25

Page 24: Cloudera大阪セミナー 20130219

26

HDFS

自己修復機能を持つ高帯域なクラスタストレージ

1

2

3

4

5

2

4

5

HDFS

1

2

5

1

3

4

2

3

5

1

3

4

HDFSは受け取ったファイルをブロックに分割し、そのブロックをクラスタ全体にわたって重複して格納します

Page 25: Cloudera大阪セミナー 20130219

27

HDFS

1 つのサーバが壊れても自動複製

2

4

5

1

1

2

5

3

1

3

4

2

3

5

4

1

3

4

生きているノードに自動的に複製し、常に 3 つのレプリカがあるようにす

Page 26: Cloudera大阪セミナー 20130219

MapReduce

©2011 Cloudera, Inc. All Rights Reserved.

28

分散コンピューティングフレームワーク

1

2

3

4

5

2

4

5

MR

1

2

5

1

3

4

2

3

5

1

3

4

多数のノード間で大規模ジョブを並列処理し、処理結果を結合します

Page 27: Cloudera大阪セミナー 20130219

なぜMapReduce か?

• データを取得するのではなく、データのある場所にプログラムを送信して計算する

• データを HDFS に保存することで耐障害性の確保• ノード障害発生時にはそのノードの処理分だけ再実行

29

Page 28: Cloudera大阪セミナー 20130219

Hadoop の周辺コンポーネント

分散ファイルシステムAPACHE HDFS

大規模分散処理基盤APACHE MapReduce

分散データベースAPACHE HBase

高級言語とライブラリAPACHE Hive, APACHE Pig, APACHE Mahout

ワークフローとスケジューリングAPACHE Oozie

クラウドでの分散処理ライブラリAPACHE Whirr

分散協調サービスAPACHE ZooKeeper

Hadoopと RDBMSとの連携APACHE Sqoop

分散ログストリーミング処理APACHE Flume

30

Page 29: Cloudera大阪セミナー 20130219

Hadoop の周辺コンポーネント

分散ファイルシステムAPACHE HDFS

大規模分散処理基盤APACHE MapReduce

分散データベースAPACHE HBase

高級言語とライブラリAPACHE Hive, APACHE Pig, APACHE Mahout

ワークフローとスケジューリングAPACHE Oozie

クラウドでの分散処理ライブラリAPACHE Whirr

分散協調サービスAPACHE ZooKeeper

Hadoopと RDBMSとの連携APACHE Sqoop

分散ログストリーミング処理APACHE Flume

• Hadoop を使ってみたい• コンポーネント毎にソースをダウンロードしてきてビルドする• 各サーバーにデプロイする• どのバージョンにどの修正が含まれているのか把握するのは困難

• 互換性の問題

31

Page 30: Cloudera大阪セミナー 20130219

Cloudera が提供する Hadoop ディストリビューション

• CDH(Cloudera’s Distribution including Apache Hadoop)

• 主要コンセプトは 4 つ• 大規模データの蓄積• 並列処理• データインテグレーション• 言語とインタフェース

• CDH では、これらのコンセプトを実現するための様々なコンポーネントを用意

32

Page 31: Cloudera大阪セミナー 20130219

なぜ CDH なのか ?

• CDH には大量のパッチが当てられています• 性能改善・バグ修正パッチ• 互換性を維持できる範囲での機能追加

• CDH はパッケージで管理できます• yum コマンドで簡単にインストール / アップデート可能

• コミュニティ版を使うとコンポーネントごとにダウンロード、コンパイル、デプロイを行う必要がある

CDHはエンタープライズ向けのHadoopディストリビューションです

33

Page 32: Cloudera大阪セミナー 20130219

34

CDH3Q2 2011

2009 2010 2011 20122012/06

2012/09

CDH2Q1 2010

CDH1Q3 2009

高可用性ネームノード (NFS)複数のデータ処理フレームワーク(MR1 と

MR2)etc…

CDH42012/06

CDH 開発の歴史

高可用性ネームノード ( クォーラムベースストレージ )Hue の Oozie ワークフロー GUI と日本語化統計分析用 Pig ライブラリ DataFuetc…

CDH4.12012/09

Page 33: Cloudera大阪セミナー 20130219

35

Hadoopの運用について

Page 34: Cloudera大阪セミナー 20130219

36

Hadoop の運用

• 必要になる作業• クラスタの管理と監視• 設定• 設定パラメータ• メンテナンス• パフォーマンス監視• アクセス管理

Page 35: Cloudera大阪セミナー 20130219

37

Hadoop の運用

• Hadoop は複雑なシステム• 非常に多くの要素がある• ネットワークやストレージなど、考慮することが多い

•設定項目も膨大• サポートで問い合わせをうける問題も、設定ミスによるものであるケースが多い

Page 36: Cloudera大阪セミナー 20130219

38

Hadoop の運用

• Apache Hadoop は複雑なシステム• 非常に多くの要素がある• ネットワークやストレージなど、考慮することが多い

•設定項目も膨大• サポートで問い合わせをうける問題も、設定ミスによるものであるケースが多い

• Hadoop の運用は難しく、大変• Cloudera が提供する運用管理ソフトが

これらの問題 /不安を解消します= Cloudera Manager

Page 37: Cloudera大阪セミナー 20130219

39

Cloudera Manager とは

• エンタープライズ規模の Hadoopユーザーの必要に応じて設計されたアプリケーション

• Hadoop をノードにインストール• クラスタにホストの追加/削除、サービスを設定• クラスタの動作を監視• クラスタの使用量のレポートを生成• クラスタにアクセスするユーザーを管理

日本語に対応!

Page 38: Cloudera大阪セミナー 20130219

ダッシュボード

40

Page 39: Cloudera大阪セミナー 20130219

パフォーマンスと使用量のレポート

41

Page 40: Cloudera大阪セミナー 20130219

42

CDH をインストールする

• Cloudera Manager を使用します• Web アプリケーションなので、操作は

すべてブラウザから行います• GUI は日本語化対応済みです

Page 41: Cloudera大阪セミナー 20130219

43

デモ動画https://vimeo.com/49643526

Page 42: Cloudera大阪セミナー 20130219

44

Cloudera Manager の種類

• Free Edition• 無償でダウンロード可能• インストールと基本的な設定を容易にする

• Enterprise Edition• エンタープライズ/商用向けの機能を含んで

いる• Free Edition から容易にアップデート可能

Page 43: Cloudera大阪セミナー 20130219

45

Free Edition の制限

• Free Edition では 50ノードまでサポート• Enterprise Edition は制限なし

• Free Edition にはエンタープライズ用の機能が含まれない

• サービス監視• LDAP/Kerberos統合• イベント管理とアラート• アクティビティモニタ• レポート機能• サポートシステムとの統合

Page 44: Cloudera大阪セミナー 20130219

46

ダウンロードして試してみてください

• https://ccp.cloudera.com/display/support/downloads

•弊社 Web サイトのトップページから、

「 RESOURCES 」-> 「 Download Cloudera Manager 」と辿ってください

Page 45: Cloudera大阪セミナー 20130219

47

今日話したこと

• Hadoop とは?• Cloudera が提供する Hadoop ディストリ

ビューション• Hadoop の運用について• Cloudera Manager のご紹介

Page 46: Cloudera大阪セミナー 20130219

48