53
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所 日本オラクル株式会社 クラウド・テクノロジー事業統括 Cloud/Big Data/DISプロダクト本部 立山 重幸 ([email protected]) Hadoop Conference Japan 2016

Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

  • View
    3.042

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所

日本オラクル株式会社 クラウド・テクノロジー事業統括 Cloud/Big Data/DISプロダクト本部 立山 重幸 ([email protected])

Hadoop Conference Japan 2016

Page 2: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

•以下の事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。以下の事項は、マテリアルやコード、機能を提供することをコミットメント(確約)するものではないため、購買決定を行う際の判断材料になさらないで下さい。オラクル製品に関して記載されている機能の開発、リリースおよび時期については、弊社の裁量により決定されます。

2

OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。 文中の社名、商品名等は各社の商標または登録商標である場合があります。

Page 3: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

本日のお話

3

Hadoop エキスパート

Hadoopを導入する人

Hadoop入門した人

Hadoop知らない人

HDFSやMapReduceの概要は理解したが、実際のHadoop導入となると壁の高さを感じてしまう人のためのワダチ的な内容です。

Page 4: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoopの現在地と エンタープライズのお客様に提案する際の論点

4

Page 5: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

50万社 データベースユーザ

5

As of 2016

3000社 ビッグデータユーザ

出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/big-data-for-all-oracles-2016-predictions/index.html

Page 6: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 6

As of 2016

数万社 ビッグデータユーザ

出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/big-data-for-all-oracles-2016-predictions/index.html

RDBユーザが、ど真ん中でHadoopも利用

Page 7: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoopの現在地

• 2016年Big Data市場におけるHadoopの普及率は約22%

• キャズムを超えて、アーリーマジョリティへの導入が進んでいる

7

出典:Hortonworks Inc. Big Data & Hadoop Market

2.5% 13.5% 34% 34% 16%

イノベーター アーリー アダプター

アーリー マジョリティ

レイト マジョリティ

ラガード

キャズム

16%

22%

Page 8: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

2016/10/29 日本オラクル プレスリリース

セブン&アイ・ホールディングス様

8

• 「いつでも、どこでも、スムーズに、お客様が求める商品を購入でき、人に紹介したくなるサービス」をコンセプト に、国内1万9,000以上の店舗とインターネット販売を融合させるオムニチャネルの構築を推進

• 2016年11月1日グループ横断型の新通販サイト

「omni7(オムニセブン)」を開設

• ネットとリアルの融合と複数事業体のシームレスな連携を可能にするオムニチャネルを実現するため、IT基 盤を新たに構築

• ネットや実店舗から発生する膨大なデータを セキュアに蓄積、管理、分 析

• オラクルのエンジニアド・システムやクラウドなど最先端の技術を駆 使したオラクル製品の包括的な導入(Oracle Big Data Appliance含)

2016/10/29 日本オラクルプレスリリースより抜粋

Page 9: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

構造データ

9

MES

機器ログ

ERP

ソース 収集 蓄積

DWH

Data Visualization

Analytics Platform

分析 • これまでの取り組み

– ERPをグローバルシングルインスタンス化

• Oracle Applicationsを活用

• 業務プロセス標準化、ITコスト削減($7.7M)

– グローバルKPIシステム(DWH)を構築

• Exadata、Exalyticsを活用

• 世界中の各生産ラインの生産状況や歩留情報、 在庫情報、販売情報のKPIを可視化

• 影響分析等、効率的な工場管理が可能に

• 新たな課題 – 長期間データの蓄積、分析が不可

• 毎24時間毎にデータ収集が必要

– サマリデータのみが分析対象のため、 詳細かつ正確な分析ができない、工数増大

バッチデータフロー インテラクティブなデータフロー

お客様 事例① 製造業

機器データ活用により、詳細な生産状況の分析を実現

某グローバル製造業様

Page 10: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

非構造 データ

構造データ

10

MES

機器ログ

ERP

音声

ビデオ

テキスト

ソーシャル

ソース 収集 蓄積

DWH

データ 貯蔵庫

Data Visualization

Analytics Platform

分析 • 新たな取り組み

– 既存DWHの隣に、データ貯蔵庫を構築 • Oracle Big Data Applianceを活用 • MES、装置の詳細かつ長期間データを リアルタイムに取得

• 効果 – 生産工程における新たなデータ分析を実現

• 長期間でのデータ分析の実現 • 生産条件最適化のための分析 • 操業率低下の原因分析 • 複数のセル-モジュールをまたいだ原因分析 • 品質の可視化

– データ分析の効率化 • データ分析作業の期間短縮 • 対象データのカバレッジ(種類、量、期間)

バッチデータフロー インテラクティブなデータフロー

マスター、 サマリー、 詳細データ

サマリー 分析結果

アーカイブ

お客様 事例① 製造業

機器データ活用により、詳細な生産状況の分析を実現

某グローバル製造業様

Page 11: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 11

• メインフレーム・ダウンサイジング

– MIPS:30%削減

– バッチ処理時間:50%削減

• Exadata+Big Data Appliance(Hadoop 基盤)のハイブリッド構成

– 既存データマートの集約

– OPEX:約40% 削減

• データ配布モデルの近代化

– 「データありき」 vs 「スキーマ/モデルありき」

– 顧客360°ビューの実現

お客様 事例② 金融業 ITコスト削減と、情報の一元化によるビジネス変革実現

La Caixa様 メインフレーム テープ サブシステム・DWH バッチ処理 レポート

Data Reservoir (Hadoop)

ソーシャルデータ

顧客情報

決済情報

バッチ処理の削減による コスト削減 メインフレーム

およびテープ上の ストレステスト データの移行

レポート

顧客360°

DWH (RDBMS)

Page 12: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

弊社が提案するビッグデータの特徴

• ビッグデータ = RDB + Hadoop

⇒RDBと同等のSLAが求められる事が多い

12

提案構成例

Page 13: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

SLAを満たすためのHadoop基盤検討ポイント(非機能) •サーバ構成 –従来通りのベストプラクティスで良いのか?

•バックアップ –どこにどうやって取るべきか?

• セキュリティ –認証、暗号化

•パフォーマンス –ロード

13

Page 14: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

サーバ構成

14

Page 15: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoopを提案する側の考え方 ⇔ RDBお客様の要望

①サーバ構成の考え方

15

Hadoopベストプラクティス 提案時におけるお客様からの指摘

安いIAサーバを、たくさん積んでください PXEやPuppetを組み合わせれば運用も楽です

会社の方針でサーバ統合している中で数百台のサーバ導入は説明がつかない 故障率1%として、300台クラスタの場合、ほとんど毎日故障が発生する事になるため許容されない

初期サイジングより増えた場合にデータセンターに場所がなくなってしまう

“マジな”Hadoop導入の勘所①

パフォーマンスと運用を鑑みた、ある程度の集約を意識した分散構成を組む 例)10PBクラスタの場合 4TB HDD × 8本 ⇒ 313台(ラック18台分) 8TB HDD × 12本 ⇒ 105台(ラック6台分)

Page 16: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoopを提案する側の考え方 ⇔ RDBお客様の要望

②ネットワークの考え方

16

Hadoopベストプラクティス 提案時におけるお客様からの指摘

DN内で処理をして、DN間はほとんどデータ転送が発生しないのでノード間は細い線でも大丈夫

バックアップデータをクラスタに復旧させる際にボトルネックになるのでは? DNが破損した時のリバランス処理は問題にならないか?

“マジな”Hadoop導入の勘所②

ノード間の結線は10GbE以上が望ましい 多少コスト高になったとしても、安定的な運用を求められる

Page 17: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoopを提案する側の考え方 ⇔ RDBお客様の要望

③番外編

17

Hadoopベストプラクティス 提案時におけるお客様からの指摘

Master とSlaveは、別構成にすべき 理屈はわかるが、本番、開発、テスト、DRそれぞれにMasterだけの役割のノードを持たせるのは無駄が多い

“マジな”Hadoop導入の勘所③

最近はNNとDNは同居する事も可能 メモリが128GB以上あればNNの管理領域が不足するケースは少ない

Page 18: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

バックアップ

18

Page 19: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoopを提案する側の考え方 ⇔ RDBお客様の要望

④バックアップ

19

Hadoopベストプラクティス 提案時におけるお客様からの指摘

ログ等非クリティカルなデータである(従来捨てていた)ため、バックアップは必須ではない

データは3重化されているため、メタデータだけバックアップしておけば十分

エンドユーザは裏がHadoopだろうがRDBだろうが気にしない ⇒弊社のポリシーに準拠して提案してください

“マジな”Hadoop導入の勘所④

HadoopのバックアップはHadoopで! バックアップのために、NASやTapeを提案するとHadoopのコストメリットが薄らいでしまう (StorageServerに仕事をさせるのが、Hadoopの売りなのに)

Page 20: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

クラスター分割はエンドユーザからのBigクエリ対策にも有効

20

•Hadoop to Hadoopであればコピー先を参照用として利用するなど、運用の幅が広がる (リソース制御やセキュリティ制御などにも有用) ソース Hadoop #1 バッチ利用 ターゲット Hadoop #2 バックアップ、データ参照

Hadoop Cluster #1

バッチ処理

Hadoop Cluster #2

データ参照 (Sandbox)

バックアップ

Page 21: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

基本的なバックアップ要件は、Hadoopだけでも対応可能

21

バックアップ要件例 Hadoopにおける対応

バックアップの断面が取得可能であること

Snapshot ・対象ディレクトリのブロックをReadOnlyで参照する仕組み ・複数バージョン取得可 ・バージョン間の比較も可

クラスタ停止時間以内にバックアップが完了すること DistCp ・複数mapperが並列で他Hadoopに並列コピーする ・差分更新も可能

Hiveメタ情報とHDFSの同期が取れていること 作り込み ⇒Cloudera BDR (Backup & Disaster Recovery)などで対応

リアルタイムに同期が取れていること

Hadoop to Hadoop かなり大変 ⇒ Wandiscoなどで対応 DB to Hadoop かなり大変 ⇒Oracle GoldenGateなどで対応

Page 22: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

使い方も簡単

22

①snapshot作成の許可

-bash-4.1$ hdfs dfsadmin -allowSnapshot /tmp/26860-tera-in Allowing snaphot on /tmp/26860-tera-in succeeded

100GBのデータ

②snapshotの作成

-bash-4.1$ hdfs dfs -createSnapshot /tmp/26860-tera-in Created snapshot /tmp/26860-tera-in/.snapshot/s20160125-174328.432

.snapshotディレクトリにReadOnlyとして作成される

③DistCPによる他クラスタへのレプリケーション

--bash-4.1$ hadoop distcp -atomic /tmp/26860-tera-in/.snapshot/s20160125-174328.4 32 webhdfs://benkei01/tmp/26860-tera-in/ ・・・ 16/01/27 15:38:34 INFO mapreduce.Job: map 0% reduce 0% 16/01/27 15:38:45 INFO mapreduce.Job: map 2% reduce 0% ・・・ 16/01/27 15:48:04 INFO mapreduce.Job: Job job_1452235540015_0003 completed successfully

Mapperが並列にコピー

Page 23: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

セキュリティ

23

Page 24: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

無防備なHadoopクラスタ (Security Level 0) 検証環境では、ありがちな構成

• Hadoopクライアント –認証なし

–どの端末からもアクセス可能

• Beeline , JDBCクライアント – HiveServer2になりすまし認証

24

Hadoop Cluster

HDFS

YARN

HIVE

管理画面

Hadoop Client

OSユーザ

JDBC

JDBCユーザ

ブラウザ

Page 25: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoopのセキュリティ機能概要

25

セキュアなHadoop環境を実現可能

分類 機能 対応ツール例

認証 ユーザーの認証 Apache Hadoopのベース機能(Kerberos認証)

認可 Hive, ImpalaでのRole単位での認可 Sentry

暗号化

通信路の暗号化 Apache Hadoopのベース機能

保存データの暗号化・マスキング HDFSの暗号化

監査 監査の取得・レポーティング 3rd Party Tool

Page 26: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoopの認証機能

• Hadoopの認証では以下の2つの設定がある

–認証なし: クライアント側のOSユーザーをHadoopユーザーとして認識

–Kerberos認証

“マジな”Hadoop導入の勘所⑤

Edgeサーバ+Kerberos認証の設定はHadoopのセキュリティ設定のスタート地点

•悪意のあるユーザーがクライアントにhdfs OSユーザーを作成し、hdfsユーザーでHDFSユーザーでHadoopにアクセスすると全データを操作できてしまう ⇒不特定多数の端末からアクセスさせない

Page 27: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Security Level 1:エッジサーバを介したアクセス

•不特定多数からHadoopクラスタにアクセスさせない

–利用者は、エッジサーバにログインした上で、Hadoopを操作する

27

Hadoop Cluster

HDFS

YARN

HIVE

管理画面

Edge Server

Hadoop Client

FireWall

Page 28: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Security Level 2:Kerberos認証

• Kerberos,LDAPによるユーザ認証

–利用者は、認証サーバに許可を取得した上で利用する

•余談 – SqoopでRDB連携する時は、

Oracle walletで鍵アクセス可能

28

Hadoop Cluster

HDFS

YARN

HIVE

管理画面

Edge Server

Hadoop Client

FireWall

KRB5 LDAP

認証

Page 29: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Security Level 3:認可、暗号化

• Hadoopそのものも守る – RBAC

• HDFSのアクセス権設定

• SentryによるHive表等のアクセス制御

–データ暗号化 • HDFS Data at Rest Encryption

–監査 • HDFS監査ログ

• Cloudera Navigator

• Oracle Audit Vault & Database Firewall

• etc

29

Hadoop Cluster

HDFS

YARN

HIVE

管理画面

Edge Server

Hadoop Client

FireWall

KRB5 LDAP

認証

Sentry

HDFS Encryption

Audit

Page 30: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

HDFS Encryptionのアーキテクチャ • HDFSクライアントが扱うファイルの暗号化・復号を担当

• Encryption Zoneごとに鍵が存在 Encryption Zone Key = EZK EZKは鍵管理を行うコンポーネントであるKMSが管理。 ただし、EZKを使って個々のファイルを暗号化するわけではない

• Encryption Zone 内のファイルごとに鍵をKMSが生成 Data Encryption Key = DEK

• ただしDEKをそのまま保管するのは危険なため、DEKをEZKで暗号化したencrypted DEK = EDEKをNameNodeにメタデータの一部として保持

• NameNodeの管理権限のある(OS上のファイルとしてEDEKを不正に取得することもできる)HDFS管理ユーザーにKMSに対する権限を与えないように設定をしておく(ブラックリスト)

30

Page 31: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

HDFS Encryptionのアーキテクチャ

• Keystore

– keystoreは、 Key Management Server (KMS)の鍵保管を行う

–通常はファイルベースのkeystore(Java KeyStore)

– Clouderaの場合Cloudera Navigator Key Trustee Server(PostgreSQL)

31

Page 32: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

HDFS暗号化は本当にOSから参照できなくなる? 1/3

32

①HDFSの暗号化ゾーンを作成

[oracle@server01 ~]# kinit [email protected] Password for [email protected]: [oracle@server01 ~]# hdfs dfs -mkdir /cipher [oracle@server01 ~]# hdfs dfs -mkdir /plain [oracle@server01 ~]# hadoop key create nokk [oracle@server01 ~]# hdfs crypto -createZone -keyName nokk -path /cipher Added encryption zone /cipher [oracle@server01 ~]# hdfs crypto -listZones /cipher nokk

Kerberos認証

暗号化ゾーン作成

[oracle@server01 ~]# echo テストデータ > /oracle/テスト [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /cipher/ [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /plain/

②テストデータをHDFSに保存

「テスト」というファイルを暗号化、非暗号化に配置

Page 33: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

HDFS暗号化は本当にOSから参照できなくなる? 2/3

33

③HDFSのブロック番号を検索

[oracle@server01 ~]# hdfs fsck /cipher/テスト -files -blocks Connecting to namenode via http://server02.exa.jp.oracle.com:50070 FSCK started by test (auth:KERBEROS_SSL) from /xxx.xxx.xx.xx for path /cipher/テスト at Thu Dec 10 11:34:06 JST 2016 /cipher/テスト 19 bytes, 1 block(s): OK 0. BP-529482047-192.168.21.81-1448469031064:blk_1073773664_32840 len=19 repl=3 以下略

暗号化ファイルのブロック

[oracle@server01 ~]# find /u[0-1][0-9] -name blk_1073773664 /u07/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/current/finalized/subdir0/subdir124/blk_1073773664

④ブロックの場所を検索

当該ブロックの絶対パス

/cipher/テスト blk_1073773664

/plain/テスト blk_1073773668

IPadress

IPadress

Page 34: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

HDFS暗号化は本当にOSから参照できなくなる? 3/3

34

⑤ファイルの中身の確認

[oracle@server01 ~]# cat /u07/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773664 ▒▒▒qqa>▒▒▒▒▒▒Λ`▒ [oracle@server01 ~]# cat /u03/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773668 テストデータ

暗号化ファイルされたファイル

IPadress

IPadress

暗号化されていないファイル

“マジな”Hadoop導入の勘所⑥

お客様のデータはHadoopでもしっかり守れます! •ディスク交換を頻繁に行うシステムだからこそ、しっかり暗号化が必要

Page 35: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

HDFS暗号化のパフォーマンス劣化が心配なんだけど。。。

35

出典: Intel® Xeon® Processor E5-2600 v3 Accelerates Hadoop HDFS Encryption http://www.intel.com/newsroom/kits/xeon/e7v3/pdfs/Xeon_E7v3_Cloudera-aes-ni.pdf

暗号化による劣化はReadで5% Writeはほぼなし ベンチマークterasortの結果は1%

“マジな”Hadoop導入の勘所⑦

HDFS暗号化のデメリットは少ない •処理能力が大幅に劣化するというのは都市伝説。

Page 36: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

パフォーマンス

36

Page 37: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoopに出し入れする処の話

37

ストアド プロシジャ

File -> Hadoop

MapReduce

Hadoop -> DB

ここの話

•MapReduceやSparkが早いのは当たり前(数台 VS 数百台) •ただし、ロードの部分を何とかしないと全体のスループットとして効果が薄い

Page 38: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

Hadoop連携技術はたくさんあるけど、何を選べば良い?

38

Stream loading Batch loading

Kafka Flume GoldenGate

HDFS Put Kite CLI distcp sqoop WebHDFS HttpFS

•エコシステムはたくさんあって便利ですが、セキュリティやリソース制御とか監視などを考えると、可能な限り万能選手を厳選して利用したい

Page 39: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

バッチロードツールの比較

Hadoop Client Httpfs WebHDFS

Edgeサーバへのインストール

必要 不要 不要

Hadoop側のGateWay有無

無 必要(SPoF) 無(動的)

使いやすさ ◎

コマンドライン ○

HTTP REST API ○

HTTP REST API

パフォーマンス 思っていたより遅い(1ファイル1スレッド処理)

39

Hadoop Cluster

HDFS nodes

Edge Server

Client

Page 40: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

hadoop fs -put test hdfs://scaj43bda02:8020/tmp/test31;

curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/test11?op=CREATE&user.name=root" -T test.txt;

ロードパフォーマンスの違いを比較してみた

40

コマンドは以下の通り: 1) HttpFS

2) WebHDFS

curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txt 3) Hadoop Client

ServerName

ServerName

curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txt ServerName

Page 41: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 41

DISK

CPU

HttpFS WebHDFS Hadoop client

•どれも同じような動き •HttpFS、WebHDFSはGatewayが動作しているノードだけ若干CPUを利用している

リソースを使い切れていない

DBのように並列ロードする仕組みを考えてみる

Page 42: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

• 前提として、分割されたファイルを用意する # ls /stage/files/|wc -l 50 • ファイルサイズは51GB # du -sh /stage/files 51G /stage/files • まずは普通にHDFSに書き込んで見る(シングルスレッド): # time hadoop fs –put /stage/files/*hdfs://scaj43bda03:8020/tmp/load_test3 real 3m36.966s • クライアントを複数起動して、同時にHDFSに書き込む # for i in `ls /stage/files/`; do time hadoop fs -put /stage/files/$i hdfs://scaj43bda03:8020/tmp/load_test3 2>&1 & done; real 1m13.156s

Hadoop Clientから並列ロードをやってみよう

3分半かかる

約3倍の速さに

42

Page 43: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 43

DISK

CPU

パラレル ロード

シングル ロード

•リソースは使い切れていないものの、シングルよりは大幅に改善

Page 44: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

1) パラレル WebHDFSロード for i in `ls /stage/files/`; do time curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i 2>&1 & done;

WebHDFS やHttpFSでも同様の効果があるか?

2) パラレルHttpFS ロード for i in `ls /stage/files/`; do time curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i; 2>&1 & done;

結果

•WebHDFSは、Hadoopクライアントと同等性能が測定された •しかし、HttpFSには、ほとんど効果なし(Gatewayだけがんばる)

44

Page 45: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

データロードに関する勘所

45

“マジな”Hadoop導入の勘所⑧

データロードは、複数ファイルあれば並列化して高速ロードできる ・クライアントインストール可能な場合は Hadoop Client(操作が楽) ・インストール不可な場合はWebHDFSを利用

“マジな”Hadoop導入の勘所⑨

Edgeサーバは必ず導入しましょう ・セキュリティ ・DNのローカルから実行すると、当該ノードにブロックが作成されるので偏りが起きる

Hadoop Cluster HDFS nodes

Edge Server

Client

Page 46: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

まとめ

46

Page 47: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

エンタープライズユーザにHadoopを導入するための勘所

• スケールアウトするのは便利だけど。。。 – > IAサーバは故障するから、大規模構成にしすぎずにある程度の高集約サーバ

• セキュリティやバックアップの運用が心配 – > 機能は充足してきており充分に対応可能

•パフォーマンス – >処理だけではなく、ロードの部分なども考慮して、より効果を高めよう

47

Page 48: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 48

“マジな”Hadoop導入の勘所⑩

RDBユーザのど真ん中を開拓する事で、Hadoopはもっと広がる! ・SPoFもなくなり、国内事例も増えてきており、Hadoopを静観する時期は過ぎた

Page 49: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |

ご清聴ありがとうございました

その他、Hadoop関連Oracle製品↓ www.slideshare.net/oracle4engineer/

oraclehadoop

49

Page 50: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50

ご質問・ご相談等ございましたら、終了後もお受けしております

0120-155-096 (平日9:00-12:00 / 13:00-18:00)

http://www.oracle.com/jp/direct/index.html

各種無償支援サービスもございます。

Oracle Direct 検索

Oracle Direct あなたにいちばん近いオラクル

Page 51: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 51

Page 52: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 52

Page 53: Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」