23
Hadoop運用経験から解き明かす ディストリビューションの選択と コスト最適化 © 2016 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use 1 Executive Evangelist Kazuhiro Hirano 11 Mar 2016

Hadoop運用経験から解き明かす ディストリビュー …Cloudera Footprint ノードコスト ノード数 24x7 EDH $12,034 node/Year 216 8x5 EDH $11,407 node/Year 187

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Hadoop運用経験から解き明かすディストリビューションの選択と コスト最適化

© 2016 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use 1

Executive Evangelist Kazuhiro Hirano 11 Mar 2016

Agenda

1)NetApp

2)NetApp on NetApp ASUP Cloudera

NFS-Hadoop connector

Neuro

Anomaly Detection

3)ETLオフロードによる最適化

4)Analytics 3.0 なぜMapR

5)Virdata

6)まとめ

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 2

© 2015 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use 3

激変する環境の中でお客様を 正しい方向に導く唯一のベンダー

将来を見据えた独自のビジョン

総合的なプランと徹底的な実行

お客様の成功を支援する トラステッド アドバイザー

ネットアップ データファブリック エコシステム

4

E-シリーズ

StorageGRID ウェブスケール

FlexArray and FLI

OnCommand管理スイート

FASシリーズ

FlexPod 他社製ストレージ EMC, Hitachi, Others

AltaVault NetApp Private Storage

© 2016 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use

ハイブリッドストレージ オールフラッシュストレージ ソフトウェアデファインド/クラウドストレージ 凡例

EF シリーズ

AFF シリーズ

ソリッドファイアー

Element X

ONTAP VSA

IT予算投資の変化

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 5

Invest

Reduce Cost

Enterprise Storageで実現するデータマネージメントコスト最適化

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 6

エンタープライズストレージによるインテグレーション による厳しいSLA要求への対応

E5660導入によるRack Awarenessとデータローカリティ基準と性能要件を満たす構成によるレプリカ数2及び1での ディストリビューション コスト削減とインフラの最適化

ETL処理は遅くボトルネック原因になる

EDWプラットフォーム強化は高額な投資コストが付属

Hybrid ETL Pipeline

Extract(抽出)Transform(変換)Loading(格納) の略でデータウェアハウスが必要とするデータを様々な データソースから抽出し、適切な形式に変換し、 必要に応じ参照整合性(参照される側と参照する側の テーブルの同期が取れていること)をチェックし、 データ品質を保証してから格納するという役割を持つ

Source: Garrett, Brian and Lockner, Julie, “NetApp Open Solution for Hadoop”, ESG Report, May 2012, http://bit.ly/LyYG0

Enterprise Storage - DAS ディスクエラー運用比較

HadoopによるASUPチャレンジ

頻繁にロードの性能要求を処理するために 容易に拡張できる

ロードに対し直線的にスケールアウト でき低コストのソリューションを 必要とします

全体的なソリューションとして データアクセスは低レイテンシで ある必要があります

データはほとんど常に非構造化で アドホックアクセスする必要が あります

次世代ASUPはこれらのニーズに対応するためのプログラムです

明らかに「ビッグデータ」としての問題!

マシンデータの可視化は迅速に障害を解決する手段

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 7

Gateways ETL Data Warehouse Reporting

• 毎週1,000,000のASUPが生成され40%は週末に摂取

• 到達するASUPの10%は消失する 予測

• データは迅速に抽出し 変換され15分でロード される必要がある (しばしばSLAを達成出来ない)

•わずか5%の非構造化データがデータ ウェアハウスに入りそれは月に6-8TBの成長を継続します

•Oracle DBMSの規模拡張やメンテナンス及びバックアップが困難

•非構造化コンテンツに簡単にアクセス する方法は無い

• 経営層からも複数のマイニング 要求は満たされていません

• リードジェネレーションと サポート性及びBIの貴重な情報の莫大な潜在的可能性

HDFSに1.28 PB (2015年9月現在)

NFSに1PB

毎月のASUPは13,821,076 (June 2015)

成長率 : 今後3年間で月ごとのASUP数の5倍

NFS - 32TB/月 (4% increase per month)

HDFS – 23 TB/月

720TB Hadoopによる効率化比較

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 8

Normal Config 100 Nodes

9 Rack

PRD 11 Building Block

44 Nodes 4 Rack

DEV, QA、sandbox 9 Building Block

72 Nodes 5 Rack

ASUP – NEXT Footprint Cloudera Hadoopクラスター

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 9

Cloudera Footprint ノードコスト ノード数

24x7 EDH $12,034 node/Year 216

8x5 EDH $11,407 node/Year 187

データ移動と複製はチャレンジングで膨大な時間が必要です

NFSとHDFS間でのデータ複製は2PB以上重複しており 既存アプリケーションは目的に応じそれらにアクセスします

クラスタが過負荷や飽和するとデータアクセシビリティが問題 となり本番・レポーティング・Hbaseと複数クラスへの分離 が必要となりました

既存プラットフォームのライトスループット負荷が異常に高く 満足な性能が得られません

セルフサービス・ツールDataMeerは常に多くのストレージ・ フットプリントを必要とします

既存ETLツーツはHDFSの優位性を生かせず直接アクセス できません

現在の実装は2ソフトウェアリリースバージョン遅れでASUPはNetAppのデータリザーバのための適確なベースラインでは無く 更にソリューションが設計された背景において 性能・拡張性・信頼性に懸念があります

Hadoop Infrastructure – NetApp Approach NetApp on NetApp

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 10

Primary Storage

(NFS/SAN)

Hadoop Compute Blades Hadoop

Compute Blades

Data Lake QA

Hadoop Compute Blades

NPS NetApp Private Storage Cloud

NFS-Hadoop connector

SnapMirror

NFS-Hadoop connector

HDFSに1.28 PB (2015年9月現在)

NFSに1PB

IoT – NetApp Neuro

顧客トラブルシューティングのための効率的なプラットフォームを構築

ログから構造を生成しその構造を可視化 - Neuro

cDOTのためのビジョンであるマシンデータ可視化アプローチは迅速に障害を解決する手段

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 11

What-if analysisにより設定パラメータが変更されます パフォーマンスカウンタのプロアクティブな監視

ETLオフロードパイロットユースケース Current State: Integrated ASUP analytics on EDW

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 12

CSV Extract

ASUP +

Clo

ud

era

STG WRK EDW

ルックアップ 実際の更新量計算

変換 一時テーブルへのロード

Load

DS

S

(Ora

cle

DB

)

長いレイテンシ:ユーザーがレポートを活用できるのはデータの受領から6日後 毎週190GB以上の容量追加がSTG, WRK, EDWに発生 レポート生成のための応答時間は1-15分 新しいサブジェクトエリア及びデータを収容するのに十分な空きがありません 250に及ぶ多重ジョブ(STG, WRK, EDW)同時実行が原因で厳しいSLAプレッシャー 処理(ETL)とデータ(データベース)は2つの異なる場所に存在しデータ移動が多大 垂直スケーリングは成長するビジネス要求及び時間通りのデータリフレッシュに対応するための唯一の選択肢

OBIEE

Sun Tue Fri

• 導入ベース • サーブス契約 • オートサポート

• 性能に関する顧客との積極的な関与 – NetAppのコストを削減し 顧客満足度を向上

• 追加サービスを販売する機会 – NetAppリベニュー

Sat

Oracle Business Intelligence Enterprise Edition あらゆる分析やレポート作成機能を提供する 包括的なエンタープライズBIスイート製品

ETLオフロードパイロットユースケース Target State:統合ASUP分析とデータディスカバリー

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 13

レイテンシの削減:IT処理により6日から1日に データボリューム低減 : STGとWORKから毎週190ギガバイト削除した結果として業務を軽減 アーキテクチャシンプリフィケーション : この利用ケースではDSS, STG及びWRKを除去 既存250の多重ジョブを統合する機会 データは探索のためデータリザーバー(貯蔵池)で利用可能 レポート作成のための1-15分の応答時間はそのまま(今後のDWアプライアンスでの機会)

OBIEE

• 性能に関する顧客との積極的な関与 – NetAppのコストを削減し 顧客満足度を向上

• 追加サービスを販売する機会 – NetAppリベニュー

Oracle Business Intelligence Enterprise Edition あらゆる分析やレポート作成機能を提供する 包括的なエンタープライズBIスイート製品

ASUP

Clo

ud

era

+

Data Reservoir

CSV

Extract

• 導入ベース • サーブス契約 • オートサポート

EDW

Sun Mon Mon Tue

効率向上とインクリメンタル機能

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 14

1. 迅速性向上: リアルタイムに近いデータ獲得と統合 2. 柔軟性向上: 追加データ根源としてソースと変換データによりデータ探索 3. 効率性・柔軟性向上:運用上のニーズに対応した専用データストア 4. 効率性向上 : EDWのデータはHadoopにアーカイブ

Oracle DB Hadoop Distribution + DataStage + TBD

S

O

U

R

C

E

S

R

E

P

L

I

C

A

Batch Layer

1:1 Data Extract Transformation Relationships

Speed Layer

S

T

R

E

A

M

ODS

Data Exploration

Data Marts

EDW

1

2

3

4

2

ETLオフロードパイロットユースケース これまでのアーキテクチャーから次世代へ

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 15

Replica

ASUP

IB (SAP, ERP & EIM)

SC (SAP)

Hadoop Cluster

EDW

EDW Master Data

ASUP Hadoop Cluster

ASUP DW Auto support Data as of Sunday

Sunday Tuesday Wednesday

Replica

ASUP

IB (SAP, ERP & EIM)

SC (SAP)

STG

EDW Master Data

ASUP Hadoop Cluster

ASUP DW Auto support Data as of Sunday

Sunday Tuesday Saturday

EDW

1

Monday Tuesday 2

現在のEDW実装

Hadoopによる実装

リアルタイムに近いデータで 市場投入までの時間短縮 (6日のレイテンシを2日に短縮) シナリオ2が望ましいが

( レイテンシ短縮と追加のシンプリフィケーション) ASUP利害関係者の説得が必要

ASUP DWへの依存性を低減しアーキテクチャを簡素化

Hadoopクラスターをデータ 露見のために活用出来る

俊敏性を向上させソースシステムへの影響を最小にデータ配給を 加速

セルフサービスを有効にする – アドホックレポート機能を追加

EDW SLAを満たす能力の向上とEDWの能力を他の要件に解放

仕事のロジックを最適化する機会

Data Discovery

土曜日以前にEDWへのSTGを 実行するウィンドウは無い

迅速な洞察力のために全てのドットを接続し全てのデータを統合 Analytics 3.0 Pilot : 顧客360°ビュー

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 16

Product Health

Service Quality

Shipments

Install Base

Contracts Support Cases

Leads

Orders

Opportunities

Bookings

Quotes Revenue

Contacts

CSAT

Location

Sentiment

Demographic

Field Notes

Market Share

Wallet

Reviews

News Clickstream

Explore

Discover

Report

Visualize

Analyze

Customer

顧客とパートナーに完全かつ包括的な 洞察を提供:

完全なデータ…

• どんなソースからも任意のタイプの任意の データを摂取しビジネスニーズに基づいて統合

…すべてのビジネス上の質問に解答します…

• 対象領域への分断データの結合がより良い 洞察を実現

• エンドユーザーのためのより充実した多くの セルフサービス機能

• 現在のデータへのリアルタイムに近い より高速なアクセス

… 柔軟性はビジネスの変化に迅速に 適応します …

• 直ちに新しいデータを統合

• 探索し新たな洞察を発見

… 低い総所有コストで(TCO)

“Customer 360”

Backlog

Anode System

NetApp Storage Anode System NetApp Anomaly Detection System

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 17

階層に配置

システムあたり30,000 ~ 50,000

定期的に収集 (hour/ minute)

Anode data centerへ配給 (weekly / daily)

ストレージシステム内部で収集された メトリックはフィールドのデータセンターに配備

計測データをAnodeデータセンターに集約

バッチモードで分析

結果は管理者及びサポート担当者が利用できるように

NetApp Anode Approach 実際の障害からの兆候をプロットしデータベース化

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 18

専門家の生産性と効率性の向上

的確なリプレース

メトリックを処理するために 時系列分析を採用

過去の行動に基づき異常を 検出及び分析

影響を受ける部分をピンポイントに特定

影響を感じるときの時間帯を特定

経験から兆候の象徴を検出

期待されるパターンまたはデータセット中の他のアイテムと一致しないアイテム、イベント、または観測を識別する

Incident Reported

Anode Flagged

週刊ピークは正常値

静的しきい値無効化 Not Received Not Sent Disk Read Disk Written target in target out

毎週のピーク値が

見つからない問題を示唆 CPU Usage Disk Usage

Data Center

Monitoring

IOT Sensor

Data

ビッグデータ及び分析処理するためのIoTプラットフォームを構築 伝統的IoTソリューションの範囲を超えてスケーリングする性能

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 19

ビジネスチャレンジ

異なるターゲット市場や顧客の要求のための柔軟な導入オプションを提供しつつ何百万ものデバイスから情報を収集するための高度にスケールできる プラットフォームを開発

圧倒的スケーラブルなデバイス監視プラットフォームを提供しリアルタイムの洞察力だけでなく 過去の傾向に関するレポートの両方を提供します

Virdata deployment with NetApp/OpenStack クラウドオプション: OpenStack on FlexPod, Softlayer, Amazon AWS

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 20

デバイス モニタリング

データ管理

ビッグデータ 分析

ビッグデータ クエリ

アプリケーション 監視

Virdata Cloud APIs

テクニカラーはサービスとしてのIoTとM2Mの監視、管理及び分析プラット フォームオファーリングによりIoTに 革命をもたらしました。

プラットフォームはVirdataと呼ばれ 任意のアプリケーションとデバイス からどんな種類のデータでも捕獲可能 です。

Virdataはこれまでに実現されていない スケールで歴史的およびリアルタイム の洞察を提供します。

Business Opportunity

IDCは300億ものエンドポイントにおいて7兆を超える自律的な接続を予測し、2020年までの収益でのマルチペタバイトのデータストレージの必要性を 推進します。

IoTプラットフォームは適切な タイミングで「顧客」が正しい決断を 実行するための正確な情報を的確な デバイス・マシン・人から獲得を 支援します

virdata 次世代のIoTフレームワークを提供し様々な業種でデータ主導コンピューティングの実現を

© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 21

Cloud + NetApp OpenStack

+ NetApp

Things デバイス

Simulation

Front-End Processing クレンジング / メッセージング

Messaging Filtering

Queue

Pre-Process FactStore

Discovery Device Mgmt

Protocol Adapter

Job Keeper

Back-End Processing データ解析 / プロセッシング

Timesenes Database

Search DB

Batch Job Streaming Job

Fact Store Serving

SpeedLayer Ad-hoc Queries

Public API IoTデータの公開

APIs Account Mgt Auth Mgmt

Con

necto

r Io

Tデ

ータ

の公

3rd Party Connectors

Application IoTデータの活用

App Server Console

3rd Party データ連携

3rd Party Application

3rd Party DB

SWIFT

S3

SGWS

Private (OpenStack + NetApp) Public (Cloud ONTAP or NetApp)

Public(AWS or SoftLayer + Cloud ONTAP)

Cloud + NetApp

Private (OpenStack + NetApp)

消費者データ 流通 / 運輸

消費者&センサーデータ 医療 / 地域政府

センサーデータ 航空 / 防衛 / 警備

国: アメリカ 業種: IoTクラウド 設立: 2012年 拠点: アメリカ ・ ベルギー IoTフレームワーク及び データ

プロセッシングを提供する新興企業 IoTデバイスの遠隔管理、モバイル

データ収集とクレンジング、ビッグ データ解析を実施するためのクラウドフレームワークの開発提供と MSP(Managed Service Provider) 事業を展開

22 NetApp Innovation 2016 © 2016 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use

More DATA データの不合理な有効性

published by Google

beats complex algorithms

まとめ

NetAppのアプローチにより複製数2を実現し CPUコア数とHadoopライセンスを最適化します 複製数3の性能と保護レベルをEnterprise Storageで実現

Hadoop2 YARN導入には新規クラスター導入が必要 Hadoopクラスターのコスト最適化チャンス

第3のプラットフォームにより全てのデータを捕獲

© 2016 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use 23

Thank You