Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Hadoop運用経験から解き明かすディストリビューションの選択と コスト最適化
© 2016 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use 1
Executive Evangelist Kazuhiro Hirano 11 Mar 2016
Agenda
1)NetApp
2)NetApp on NetApp ASUP Cloudera
NFS-Hadoop connector
Neuro
Anomaly Detection
3)ETLオフロードによる最適化
4)Analytics 3.0 なぜMapR
5)Virdata
6)まとめ
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 2
© 2015 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use 3
激変する環境の中でお客様を 正しい方向に導く唯一のベンダー
将来を見据えた独自のビジョン
総合的なプランと徹底的な実行
お客様の成功を支援する トラステッド アドバイザー
ネットアップ データファブリック エコシステム
4
E-シリーズ
StorageGRID ウェブスケール
FlexArray and FLI
OnCommand管理スイート
FASシリーズ
FlexPod 他社製ストレージ EMC, Hitachi, Others
AltaVault NetApp Private Storage
© 2016 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use
ハイブリッドストレージ オールフラッシュストレージ ソフトウェアデファインド/クラウドストレージ 凡例
EF シリーズ
AFF シリーズ
ソリッドファイアー
Element X
ONTAP VSA
Enterprise Storageで実現するデータマネージメントコスト最適化
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 6
エンタープライズストレージによるインテグレーション による厳しいSLA要求への対応
E5660導入によるRack Awarenessとデータローカリティ基準と性能要件を満たす構成によるレプリカ数2及び1での ディストリビューション コスト削減とインフラの最適化
ETL処理は遅くボトルネック原因になる
EDWプラットフォーム強化は高額な投資コストが付属
Hybrid ETL Pipeline
Extract(抽出)Transform(変換)Loading(格納) の略でデータウェアハウスが必要とするデータを様々な データソースから抽出し、適切な形式に変換し、 必要に応じ参照整合性(参照される側と参照する側の テーブルの同期が取れていること)をチェックし、 データ品質を保証してから格納するという役割を持つ
Source: Garrett, Brian and Lockner, Julie, “NetApp Open Solution for Hadoop”, ESG Report, May 2012, http://bit.ly/LyYG0
Enterprise Storage - DAS ディスクエラー運用比較
HadoopによるASUPチャレンジ
頻繁にロードの性能要求を処理するために 容易に拡張できる
ロードに対し直線的にスケールアウト でき低コストのソリューションを 必要とします
全体的なソリューションとして データアクセスは低レイテンシで ある必要があります
データはほとんど常に非構造化で アドホックアクセスする必要が あります
次世代ASUPはこれらのニーズに対応するためのプログラムです
明らかに「ビッグデータ」としての問題!
マシンデータの可視化は迅速に障害を解決する手段
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 7
Gateways ETL Data Warehouse Reporting
• 毎週1,000,000のASUPが生成され40%は週末に摂取
• 到達するASUPの10%は消失する 予測
• データは迅速に抽出し 変換され15分でロード される必要がある (しばしばSLAを達成出来ない)
•わずか5%の非構造化データがデータ ウェアハウスに入りそれは月に6-8TBの成長を継続します
•Oracle DBMSの規模拡張やメンテナンス及びバックアップが困難
•非構造化コンテンツに簡単にアクセス する方法は無い
• 経営層からも複数のマイニング 要求は満たされていません
• リードジェネレーションと サポート性及びBIの貴重な情報の莫大な潜在的可能性
HDFSに1.28 PB (2015年9月現在)
NFSに1PB
毎月のASUPは13,821,076 (June 2015)
成長率 : 今後3年間で月ごとのASUP数の5倍
NFS - 32TB/月 (4% increase per month)
HDFS – 23 TB/月
720TB Hadoopによる効率化比較
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 8
Normal Config 100 Nodes
9 Rack
PRD 11 Building Block
44 Nodes 4 Rack
DEV, QA、sandbox 9 Building Block
72 Nodes 5 Rack
ASUP – NEXT Footprint Cloudera Hadoopクラスター
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 9
Cloudera Footprint ノードコスト ノード数
24x7 EDH $12,034 node/Year 216
8x5 EDH $11,407 node/Year 187
データ移動と複製はチャレンジングで膨大な時間が必要です
NFSとHDFS間でのデータ複製は2PB以上重複しており 既存アプリケーションは目的に応じそれらにアクセスします
クラスタが過負荷や飽和するとデータアクセシビリティが問題 となり本番・レポーティング・Hbaseと複数クラスへの分離 が必要となりました
既存プラットフォームのライトスループット負荷が異常に高く 満足な性能が得られません
セルフサービス・ツールDataMeerは常に多くのストレージ・ フットプリントを必要とします
既存ETLツーツはHDFSの優位性を生かせず直接アクセス できません
現在の実装は2ソフトウェアリリースバージョン遅れでASUPはNetAppのデータリザーバのための適確なベースラインでは無く 更にソリューションが設計された背景において 性能・拡張性・信頼性に懸念があります
Hadoop Infrastructure – NetApp Approach NetApp on NetApp
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 10
Primary Storage
(NFS/SAN)
Hadoop Compute Blades Hadoop
Compute Blades
Data Lake QA
Hadoop Compute Blades
NPS NetApp Private Storage Cloud
NFS-Hadoop connector
SnapMirror
NFS-Hadoop connector
HDFSに1.28 PB (2015年9月現在)
NFSに1PB
IoT – NetApp Neuro
顧客トラブルシューティングのための効率的なプラットフォームを構築
ログから構造を生成しその構造を可視化 - Neuro
cDOTのためのビジョンであるマシンデータ可視化アプローチは迅速に障害を解決する手段
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 11
What-if analysisにより設定パラメータが変更されます パフォーマンスカウンタのプロアクティブな監視
ETLオフロードパイロットユースケース Current State: Integrated ASUP analytics on EDW
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 12
CSV Extract
ASUP +
Clo
ud
era
STG WRK EDW
ルックアップ 実際の更新量計算
変換 一時テーブルへのロード
Load
DS
S
(Ora
cle
DB
)
長いレイテンシ:ユーザーがレポートを活用できるのはデータの受領から6日後 毎週190GB以上の容量追加がSTG, WRK, EDWに発生 レポート生成のための応答時間は1-15分 新しいサブジェクトエリア及びデータを収容するのに十分な空きがありません 250に及ぶ多重ジョブ(STG, WRK, EDW)同時実行が原因で厳しいSLAプレッシャー 処理(ETL)とデータ(データベース)は2つの異なる場所に存在しデータ移動が多大 垂直スケーリングは成長するビジネス要求及び時間通りのデータリフレッシュに対応するための唯一の選択肢
OBIEE
Sun Tue Fri
• 導入ベース • サーブス契約 • オートサポート
• 性能に関する顧客との積極的な関与 – NetAppのコストを削減し 顧客満足度を向上
• 追加サービスを販売する機会 – NetAppリベニュー
Sat
Oracle Business Intelligence Enterprise Edition あらゆる分析やレポート作成機能を提供する 包括的なエンタープライズBIスイート製品
ETLオフロードパイロットユースケース Target State:統合ASUP分析とデータディスカバリー
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 13
レイテンシの削減:IT処理により6日から1日に データボリューム低減 : STGとWORKから毎週190ギガバイト削除した結果として業務を軽減 アーキテクチャシンプリフィケーション : この利用ケースではDSS, STG及びWRKを除去 既存250の多重ジョブを統合する機会 データは探索のためデータリザーバー(貯蔵池)で利用可能 レポート作成のための1-15分の応答時間はそのまま(今後のDWアプライアンスでの機会)
OBIEE
• 性能に関する顧客との積極的な関与 – NetAppのコストを削減し 顧客満足度を向上
• 追加サービスを販売する機会 – NetAppリベニュー
Oracle Business Intelligence Enterprise Edition あらゆる分析やレポート作成機能を提供する 包括的なエンタープライズBIスイート製品
ASUP
Clo
ud
era
+
Data Reservoir
CSV
Extract
• 導入ベース • サーブス契約 • オートサポート
EDW
Sun Mon Mon Tue
効率向上とインクリメンタル機能
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 14
1. 迅速性向上: リアルタイムに近いデータ獲得と統合 2. 柔軟性向上: 追加データ根源としてソースと変換データによりデータ探索 3. 効率性・柔軟性向上:運用上のニーズに対応した専用データストア 4. 効率性向上 : EDWのデータはHadoopにアーカイブ
Oracle DB Hadoop Distribution + DataStage + TBD
S
O
U
R
C
E
S
R
E
P
L
I
C
A
Batch Layer
1:1 Data Extract Transformation Relationships
Speed Layer
S
T
R
E
A
M
ODS
Data Exploration
Data Marts
EDW
1
2
3
4
2
ETLオフロードパイロットユースケース これまでのアーキテクチャーから次世代へ
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 15
Replica
ASUP
IB (SAP, ERP & EIM)
SC (SAP)
Hadoop Cluster
EDW
EDW Master Data
ASUP Hadoop Cluster
ASUP DW Auto support Data as of Sunday
Sunday Tuesday Wednesday
Replica
ASUP
IB (SAP, ERP & EIM)
SC (SAP)
STG
EDW Master Data
ASUP Hadoop Cluster
ASUP DW Auto support Data as of Sunday
Sunday Tuesday Saturday
EDW
1
Monday Tuesday 2
現在のEDW実装
Hadoopによる実装
リアルタイムに近いデータで 市場投入までの時間短縮 (6日のレイテンシを2日に短縮) シナリオ2が望ましいが
( レイテンシ短縮と追加のシンプリフィケーション) ASUP利害関係者の説得が必要
ASUP DWへの依存性を低減しアーキテクチャを簡素化
Hadoopクラスターをデータ 露見のために活用出来る
俊敏性を向上させソースシステムへの影響を最小にデータ配給を 加速
セルフサービスを有効にする – アドホックレポート機能を追加
EDW SLAを満たす能力の向上とEDWの能力を他の要件に解放
仕事のロジックを最適化する機会
Data Discovery
土曜日以前にEDWへのSTGを 実行するウィンドウは無い
迅速な洞察力のために全てのドットを接続し全てのデータを統合 Analytics 3.0 Pilot : 顧客360°ビュー
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 16
Product Health
Service Quality
Shipments
Install Base
Contracts Support Cases
Leads
Orders
Opportunities
Bookings
Quotes Revenue
Contacts
CSAT
Location
Sentiment
Demographic
Field Notes
Market Share
Wallet
Reviews
News Clickstream
Explore
Discover
Report
Visualize
Analyze
Customer
顧客とパートナーに完全かつ包括的な 洞察を提供:
完全なデータ…
• どんなソースからも任意のタイプの任意の データを摂取しビジネスニーズに基づいて統合
…すべてのビジネス上の質問に解答します…
• 対象領域への分断データの結合がより良い 洞察を実現
• エンドユーザーのためのより充実した多くの セルフサービス機能
• 現在のデータへのリアルタイムに近い より高速なアクセス
… 柔軟性はビジネスの変化に迅速に 適応します …
• 直ちに新しいデータを統合
• 探索し新たな洞察を発見
… 低い総所有コストで(TCO)
“Customer 360”
Backlog
Anode System
NetApp Storage Anode System NetApp Anomaly Detection System
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 17
階層に配置
システムあたり30,000 ~ 50,000
定期的に収集 (hour/ minute)
Anode data centerへ配給 (weekly / daily)
ストレージシステム内部で収集された メトリックはフィールドのデータセンターに配備
計測データをAnodeデータセンターに集約
バッチモードで分析
結果は管理者及びサポート担当者が利用できるように
NetApp Anode Approach 実際の障害からの兆候をプロットしデータベース化
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 18
専門家の生産性と効率性の向上
的確なリプレース
メトリックを処理するために 時系列分析を採用
過去の行動に基づき異常を 検出及び分析
影響を受ける部分をピンポイントに特定
影響を感じるときの時間帯を特定
経験から兆候の象徴を検出
期待されるパターンまたはデータセット中の他のアイテムと一致しないアイテム、イベント、または観測を識別する
Incident Reported
Anode Flagged
週刊ピークは正常値
静的しきい値無効化 Not Received Not Sent Disk Read Disk Written target in target out
毎週のピーク値が
見つからない問題を示唆 CPU Usage Disk Usage
Data Center
Monitoring
IOT Sensor
Data
ビッグデータ及び分析処理するためのIoTプラットフォームを構築 伝統的IoTソリューションの範囲を超えてスケーリングする性能
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 19
ビジネスチャレンジ
異なるターゲット市場や顧客の要求のための柔軟な導入オプションを提供しつつ何百万ものデバイスから情報を収集するための高度にスケールできる プラットフォームを開発
圧倒的スケーラブルなデバイス監視プラットフォームを提供しリアルタイムの洞察力だけでなく 過去の傾向に関するレポートの両方を提供します
Virdata deployment with NetApp/OpenStack クラウドオプション: OpenStack on FlexPod, Softlayer, Amazon AWS
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 20
デバイス モニタリング
データ管理
ビッグデータ 分析
ビッグデータ クエリ
アプリケーション 監視
Virdata Cloud APIs
テクニカラーはサービスとしてのIoTとM2Mの監視、管理及び分析プラット フォームオファーリングによりIoTに 革命をもたらしました。
プラットフォームはVirdataと呼ばれ 任意のアプリケーションとデバイス からどんな種類のデータでも捕獲可能 です。
Virdataはこれまでに実現されていない スケールで歴史的およびリアルタイム の洞察を提供します。
Business Opportunity
IDCは300億ものエンドポイントにおいて7兆を超える自律的な接続を予測し、2020年までの収益でのマルチペタバイトのデータストレージの必要性を 推進します。
IoTプラットフォームは適切な タイミングで「顧客」が正しい決断を 実行するための正確な情報を的確な デバイス・マシン・人から獲得を 支援します
virdata 次世代のIoTフレームワークを提供し様々な業種でデータ主導コンピューティングの実現を
© 2016 NetApp, Inc. All rights reserved. --- NETAPP CONFIDENTIAL --- 21
Cloud + NetApp OpenStack
+ NetApp
Things デバイス
Simulation
Front-End Processing クレンジング / メッセージング
Messaging Filtering
Queue
Pre-Process FactStore
Discovery Device Mgmt
Protocol Adapter
Job Keeper
Back-End Processing データ解析 / プロセッシング
Timesenes Database
Search DB
Batch Job Streaming Job
Fact Store Serving
SpeedLayer Ad-hoc Queries
Public API IoTデータの公開
APIs Account Mgt Auth Mgmt
Con
necto
r Io
Tデ
ータ
の公
開
3rd Party Connectors
Application IoTデータの活用
App Server Console
3rd Party データ連携
3rd Party Application
3rd Party DB
SWIFT
S3
SGWS
Private (OpenStack + NetApp) Public (Cloud ONTAP or NetApp)
Public(AWS or SoftLayer + Cloud ONTAP)
Cloud + NetApp
Private (OpenStack + NetApp)
消費者データ 流通 / 運輸
消費者&センサーデータ 医療 / 地域政府
センサーデータ 航空 / 防衛 / 警備
国: アメリカ 業種: IoTクラウド 設立: 2012年 拠点: アメリカ ・ ベルギー IoTフレームワーク及び データ
プロセッシングを提供する新興企業 IoTデバイスの遠隔管理、モバイル
データ収集とクレンジング、ビッグ データ解析を実施するためのクラウドフレームワークの開発提供と MSP(Managed Service Provider) 事業を展開
22 NetApp Innovation 2016 © 2016 NetApp, Inc. All rights reserved. NetApp Confidential – Limited Use
More DATA データの不合理な有効性
published by Google
beats complex algorithms
まとめ
NetAppのアプローチにより複製数2を実現し CPUコア数とHadoopライセンスを最適化します 複製数3の性能と保護レベルをEnterprise Storageで実現
Hadoop2 YARN導入には新規クラスター導入が必要 Hadoopクラスターのコスト最適化チャンス
第3のプラットフォームにより全てのデータを捕獲