Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
© Hitachi, Ltd. 2018. All rights reserved.
「今」を分析するストリームデータ処理技術Hitachi Streaming Data Platform
株式会社日立製作所サービスプラットフォーム事業本部
© Hitachi, Ltd. 2018. All rights reserved.
1. ストリームデータ処理が生まれた背景
2. ストリームデータ処理の原理と特徴
3. ストリームデータ処理の適用事例
Contents
4. まとめ
© Hitachi, Ltd. 2018. All rights reserved.
1. ストリームデータ処理が生まれた背景
2. ストリームデータ処理の原理と特徴
3. ストリームデータ処理の適用事例
Contents
4. まとめ
© Hitachi, Ltd. 2018. All rights reserved.
1-1 ビッグデータ時代がやってきた!
3
通話ログ
電力メーター
カーナビ つぶやき
コンテンツダウンロード
SNS
ネット購入
データベース
監視映像
Big Data
人 の発信
モノ の発信
環境・気象データ
設備監視
GPS
動画・画像・音声
スマートフォン
診断画像・電子カルテ
物流トレース
運行情報
ICカード利用
人の移動
© Hitachi, Ltd. 2016. All rights reserved.
© Hitachi, Ltd. 2018. All rights reserved.
1-2 ビッグデータ時代におけるデータの変化
4
ITシステムから生成されるデータ機械から生成されるデータ
■ データがデジタル化されている■ センサー技術の進展により、今まで分からなかったことが分かる■ ブロードバンドの普及により、どこからでも大量のデータを取得できる
モノやヒトのデータを活用した新たなビジネスが期待されている
設備情報 環境情報
携帯電話 位置情報
ICカード …
システムログ 業務ログ
アクセスログ メール
SNSログ …
ありとあらゆるところから、データが湧き出てくる
© Hitachi, Ltd. 2018. All rights reserved.
1-3 ビッグデータ時代におけるデータの活用方法
5
項目 センサーデータ 空間データ
データ種別 温度、湿度、振動、圧力・・・ GPS、RFID、電子乗車券…
データ型 波形 位置情報、軌跡
活用例 機器診断 人流分析、物流分析
■ 時々刻々と絶え間なく、データが発生し続ける■ 「今」を高速かつ高度に分析(傾向/相関/軌跡分析など)して、現場に即座にアクションすることが重要
波形 軌跡
1点の値ではなく、時系列な値の変化に意味がある
© Hitachi, Ltd. 2018. All rights reserved.
1-4 ビッグデータ時代におけるデータの活用例
6
個客指向マーケティング流通分野
医療分野 オーダーメイド医療
金融分野 顧客細分型 金融・保険サービス
行政分野 世論分析・意思決定支援
予防保守・運用サービス保守分野
電力需給予測サービス電力分野
車流分析予測サービス交通分野
通信状況分析サービス通信分野
ヒトの情報
モノの情報
© Hitachi, Ltd. 2018. All rights reserved.
1-5 ビッグデータ時代のITに求められること
7
ビッグデータ処理要件
リアルタイムに今が分かる
自分にあったサービスが得られる
新たな気づきを得るネット購入
金融取引ログ
電力メーター
ICカード利用
SNS
ブログ
自動改札
1.リアルタイム処理
2.蓄積・検索
3.集計・分析
データの利活用サイクルに応じたデータ処理技術が必要
© Hitachi, Ltd. 2018. All rights reserved.
1-6 ビッグデータの利活用を支えるプラットフォーム
8
大量の情報をリアルタイム処理
1.リアルタイム処理大量の情報を対象とした分析
3.集計・分析
大量の情報を高速検索・効率保管
履歴データ
2.蓄積・検索
Hitachi Streaming Data Platform
Hitachi Advanced DataBinder プラットフォーム※2
Hadoop
uCosminexus Grid Processing ServerCEP基盤※1
インメモリデータグリッド
分散バッチ基盤
時系列データストア技術
ビッグデータの利活用サイクルに応じたミドルウェアをご提供
※1 CEP : Complex Event Processing
※2 内閣府の最先端研究開発支援プログラム「超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする戦略的社会サービスの実証・評価」(中心研究者:喜連川 東大教授/国立情報学研究所所長)の成果を利用。
Hitachi ElasticApplication Data Store
© Hitachi, Ltd. 2018. All rights reserved.
1. ストリームデータ処理が生まれた背景
2. ストリームデータ処理の原理と特徴
3. ストリームデータ処理の適用事例
Contents
4. まとめ
© Hitachi, Ltd. 2018. All rights reserved.
2-1 ストリームデータ処理の研究の歴史
10
StanfordSTREAM
MIT他Aurora
U.C. BerkeleyTelegraphCQ
WisconsinNiagara
他に、Cornell Univ. New York Univ. AT&T などが研究推進
■ 米国の有力大学のDBグループで研究開始(2002~)■ 学術成果の学会発表(2003~)■ 日立 「uCosminexus Stream Data Platform」リリース(2008~)■ 後継製品の日立「Hitachi Streaming Data Platform」リリース(2018~)■ 現在も主要学会で研究発表継続中
日立から研究員派遣
新しいようで、実は長く研究され続けている技術
© Hitachi, Ltd. 2018. All rights reserved.
2-2 ストリームデータ処理の位置付け
11
データ種別,処理モデルストック型
・データを事前に準備・データサイズ有限
データ格納位置
DBDBサーバ
フロー型・データ到着時に処理・データサイズ無限
メモリ
ストレージ
ファイルサーバ
ファイル 1960年代~: 構造型DB
1970年代~: RDB2
凡例: 1 In-Memory DB, 2 Relational DB, 3 Materialized View (実体化ビュー)
関係データベース
ストレージベースのストック型データ処理技術
適用アプリ: アルゴリズムトレーディング,コンプライアンスチェック,不正監視・検知,…
ストリームデータ処理,複雑イベント処理
ストリームデータベース
サーバ2000年~: 研究開始
・超高速イベント処理を実現・クエリインタフェース提供により開発工数削減CEP
適用アプリ: 銀行トランザクション,チケット予約,通話課金,…
オブジェクトキャッシュ
サーバ
インメモリデータベース
IMDB1
1980年代~: 研究開始DBサーバ 1990年代~: 商用化
インメモリベースのストック型データ処理技術
分散オブジェクトキャッシュ
DBDBサーバ 1990年代~: 時系列DB
1980年代~: Temporal DB
データ処理での時間の取り扱い技術
1990年代~: MV差分更新
差分データ処理技術
サーバ MV3
構造型データベース
© Hitachi, Ltd. 2018. All rights reserved.
2-3 ストリームデータ処理の動作原理
12
取引情報
商品データ売上データ
事業活動
情報
事業活動
情報
DB操作で集計・分析
ストック型データ処理(従来DBMS)
データ
DB DB
データをDBにストック(蓄積)してから,データを集計・分析する。
一括処理 データ保存必要
操作ログ
RFIDPOSデータ
センサデータ
実世界データ
データが発生する度に,逐次,データを集計・分析する。
リアルタイム処理 データ保存不要
リアルタイム集計・分析
リアルタイム表示
フロー型データ処理(ストリーム)
ストリームデータ処理
データの量と質の変化
データ発生時にリアルタイムに処理するフロー型データ処理
© Hitachi, Ltd. 2018. All rights reserved.
2-4 ストリームデータ処理の要素技術と特長
13
事前登録
稼動情報
通信データ
ICカード
稼動監視
ネットワーク
入力情報入力情報
集計・分析結果集計・分析結果
分析シナリオ 分析結果
ダッシュボード(見える化)
結果ファイル
Hitachi Streaming Data Platform
株a,15
ストリームデータ処理基盤
スライディング・ウインドウ
株a,1株b,2
株a 計15株b 計6
時系列データ分析時系列データ分析
株a,1株b,2株a,4株b,6
株a,9
株a,3株b,4
株a,5株a,6
■ ウィンドウ演算により、時系列データの分析を簡単に実現■ インメモリ差分計算により、超高速処理を実現■ 分析シナリオは、SQLを拡張したCQLで記述
CQLによるシナリオ記述CQLによるシナリオ記述
インメモリ差分計算インメモリ差分計算
今を高速かつ高度に分析するための技術
© Hitachi, Ltd. 2018. All rights reserved.
2-5 ウィンドウ演算
14
時系列データ 100 99 2 1 0101102
スライディング・ウィンドウで切り取られた処理対象の時系列データ
■ スライディング・ウィンドウの種類・データの数(ROWS) 例: 直近の100取引分を対象にする・時間(RANGE) 例: 直近3分間分を対象にする・グループ分け(PARTITION) 例: 各銘柄の最新5取引分を対象にする
■ スライディング・ウィンドウにより、時系列データの分析範囲を定義■ 分析に必要なデータだけを抽出することで、データ処理を効率化■ 分析シナリオに複数種のスライディングウィンドウを提供
無限に続く時系列データを効率よく処理
© Hitachi, Ltd. 2018. All rights reserved.
2-6 インメモリ差分計算
15
株価指数の計算処理の例
A社,xxx円,xxx株
B社,xxx円,xxx株
C社,xxx円,xxx株
:
xxxxx時価総額
株価,株式数 A社,yyy円,yyy株
B社,xxx円,xxx株
C社,xxx円,xxx株
:
yyyyy A社,xxx円,xxx株xxxxx A社,yyy円,yyy株- +
分析対象データ、中間計算結果はメモリ中に保持
変化のあった株価のみを演算
スライディング・ウインドウ スライディング・ウインドウ
■ インメモリデータ処理により、ディスクI/Oを排除■ 中間結果を利用した差分計算により、大量データ処理時の負荷を軽減■ 分析対象のデータ数に依存しない、一意の計算量で処理を実現
圧倒的な超高速処理を実現
© Hitachi, Ltd. 2018. All rights reserved.
2-7 クエリ言語CQL(Continuous Query Language)
16
IStream(Select id, Sum(val) as SFrom str [Rows 3]Group by id)
…ストリーム化演算CQLの例
選択、結合集合演算などストリーム化演算
時系列データ
中間結果入力・出力
■ SQLを拡張した言語であるため、習得は容易■ ウィンドウ演算により時系列データの分析範囲を定め、関係演算を実行■ アプリケーションの個別開発と比較して、開発効率を大幅に向上
…ウィンドウ演算
処理モデル
リレーション
ウィンドウ演算 関係演算
幅広い業務に対応可能なクエリ言語を提供
© Hitachi, Ltd. 2018. All rights reserved.
2-8 ストリームデータ処理基盤のプログラム構成
17
ストリームデータ処理基盤通信パケット
ファイル
ストリームデータ処理基盤 ー アプリケーションフレームワーク
入出力アダプター定義 分析シナリオ定義 ダッシュボード定義
アプリケーション開発時に作成する部分
出力AP
ファイル
入力データ 出力結果
イベント
データ抽出処理ダッシュボード出力処理
出力アダプターストリーム処理
入力AP
入力アダプター
CQL: Continuous Query Language
■ シンプルなプログラム構成と簡単な分析シナリオ定義により、システム開発や分析シナリオの開発や変更を短期間で実施可能
■ HSDP使用時は定義作成だけでアプリケーション作成不要
分析シナリオ定義、入出力APのシンプルなプログラム構成
© Hitachi, Ltd. 2018. All rights reserved.
2-9 ストリームデータ処理実用化に向けた機能
18
# 機能名 機能詳細 効果
1イベント発生時刻モードの選択機能
処理時刻軸を発生源時刻と受付時刻から選択
・対応範囲拡大
2入力データ順序性保証機能
入力データの時刻情報逆転時、順序を補正
・開発工数削減・安定稼働
3 時刻解像度機能すべての入力データを保持せず、単位時間の統計情報を保持
・リソース削減・安定稼働
4Eagerスケジュール機能
複数のクエリを1つのクエリ処理として一括処理
・レイテンシ向上
5入出力アダプター機能
HTTPやファイルなど、標準的な入出力処理を標準提供
・開発工数削減
© Hitachi, Ltd. 2018. All rights reserved.
1. ストリームデータ処理が生まれた背景
2. ストリームデータ処理の原理と特徴
3. ストリームデータ処理の適用事例
Contents
19
4. まとめ
© Hitachi, Ltd. 2018. All rights reserved.
3-1 ストリームデータ処理でできること
20
syslog Proxylog 認証log
syslog Proxylog 認証logITシステムで発生する各種ログ
センサーから出力される数値データ
クルマやヒトの位置情報
DB、ファイル
今を見える化
リアルタイム監視
価値あるデータに変換
データ発生と同時に瞬時に分析
© Hitachi, Ltd. 2018. All rights reserved.
3-2 ストリームデータ処理による高度なデータ分析
21
■ 1点のデータではなく、複数点のデータを時間軸を含めて分析■ 業務上価値あるデータを高度に高速に抽出■ 高度な分析シナリオをCQLで簡単に記述、変更も容易
時系列データ分析によって、「今」を正確に把握
傾向分析(予兆検知)
軌跡分析
複数イベント発生検知
イベントの特定順序発生検知
イベント発生タイムアウト検知
特定イベントの欠損検知
時系列データ分析の例
© Hitachi, Ltd. 2018. All rights reserved.
3-3 ストリームデータ処理の適用分野
22設備・環境監視
交通状況モニタリングWebサービス監視
株式指数算出配信
ITから実世界まで幅広い分野に適用
センサーネット管理
© Hitachi, Ltd. 2018. All rights reserved.
3-4 株価指数算出配信
23
売買システム
相場ユーザシステム
入力AP
電文受信/フィルタ処理
電文組立/配信処理
株価 株価指数
処理性能
スループット 8,000件/秒以上
レイテンシ10ミリ秒以下(1~10ミリ秒)
従来サービス 指数高速配信
配信間隔 1秒毎指数構成銘柄の値段の変化毎
指数高速配信システム
ストリームデータ処理基盤 出力AP
指数計算処理
集計・分析シナリオ
参考:2011年2月22日付弊社ニュースリリース「東京証券取引所の指数高速配信サービスが開始 ~ 世界最高水準、TOPIXをミリ秒レベルで配信 ~」http://www.hitachi.co.jp/New/cnews/month/2011/02/0222.html
■ 株価が変動する度に株価指数を算出、ミリ秒レベルでユーザ配信■ 株価指数計算の高速化により、配信サービスのサービスレベルを大幅に向上■ 株価指数計算の柔軟性確保により、システム運用コストも低減
■ 株価が変動する度に株価指数を算出、ミリ秒レベルでユーザ配信■ 株価指数計算の高速化により、配信サービスのサービスレベルを大幅に向上■ 株価指数計算の柔軟性確保により、システム運用コストも低減
© Hitachi, Ltd. 2018. All rights reserved.
3-5 Webサービスのサービスレベル監視
24
応答時間
現在の値
時間
しきい値検知
外れ値検知(予兆検知)
SLOしきい値
ベースライン
正常範囲(ベースラインから
算出)
リアルタイム監視画面
ホーム画面
過去の情報(ベースライン)と比較して
いつもと違う傾向を検知 (外れ値検知)
しきい値検知より早く
予兆の検知が可能 SLO : Service Level Objective
統合システム運用管理JP1/Service Level Management
■ 大量のWebアクセスデータから、「今」を高速かつ高度に分析■ Webサービスのサービスレベル(応答時間やエラー率など)の見える化と監視■ データの傾向から、「いつもと違う」 障害の予兆をリアルタイム検知
■ 大量のWebアクセスデータから、「今」を高速かつ高度に分析■ Webサービスのサービスレベル(応答時間やエラー率など)の見える化と監視■ データの傾向から、「いつもと違う」 障害の予兆をリアルタイム検知
© Hitachi, Ltd. 2018. All rights reserved.
3-6 交通状況モニタリング
25
自動車車両位置情報
ストリームデータ処理基盤
分析シナリオ
速度計算
走行方向計算
密度計算
渋滞検出
事故検出
車両ID (緯度,経度)渋滞情報
データ入力約2,000件/秒
赤:低速黄:中速緑:高速
始点:一つ前の位置終点:最新の位置
各車両走行状況 渋滞・事故検知
この位置で渋滞・事故が発生
事故情報
Ⓒ2008 Google
Ⓒ2008 Zenrin
■ 車両位置情報を収集・分析し、交通状況をリアルタイムにモニタリング■ 各車両の速度や進行方向を分析、周辺車両の状況により渋滞や事故を検知■ 車両位置情報を収集・分析し、交通状況をリアルタイムにモニタリング■ 各車両の速度や進行方向を分析、周辺車両の状況により渋滞や事故を検知
© Hitachi, Ltd. 2018. All rights reserved.
3-7 データセンター空調制御
26
分析1相関/傾向分析
判定
分析シナリオ
事前登録
分析2
データセンターレイアウトの表示
サーバ別詳細情報の表示
サーバ室温状況のモニタリング
熱溜り検知・アラーム通知
熱溜りのイベント
パトライトによるアラーム
コールドアイル:空調機が送り出してサーバが吸収する冷気を集めた空間
熱溜り
冷気不足による熱の回り込み
日立センサーネット情報システムAirSenseⅡ
吸気温度と排気温度の相関分析
室温上昇の傾向分析
ストリームデータ処理基盤
サーバ室
無線通信によるサーバ室温情報の逐次収集
室温情報を表示したいサーバをクリック
ホットアイル:サーバの排熱を集めた空間
■ 無線温度センサーから収集した室温データを、発生と同時に瞬時に分析■ サーバ機器の吸排気温度の傾向・相関分析により、熱溜りを検知し対策■ 無線温度センサーから収集した室温データを、発生と同時に瞬時に分析■ サーバ機器の吸排気温度の傾向・相関分析により、熱溜りを検知し対策
© Hitachi, Ltd. 2018. All rights reserved.
3-8 高付加価値通信に対する品質保証サービス
27
■高付加価値な通信のネットワーク接続性や通話品質などをリアルタイム監視■問題発生時、統計情報を優先度順に表示することで、影響度順に問題に対応■高付加価値な通信のネットワーク接続性や通話品質などをリアルタイム監視■問題発生時、統計情報を優先度順に表示することで、影響度順に問題に対応
ストリームデータ処理基盤
通信品質監視シナリオ各通信サービス状態を捕捉
統計情報を取得、品質問題を検知
システムオペレータ
サービスレベル別に通信品質低下を検知した
基地局の数をリアルタイムに表示
赤:問題検知基地局数緑:問題なし
サービスレベル別通信品質状況検知
基地局別かつ優先度順に
通信品質低下したサービスを表示
基地局別、優先度順通信品質状況検知
VoLTE
心電図情報
各指標から遅延や接続性の傾向を
把握し、問題を対策!
© Hitachi, Ltd. 2018. All rights reserved.
3-9 金融系適用事例 ~日立データ交換サービス
28
定型業務である口座振替データのチェック処理を高度化、高速化
定型業務の効率向上 提供サービスのレベル向上
[出展] http://www.hitachi.co.jp/New/cnews/month/2014/06/0616.html
© Hitachi, Ltd. 2018. All rights reserved.
クレジットカード利用データ
クレジットカード利用データ
3-10 金融系適用事例 ~不正取引のリアルタイム監視
29
ストリームデータ処理基盤
証券取引データ
クレジットカード利用データ
■ 大量の取引データの高速処理により、リアルタイムな不正検知が可能■ 時系列な取引状況の分析により、より精度が高い監視が可能■ 複雑高度な監視シナリオをCQLにより簡単に記述、監視シナリオ変更も容易
■ 大量の取引データの高速処理により、リアルタイムな不正検知が可能■ 時系列な取引状況の分析により、より精度が高い監視が可能■ 複雑高度な監視シナリオをCQLにより簡単に記述、監視シナリオ変更も容易
証券取引データ証券取引データ
証券取引監視シナリオ
ストリームデータ処理基盤
クレジットカード利用監視シナリオ
履歴データ蓄積
リアルタイムアラート通知
定期レポート作成
・特定銘柄の連続売買、金額累計超過・売買パターンの繰り返し・単位時間あたりの取引数の傾向変化 ・・・
リアルタイムアラート通知
・単位時間あたりの利用金額累計超過・店舗毎の利用金額の傾向変化・高額利用の連続発生 ・・・
履歴データ蓄積
定期レポート作成
© Hitachi, Ltd. 2018. All rights reserved.
1. ストリームデータ処理が生まれた背景
2. ストリームデータ処理の原理と特徴
3. ストリームデータ処理の適用事例
Contents
30
4. まとめ
© Hitachi, Ltd. 2018. All rights reserved.
4-1 まとめ
31
製造・生産ライン
品質予測 製造監視
リアルタイム監視によるリスクマネジメント
システム稼動監視
相関分析予兆検知
気象、環境、エネルギー
物理×ITセキュリティ
人流分析画像監視
コンプライアンスチェック
不正検出内部統制
交通サービス
運行監視 渋滞予測
金融・証券
自動取引 取引監視
携帯電話サービス
位置情報サービス
新たな付加価値による新ビジネスの創造
自動運転・予防保全によるビジネス機会拡大
使用量監視気象解析
■ ビッグデータから「今」を分析するストリームデータ処理技術をご紹介■ この新しいデータ処理技術が切り拓いていく新しい価値は無限大■ これからのデータ処理方式の選択肢のひとつに加えていただきたい
■ ビッグデータから「今」を分析するストリームデータ処理技術をご紹介■ この新しいデータ処理技術が切り拓いていく新しい価値は無限大■ これからのデータ処理方式の選択肢のひとつに加えていただきたい
© Hitachi, Ltd. 2018. All rights reserved.
他社所有名称に対する表示
32
● HITACHI,JP1,CosminexusおよびuCosminexusは,株式会社 日立製作所の商標または登録商標です。
● Hadoop は,Apache Software Foundationの商標です。
その他記載の会社名,製品名は,それぞれの会社の商標もしくは登録商標です。
本説明資料に記載の仕様は、製品の改良などのため予告なく変更することがあります。
http://www.hitachi.co.jp/Prod/comp/soft1/cosminexus/sdp/index.html
製品ホームページ