Hitachi Streaming Data Platform...Data Platform Hitachi Advanced Data...

Preview:

Citation preview

© Hitachi, Ltd. 2018. All rights reserved.

「今」を分析するストリームデータ処理技術Hitachi Streaming Data Platform

株式会社日立製作所サービスプラットフォーム事業本部

© Hitachi, Ltd. 2018. All rights reserved.

1. ストリームデータ処理が生まれた背景

2. ストリームデータ処理の原理と特徴

3. ストリームデータ処理の適用事例

Contents

4. まとめ

© Hitachi, Ltd. 2018. All rights reserved.

1. ストリームデータ処理が生まれた背景

2. ストリームデータ処理の原理と特徴

3. ストリームデータ処理の適用事例

Contents

4. まとめ

© Hitachi, Ltd. 2018. All rights reserved.

1-1 ビッグデータ時代がやってきた!

3

通話ログ

電力メーター

カーナビ つぶやき

コンテンツダウンロード

SNS

ネット購入

データベース

監視映像

Big Data

人 の発信

モノ の発信

環境・気象データ

設備監視

GPS

動画・画像・音声

スマートフォン

診断画像・電子カルテ

物流トレース

運行情報

ICカード利用

人の移動

© Hitachi, Ltd. 2016. All rights reserved.

© Hitachi, Ltd. 2018. All rights reserved.

1-2 ビッグデータ時代におけるデータの変化

4

ITシステムから生成されるデータ機械から生成されるデータ

■ データがデジタル化されている■ センサー技術の進展により、今まで分からなかったことが分かる■ ブロードバンドの普及により、どこからでも大量のデータを取得できる

モノやヒトのデータを活用した新たなビジネスが期待されている

設備情報 環境情報

携帯電話 位置情報

ICカード …

システムログ 業務ログ

アクセスログ メール

SNSログ …

ありとあらゆるところから、データが湧き出てくる

© Hitachi, Ltd. 2018. All rights reserved.

1-3 ビッグデータ時代におけるデータの活用方法

5

項目 センサーデータ 空間データ

データ種別 温度、湿度、振動、圧力・・・ GPS、RFID、電子乗車券…

データ型 波形 位置情報、軌跡

活用例 機器診断 人流分析、物流分析

■ 時々刻々と絶え間なく、データが発生し続ける■ 「今」を高速かつ高度に分析(傾向/相関/軌跡分析など)して、現場に即座にアクションすることが重要

波形 軌跡

1点の値ではなく、時系列な値の変化に意味がある

© Hitachi, Ltd. 2018. All rights reserved.

1-4 ビッグデータ時代におけるデータの活用例

6

個客指向マーケティング流通分野

医療分野 オーダーメイド医療

金融分野 顧客細分型 金融・保険サービス

行政分野 世論分析・意思決定支援

予防保守・運用サービス保守分野

電力需給予測サービス電力分野

車流分析予測サービス交通分野

通信状況分析サービス通信分野

ヒトの情報

モノの情報

© Hitachi, Ltd. 2018. All rights reserved.

1-5 ビッグデータ時代のITに求められること

7

ビッグデータ処理要件

リアルタイムに今が分かる

自分にあったサービスが得られる

新たな気づきを得るネット購入

金融取引ログ

電力メーター

ICカード利用

SNS

ブログ

自動改札

1.リアルタイム処理

2.蓄積・検索

3.集計・分析

データの利活用サイクルに応じたデータ処理技術が必要

© Hitachi, Ltd. 2018. All rights reserved.

1-6 ビッグデータの利活用を支えるプラットフォーム

8

大量の情報をリアルタイム処理

1.リアルタイム処理大量の情報を対象とした分析

3.集計・分析

大量の情報を高速検索・効率保管

履歴データ

2.蓄積・検索

Hitachi Streaming Data Platform

Hitachi Advanced DataBinder プラットフォーム※2

Hadoop

uCosminexus Grid Processing ServerCEP基盤※1

インメモリデータグリッド

分散バッチ基盤

時系列データストア技術

ビッグデータの利活用サイクルに応じたミドルウェアをご提供

※1 CEP : Complex Event Processing

※2 内閣府の最先端研究開発支援プログラム「超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする戦略的社会サービスの実証・評価」(中心研究者:喜連川 東大教授/国立情報学研究所所長)の成果を利用。

Hitachi ElasticApplication Data Store

© Hitachi, Ltd. 2018. All rights reserved.

1. ストリームデータ処理が生まれた背景

2. ストリームデータ処理の原理と特徴

3. ストリームデータ処理の適用事例

Contents

4. まとめ

© Hitachi, Ltd. 2018. All rights reserved.

2-1 ストリームデータ処理の研究の歴史

10

StanfordSTREAM

MIT他Aurora

U.C. BerkeleyTelegraphCQ

WisconsinNiagara

他に、Cornell Univ. New York Univ. AT&T などが研究推進

■ 米国の有力大学のDBグループで研究開始(2002~)■ 学術成果の学会発表(2003~)■ 日立 「uCosminexus Stream Data Platform」リリース(2008~)■ 後継製品の日立「Hitachi Streaming Data Platform」リリース(2018~)■ 現在も主要学会で研究発表継続中

日立から研究員派遣

新しいようで、実は長く研究され続けている技術

© Hitachi, Ltd. 2018. All rights reserved.

2-2 ストリームデータ処理の位置付け

11

データ種別,処理モデルストック型

・データを事前に準備・データサイズ有限

データ格納位置

DBDBサーバ

フロー型・データ到着時に処理・データサイズ無限

メモリ

ストレージ

ファイルサーバ

ファイル 1960年代~: 構造型DB

1970年代~: RDB2

凡例: 1 In-Memory DB, 2 Relational DB, 3 Materialized View (実体化ビュー)

関係データベース

ストレージベースのストック型データ処理技術

適用アプリ: アルゴリズムトレーディング,コンプライアンスチェック,不正監視・検知,…

ストリームデータ処理,複雑イベント処理

ストリームデータベース

サーバ2000年~: 研究開始

・超高速イベント処理を実現・クエリインタフェース提供により開発工数削減CEP

適用アプリ: 銀行トランザクション,チケット予約,通話課金,…

オブジェクトキャッシュ

サーバ

インメモリデータベース

IMDB1

1980年代~: 研究開始DBサーバ 1990年代~: 商用化

インメモリベースのストック型データ処理技術

分散オブジェクトキャッシュ

DBDBサーバ 1990年代~: 時系列DB

1980年代~: Temporal DB

データ処理での時間の取り扱い技術

1990年代~: MV差分更新

差分データ処理技術

サーバ MV3

構造型データベース

© Hitachi, Ltd. 2018. All rights reserved.

2-3 ストリームデータ処理の動作原理

12

取引情報

商品データ売上データ

事業活動

情報

事業活動

情報

DB操作で集計・分析

ストック型データ処理(従来DBMS)

データ

DB DB

データをDBにストック(蓄積)してから,データを集計・分析する。

一括処理 データ保存必要

操作ログ

RFIDPOSデータ

センサデータ

実世界データ

データが発生する度に,逐次,データを集計・分析する。

リアルタイム処理 データ保存不要

リアルタイム集計・分析

リアルタイム表示

フロー型データ処理(ストリーム)

ストリームデータ処理

データの量と質の変化

データ発生時にリアルタイムに処理するフロー型データ処理

© Hitachi, Ltd. 2018. All rights reserved.

2-4 ストリームデータ処理の要素技術と特長

13

事前登録

稼動情報

通信データ

ICカード

稼動監視

ネットワーク

入力情報入力情報

集計・分析結果集計・分析結果

分析シナリオ 分析結果

ダッシュボード(見える化)

結果ファイル

Hitachi Streaming Data Platform

株a,15

ストリームデータ処理基盤

スライディング・ウインドウ

株a,1株b,2

株a 計15株b 計6

時系列データ分析時系列データ分析

株a,1株b,2株a,4株b,6

株a,9

株a,3株b,4

株a,5株a,6

■ ウィンドウ演算により、時系列データの分析を簡単に実現■ インメモリ差分計算により、超高速処理を実現■ 分析シナリオは、SQLを拡張したCQLで記述

CQLによるシナリオ記述CQLによるシナリオ記述

インメモリ差分計算インメモリ差分計算

今を高速かつ高度に分析するための技術

© Hitachi, Ltd. 2018. All rights reserved.

2-5 ウィンドウ演算

14

時系列データ 100 99 2 1 0101102

スライディング・ウィンドウで切り取られた処理対象の時系列データ

■ スライディング・ウィンドウの種類・データの数(ROWS) 例: 直近の100取引分を対象にする・時間(RANGE) 例: 直近3分間分を対象にする・グループ分け(PARTITION) 例: 各銘柄の最新5取引分を対象にする

■ スライディング・ウィンドウにより、時系列データの分析範囲を定義■ 分析に必要なデータだけを抽出することで、データ処理を効率化■ 分析シナリオに複数種のスライディングウィンドウを提供

無限に続く時系列データを効率よく処理

© Hitachi, Ltd. 2018. All rights reserved.

2-6 インメモリ差分計算

15

株価指数の計算処理の例

A社,xxx円,xxx株

B社,xxx円,xxx株

C社,xxx円,xxx株

xxxxx時価総額

株価,株式数 A社,yyy円,yyy株

B社,xxx円,xxx株

C社,xxx円,xxx株

yyyyy A社,xxx円,xxx株xxxxx A社,yyy円,yyy株- +

分析対象データ、中間計算結果はメモリ中に保持

変化のあった株価のみを演算

スライディング・ウインドウ スライディング・ウインドウ

■ インメモリデータ処理により、ディスクI/Oを排除■ 中間結果を利用した差分計算により、大量データ処理時の負荷を軽減■ 分析対象のデータ数に依存しない、一意の計算量で処理を実現

圧倒的な超高速処理を実現

© Hitachi, Ltd. 2018. All rights reserved.

2-7 クエリ言語CQL(Continuous Query Language)

16

IStream(Select id, Sum(val) as SFrom str [Rows 3]Group by id)

…ストリーム化演算CQLの例

選択、結合集合演算などストリーム化演算

時系列データ

中間結果入力・出力

■ SQLを拡張した言語であるため、習得は容易■ ウィンドウ演算により時系列データの分析範囲を定め、関係演算を実行■ アプリケーションの個別開発と比較して、開発効率を大幅に向上

…ウィンドウ演算

処理モデル

リレーション

ウィンドウ演算 関係演算

幅広い業務に対応可能なクエリ言語を提供

© Hitachi, Ltd. 2018. All rights reserved.

2-8 ストリームデータ処理基盤のプログラム構成

17

ストリームデータ処理基盤通信パケット

ファイル

ストリームデータ処理基盤 ー アプリケーションフレームワーク

入出力アダプター定義 分析シナリオ定義 ダッシュボード定義

アプリケーション開発時に作成する部分

出力AP

ファイル

入力データ 出力結果

イベント

データ抽出処理ダッシュボード出力処理

出力アダプターストリーム処理

入力AP

入力アダプター

CQL: Continuous Query Language

■ シンプルなプログラム構成と簡単な分析シナリオ定義により、システム開発や分析シナリオの開発や変更を短期間で実施可能

■ HSDP使用時は定義作成だけでアプリケーション作成不要

分析シナリオ定義、入出力APのシンプルなプログラム構成

© Hitachi, Ltd. 2018. All rights reserved.

2-9 ストリームデータ処理実用化に向けた機能

18

# 機能名 機能詳細 効果

1イベント発生時刻モードの選択機能

処理時刻軸を発生源時刻と受付時刻から選択

・対応範囲拡大

2入力データ順序性保証機能

入力データの時刻情報逆転時、順序を補正

・開発工数削減・安定稼働

3 時刻解像度機能すべての入力データを保持せず、単位時間の統計情報を保持

・リソース削減・安定稼働

4Eagerスケジュール機能

複数のクエリを1つのクエリ処理として一括処理

・レイテンシ向上

5入出力アダプター機能

HTTPやファイルなど、標準的な入出力処理を標準提供

・開発工数削減

© Hitachi, Ltd. 2018. All rights reserved.

1. ストリームデータ処理が生まれた背景

2. ストリームデータ処理の原理と特徴

3. ストリームデータ処理の適用事例

Contents

19

4. まとめ

© Hitachi, Ltd. 2018. All rights reserved.

3-1 ストリームデータ処理でできること

20

syslog Proxylog 認証log

syslog Proxylog 認証logITシステムで発生する各種ログ

センサーから出力される数値データ

クルマやヒトの位置情報

DB、ファイル

今を見える化

リアルタイム監視

価値あるデータに変換

データ発生と同時に瞬時に分析

© Hitachi, Ltd. 2018. All rights reserved.

3-2 ストリームデータ処理による高度なデータ分析

21

■ 1点のデータではなく、複数点のデータを時間軸を含めて分析■ 業務上価値あるデータを高度に高速に抽出■ 高度な分析シナリオをCQLで簡単に記述、変更も容易

時系列データ分析によって、「今」を正確に把握

傾向分析(予兆検知)

軌跡分析

複数イベント発生検知

イベントの特定順序発生検知

イベント発生タイムアウト検知

特定イベントの欠損検知

時系列データ分析の例

© Hitachi, Ltd. 2018. All rights reserved.

3-3 ストリームデータ処理の適用分野

22設備・環境監視

交通状況モニタリングWebサービス監視

株式指数算出配信

ITから実世界まで幅広い分野に適用

センサーネット管理

© Hitachi, Ltd. 2018. All rights reserved.

3-4 株価指数算出配信

23

売買システム

相場ユーザシステム

入力AP

電文受信/フィルタ処理

電文組立/配信処理

株価 株価指数

処理性能

スループット 8,000件/秒以上

レイテンシ10ミリ秒以下(1~10ミリ秒)

従来サービス 指数高速配信

配信間隔 1秒毎指数構成銘柄の値段の変化毎

指数高速配信システム

ストリームデータ処理基盤 出力AP

指数計算処理

集計・分析シナリオ

参考:2011年2月22日付弊社ニュースリリース「東京証券取引所の指数高速配信サービスが開始 ~ 世界最高水準、TOPIXをミリ秒レベルで配信 ~」http://www.hitachi.co.jp/New/cnews/month/2011/02/0222.html

■ 株価が変動する度に株価指数を算出、ミリ秒レベルでユーザ配信■ 株価指数計算の高速化により、配信サービスのサービスレベルを大幅に向上■ 株価指数計算の柔軟性確保により、システム運用コストも低減

■ 株価が変動する度に株価指数を算出、ミリ秒レベルでユーザ配信■ 株価指数計算の高速化により、配信サービスのサービスレベルを大幅に向上■ 株価指数計算の柔軟性確保により、システム運用コストも低減

© Hitachi, Ltd. 2018. All rights reserved.

3-5 Webサービスのサービスレベル監視

24

応答時間

現在の値

時間

しきい値検知

外れ値検知(予兆検知)

SLOしきい値

ベースライン

正常範囲(ベースラインから

算出)

リアルタイム監視画面

ホーム画面

過去の情報(ベースライン)と比較して

いつもと違う傾向を検知 (外れ値検知)

しきい値検知より早く

予兆の検知が可能 SLO : Service Level Objective

統合システム運用管理JP1/Service Level Management

■ 大量のWebアクセスデータから、「今」を高速かつ高度に分析■ Webサービスのサービスレベル(応答時間やエラー率など)の見える化と監視■ データの傾向から、「いつもと違う」 障害の予兆をリアルタイム検知

■ 大量のWebアクセスデータから、「今」を高速かつ高度に分析■ Webサービスのサービスレベル(応答時間やエラー率など)の見える化と監視■ データの傾向から、「いつもと違う」 障害の予兆をリアルタイム検知

© Hitachi, Ltd. 2018. All rights reserved.

3-6 交通状況モニタリング

25

自動車車両位置情報

ストリームデータ処理基盤

分析シナリオ

速度計算

走行方向計算

密度計算

渋滞検出

事故検出

車両ID (緯度,経度)渋滞情報

データ入力約2,000件/秒

赤:低速黄:中速緑:高速

始点:一つ前の位置終点:最新の位置

各車両走行状況 渋滞・事故検知

この位置で渋滞・事故が発生

事故情報

Ⓒ2008 Google

Ⓒ2008 Zenrin

■ 車両位置情報を収集・分析し、交通状況をリアルタイムにモニタリング■ 各車両の速度や進行方向を分析、周辺車両の状況により渋滞や事故を検知■ 車両位置情報を収集・分析し、交通状況をリアルタイムにモニタリング■ 各車両の速度や進行方向を分析、周辺車両の状況により渋滞や事故を検知

© Hitachi, Ltd. 2018. All rights reserved.

3-7 データセンター空調制御

26

分析1相関/傾向分析

判定

分析シナリオ

事前登録

分析2

データセンターレイアウトの表示

サーバ別詳細情報の表示

サーバ室温状況のモニタリング

熱溜り検知・アラーム通知

熱溜りのイベント

パトライトによるアラーム

コールドアイル:空調機が送り出してサーバが吸収する冷気を集めた空間

熱溜り

冷気不足による熱の回り込み

日立センサーネット情報システムAirSenseⅡ

吸気温度と排気温度の相関分析

室温上昇の傾向分析

ストリームデータ処理基盤

サーバ室

無線通信によるサーバ室温情報の逐次収集

室温情報を表示したいサーバをクリック

ホットアイル:サーバの排熱を集めた空間

■ 無線温度センサーから収集した室温データを、発生と同時に瞬時に分析■ サーバ機器の吸排気温度の傾向・相関分析により、熱溜りを検知し対策■ 無線温度センサーから収集した室温データを、発生と同時に瞬時に分析■ サーバ機器の吸排気温度の傾向・相関分析により、熱溜りを検知し対策

© Hitachi, Ltd. 2018. All rights reserved.

3-8 高付加価値通信に対する品質保証サービス

27

■高付加価値な通信のネットワーク接続性や通話品質などをリアルタイム監視■問題発生時、統計情報を優先度順に表示することで、影響度順に問題に対応■高付加価値な通信のネットワーク接続性や通話品質などをリアルタイム監視■問題発生時、統計情報を優先度順に表示することで、影響度順に問題に対応

ストリームデータ処理基盤

通信品質監視シナリオ各通信サービス状態を捕捉

統計情報を取得、品質問題を検知

システムオペレータ

サービスレベル別に通信品質低下を検知した

基地局の数をリアルタイムに表示

赤:問題検知基地局数緑:問題なし

サービスレベル別通信品質状況検知

基地局別かつ優先度順に

通信品質低下したサービスを表示

基地局別、優先度順通信品質状況検知

VoLTE

心電図情報

各指標から遅延や接続性の傾向を

把握し、問題を対策!

© Hitachi, Ltd. 2018. All rights reserved.

3-9 金融系適用事例 ~日立データ交換サービス

28

定型業務である口座振替データのチェック処理を高度化、高速化

定型業務の効率向上 提供サービスのレベル向上

[出展] http://www.hitachi.co.jp/New/cnews/month/2014/06/0616.html

© Hitachi, Ltd. 2018. All rights reserved.

クレジットカード利用データ

クレジットカード利用データ

3-10 金融系適用事例 ~不正取引のリアルタイム監視

29

ストリームデータ処理基盤

証券取引データ

クレジットカード利用データ

■ 大量の取引データの高速処理により、リアルタイムな不正検知が可能■ 時系列な取引状況の分析により、より精度が高い監視が可能■ 複雑高度な監視シナリオをCQLにより簡単に記述、監視シナリオ変更も容易

■ 大量の取引データの高速処理により、リアルタイムな不正検知が可能■ 時系列な取引状況の分析により、より精度が高い監視が可能■ 複雑高度な監視シナリオをCQLにより簡単に記述、監視シナリオ変更も容易

証券取引データ証券取引データ

証券取引監視シナリオ

ストリームデータ処理基盤

クレジットカード利用監視シナリオ

履歴データ蓄積

リアルタイムアラート通知

定期レポート作成

・特定銘柄の連続売買、金額累計超過・売買パターンの繰り返し・単位時間あたりの取引数の傾向変化 ・・・

リアルタイムアラート通知

・単位時間あたりの利用金額累計超過・店舗毎の利用金額の傾向変化・高額利用の連続発生 ・・・

履歴データ蓄積

定期レポート作成

© Hitachi, Ltd. 2018. All rights reserved.

1. ストリームデータ処理が生まれた背景

2. ストリームデータ処理の原理と特徴

3. ストリームデータ処理の適用事例

Contents

30

4. まとめ

© Hitachi, Ltd. 2018. All rights reserved.

4-1 まとめ

31

製造・生産ライン

品質予測 製造監視

リアルタイム監視によるリスクマネジメント

システム稼動監視

相関分析予兆検知

気象、環境、エネルギー

物理×ITセキュリティ

人流分析画像監視

コンプライアンスチェック

不正検出内部統制

交通サービス

運行監視 渋滞予測

金融・証券

自動取引 取引監視

携帯電話サービス

位置情報サービス

新たな付加価値による新ビジネスの創造

自動運転・予防保全によるビジネス機会拡大

使用量監視気象解析

■ ビッグデータから「今」を分析するストリームデータ処理技術をご紹介■ この新しいデータ処理技術が切り拓いていく新しい価値は無限大■ これからのデータ処理方式の選択肢のひとつに加えていただきたい

■ ビッグデータから「今」を分析するストリームデータ処理技術をご紹介■ この新しいデータ処理技術が切り拓いていく新しい価値は無限大■ これからのデータ処理方式の選択肢のひとつに加えていただきたい

© Hitachi, Ltd. 2018. All rights reserved.

他社所有名称に対する表示

32

● HITACHI,JP1,CosminexusおよびuCosminexusは,株式会社 日立製作所の商標または登録商標です。

● Hadoop は,Apache Software Foundationの商標です。

その他記載の会社名,製品名は,それぞれの会社の商標もしくは登録商標です。

本説明資料に記載の仕様は、製品の改良などのため予告なく変更することがあります。

http://www.hitachi.co.jp/Prod/comp/soft1/cosminexus/sdp/index.html

製品ホームページ

Recommended