13
Hitachi vRAMcloud ® Series ビッグデータの リアルタイム集計で、 情報を先取りする リアルタイム集計・分析 ホワイトペーパー 2012 4 発行 Ver. 1.0 株式会社 日立製作所

ビッグデータの リアルタイム集計で、 情報を先取りする · API : Application Program Interface . ATM : Automatic Teller Machine . BA : Business Analytics

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Hitachi vRAMcloud® Series

ビッグデータの

リアルタイム集計で、

情報を先取りする リアルタイム集計・分析

ホワイトペーパー

2012 年 4 月 発行

Ver. 1.0

株式会社 日立製作所

<本書で使用する用語>

API : Application Program Interface

ATM : Automatic Teller Machine

BA : Business Analytics

BCP : Business Continuity Plan

CEP : Complex Event Processing

CMS : Cash Management System

CRM : Customer Relationship Management

DR : Disaster Recovery

DWH : Data WareHouse

EDI : Electronic Data Interchange

KPI : Key Performance Indicators

MRP : Material Requirement Planning

POC : Proof Of Concept

POS : Point Of Sales

PTS : Proprietary Trading System

RDB : Relational DataBase

RFID : Radio Frequency Identification

SCM : Supply Chain Management

SNS : Social Networking Service

VM : Virtual Machine

<留意事項> 本ホワイトペーパーで記載する数値は、日立環境での計測データであり、諸条件により結果は異なります。

<他社商標注記> ・GemFire は、VMware,Inc.の米国およびその他の国における商標または登録商標です。日立製作所が

ソフトウェアを提供し、サポートを実施している製品です。

・その他記載されている会社名、製品名は、それぞれの会社の商標または登録商標です。

©Hitachi, Ltd. 2012. All rights reserved.

本ホワイトペーパーの想定読者

本資料は、(株)日立製作所 情報・通信システム社 金融システム事業部が提供する vRAMcloud®(※)を適

用したソリューション「リアルタイム集計・分析」についてまとめたものです。さまざまな企業、組織において情報

システムの企画・構築に携わる方々を読者として想定しています。

(※)クラウド環境でビッグデータの利活用に最適な先端テクノロジーを提供するソリューション群。

概要

企業が扱う情報は、年々増加の一途をたどり、まさにビッグデータ時代が到来しています。大量

に流れる情報から、本当に有効なデータを適切かつリアルタイムに把握できるかどうかが企業に

おける重要な課題となっています。今まさに、ビッグデータの活用方法を検討し始めた企業も多

く、ビジネス革新への可能性を秘めています。

本ホワイトペーパーは、増加し続けるビックデータを扱うために最適な先端テクノロジーを集結さ

せた vRAMcloud®により、

・ リアルタイム情報を分析、集計することによる最新状況把握

・ 対障害性を高める多段デュアル構成で動的データリバランスを実施

・ 一時的なデータ処理量増加時でもデータロストをさせない負荷平準化

が可能なリアルタイム集計・分析について、その特徴を記述します。

実機検証では、リアルタイム情報集計で 10,000tps を実現しています。物理マシンわずか2台で

すが、オープンプラットフォーム(Linux PC)での計測で、高コストパフォーマンスを実現しながら、

発生したデータをリアルタイムに解析できるリアルタイム集計・分析をご紹介します。

目次

はじめに .......................................................................................................................................................................... 1

リアルタイム集計・分析の狙い ............................................................................................................................... 2

vRAMcloud®の狙い .............................................................................................................................................. 2

リアルタイム集計・分析の狙いと実現の考え方 ............................................................................................ 2

目指すべき方向性 ............................................................................................................................................... 3

スケーラビリティ ..................................................................................................................................................... 3

実機検証結果 ............................................................................................................................................................ 4

検証概要 ................................................................................................................................................................. 4

検証環境 ................................................................................................................................................................. 5

検証方法 ................................................................................................................................................................. 6

検証結果 ................................................................................................................................................................. 6

サービス提供形態 .................................................................................................................................................... 8

リアルタイム情報収集、分析 .............................................................................................................................. 8

ソリューションメニュー .......................................................................................................................................... 8

まとめ及び今後の課題 ............................................................................................................................................ 9

まとめ ........................................................................................................................................................................ 9

今後の計画 ............................................................................................................................................................ 9

1

はじめに

近年、企業活動を支える情報システムでは、リアルタイム情報を効率的に扱い、ビックデータに対処できるこ

とが競争優位に欠かせない要件となりつつあります。なぜなら、ネットワーク上を無数に流れるリアルタイム情報

を効率的に収集・集計・分析することで、今までと違う消費者動向の把握や商品開発のアイデアが得られること

に、多くの企業が気づき始めたからです。

例えば金融分野では、時々刻々と変わる株価や為替情報などにもとづいてコンピュータが売買のタイミング

を自動的に判断するアルゴリズムトレードが行われています。また、私設取引所(PTS)では、売り注文と買い注

文のマッチング処理がリアルタイムに行われています。

社会インフラ分野でも、電力消費量把握が検針盤からスマートグリッドへと変わることにより、自家発電や蓄

電など、発電の最適化を含めたスマートシティ構想が出てきています。

産業分野でも、素材系製造業のように製造過程で得られる温度・圧力・水量などのリアルタイム情報を処理

し、商品の品質を一定に保つ取り組みが行われています。

さらに、ブログや Twitter、SNS といった個人からの情報発信も膨大な量となっており、これら増加し続ける情

報をいかに適切に収集・集計・分析できるかが、高付加価値な商品開発やサービス提供による企業の競争優

位性に直結する時代となっているのです。

本ホワイトペーパーでは、日立のリアルタイム集計・分析を適用した実機検証の結果をとおして、高い集計処

理性能や耐障害性の確保といった、本ソリューションの優位性をご紹介していきます。

2

リアルタイム集計・分析の狙い

vRAMcloud®の狙い

分散処理技術、仮想化技術は、黎明期から成熟期へと移ってきています。

vRAMcloud®は、企業に増加し続けるビックデータを扱うために最適な先端テクノロジーを集結させたソリュー

ション群です。ビッグデータを“個単位”にとらえ、リアルタイム分析から将来の予想や、KPI(Key Performance

Indicator)評価までをソリューション対象としています。

図 1 vRAMcloud コンセプト図

リアルタイム集計・分析の狙いと実現の考え方

新商品・サービスの販売開始時や経済指標の動きに連動した有価証券の売買などでは、急激なサーバ負

荷の発生で受付できない状態になることがあります。こうした事態を避けるため、従来はピーク値を想定したシ

ステム構成設計を行います。しかし、ピーク時以外には遊休資産となり、余分なシステム投資が発生していま

す。

そこで有効な解決策となるのがリアルタイム集計・分析です。本ソリューションの適用により、情報量が事前に

設定した一定流量を越えると、動的に仮想マシンを立ち上げ、個々のサーバ処理負荷を平準化し、急激な情

報量の増加にも柔軟に対応するシステム基盤を構築できます。

ビッグデータを“個(人、モノ)”単位に捉え、企業オペレーションを加速

SNS スマートフォン センサーATMタブレット ECサイト

“人”の発信

A部門 B部門 C部門

“モノ”の発信 “企業” データ

リアルタイム分析 現状・過去分析 過去一括分析

履歴データ

企業オペレーション(“将来予測”)

履歴分析・パターン発見

カード利用停止

リコメンド金融商品

モバイル通知

口座振替一時停止

自動取引SNS

メッセージ

連携

パターン反映

“データ”をつなぎ、“分析エンジン”をつなぐ

ストリーム 分散キャッシュ Hadoop RDB

分析エンジン

3

目指すべき方向性

リアルタイム集計・分析の適用により、今まで捨てていた価値あるリアルタイム情報を収集・集計・分析し、“今”

をつかんだ瞬発力のある事業オペレーションが可能となります。

社会情勢の変化によって取引量が急増するなど、予期せぬデータ爆発が起こった場合でも、流量をリアルタ

イムに把握し、仮想マシンの動的な増加を実現することにより、集計・分析業務を停滞させることはありません。

つまり、企業活動の継続と、詳細な状況分析による適切な事業オペレーションの遂行が可能となります。

スケーラビリティ

リアルタイム集計・分析では、情報の流量が事前設定したしきい値を超えた場合、サービス処理時間中でも自

動的にスケールアウトしてデータの平準化を行うことが可能です。各サーバは、安価な PC サーバを中心に構

成できます。データの保持は、分散キャッシュ処理を適用しメモリ上にあるものの、異なる物理マシンに二重化、

三重化配置も可能なため、拡張性に富み、耐障害性が高いシステムを低コストに構築できます。

図 2 ノード追加時のデータリバランス機能

ノード追加

POS情報受付サーバ

Distributed Cache

・・

・・

ノード追加

Distributed Cache

・・

・・

・・

口座数 : 3000口座

1ノードあたり口座数

1,500口座

口座数 : 3000口座

1ノードあたり口座数

1,000口座

分散キー:販売店コード

コマンド実行により、データを追加ノードに振分け、自動再配置(オン処理中に実行可能)

データ平準化

データの一部を振分け

POS情報受付サーバ

4

実機検証結果

検証概要

商品販売情報(POS:Point Of Sale system)を例に、リアルタイム集計・分析の実機検証を実施しました。

図 3 システム概要図

本検証モデルは、全国に散らばった販売店から POS 情報をリアルタイムで収集し、集計・分析を実施しまし

た。大量に送信される POS 情報をもとに、商品毎・地域毎の売れ筋情報や、顧客属性別の売れ筋情報の把握

を行いました。また、新商品販売やテレビ番組での紹介など売れ行きが急激に増加することも想定し、POS 情

報件数を急激に増加させ検証しました。

本検証モデルは、各販売店から送付される大量の POS 情報に対して、受付部に分散キャッシュ技術を、ま

た集計部分に CEP を適用しています。

店舗X

商品C売上明細商品B売上明細

顧客

購買POS情報受付・売れ筋商品確認 集計 分析

エリア

店舗別情報受付(2重化)

0

東京 神奈川

千葉

A B C D E F

商品A

商品B

商品C

商品D

商品E

集計表

商品名

100個

30個

20個

10個

8個

売上数

13,000

9,000

4,000

5,000

8,000

売上高

30

50

60

30

2

在庫数

店舗別集計処理

POS情報秒間 4,000tps

CEP

分散キャッシュ

●POS情報受付処理を分散キャッシュ、リアルタイム集計処理をCEPと適材適所に配置

●PCサーバ5台(18VM)で、POS受付4,000tps /集計40,000tps の高スループットを実現

●オン中無停止でのシステム構成の伸縮、CEPも含めたデュアル構成を実現

状況に応じてオンライン中にシステム無停止でスケールアウト・イン

集計処理秒間 40,000tps

本部

レジ

売上高

商品A売上明細

店舗A

5

デモ1構成

デモ2構成

1VM

1VM

4VM

8VM

4VM

8VM

2VM

2VM

1VM

1VM

マシンルーム■ BS320のスペック【CPU】

Xeon L5630(2.13GHz)8core(4core×2)

【メモリ】32GB(8GB×4)

【LAN】1Gbps

BS320

Webサーバ

口座管理サーバ

1次集計サーバ

2次集計サーバ

PC

・・・

2コア8GB

2コア8GB

2コア8GB

2コア8GB

シミュレータ

2コア8GB

・・・・・・

仮想化

検証環境

本検証における各マシンの役割及びサーバ環境を以下に示します。本実機検証では、スケーラビリティ、耐障

害性について検証を行いました。

ハードウェア構成、ソフトウェア構成は以下の通りです。図4におけるデモ 1 構成は、初期性能測定用、デモ 2

構成はスケールアウト、耐障害性テスト用の構成になります。

図 4 ハードウェア構成図

表 1 ハードウェア構成一覧

# 項番 ハードウェア 員数 備考

1 ブレードサーバ BladeSymphony320 5

2 CPU Xeon L5630(2.13GHz,4Core,12MB) 2 1 台あたり 8Core

3 メモリ DDR3 8GB 4 1 台あたり 32GB

4 ディスク 147GB(SAS10,000rpm) 2

5 ネットワーク 1Gbps 1

6 共有ディスク BR20 146GB(SAS 10,000rpm) 6

ソフトウェア構成

図 5 ソフトウェア構成図

Cacheサーバ

RedHat Enterprise Linux 5.3 Advanced Platform

VMware vSphere ESXi4.1

GemFire Enterprise 6.5

WebAPサーバ

RedHat Enterprise Linux 5.3 Advanced Platform

VMware vSphere ESXi4.1

Apache Tomcat

Google Web ToolkitGemFireClient

6

検証方法

測定方法は、販売店からの送信にかわりオープンソースの負荷ツールである「Jmeter 2.4」を使用し、POS 情

報の送信・受付と、集計・分析を行いました。負荷状況に変化を加え、急激な POS 情報増加時のスケーラビリ

ティの確認、障害時の切替え時間の検証を行いました。

また、負荷テストを実施中にマシン(ノード)の動的追加、データのリバランスを実施しました。

検証結果

スケールアップする前の初期構成として、物理マシン 2 台構成(Linux PC)10 仮想マシン(VM)で実測していま

す。性能は、仮想クライアントから 1,000 tpsの負荷をかけた場合で、地域別・商品別 POS集計をリアルタイムに

10,000 tps行うことができました。販売店から送受信される POS 情報は、複数商品の購入情報であるため、1 回

あたりの購入点数を、最大 10 件含まれるという想定のもと、集計処理の性能を評価しています。

図 6 集計トランザクション秒間処理件数

初期構成で処理できる 10,000tps以上の負荷をかけ処理負荷が上がると、分散キャッシュ及び CEP がスケ

ールアウトすることで、各サーバ当たりの負荷が平準化されていきます。これにより負荷増加時にも、システムを

止めることなくオンライン処理中にスケールアウトが可能であることを確認しました。

スケールアウトに伴い、データのリバランスを実施するため、レスポンスにも影響を与えませんでした。実機検

証では、物理マシン 5台構成 18VMにスケールアウトし、処理負荷を増加させても、レスポンスを低下させること

なく、約 4,000tps(図 7)の POS 情報受付・登録処理と約 40,000tps(図 6)の地域別・商品別集計処理が可能と

なりました。

0

5,000

10,000

15,000

20,000

25,000

30,000

35,000

40,000

45,000

50,000

22:1

1:47

22:1

1:50

22:1

1:53

22:1

1:56

22:1

1:59

22:1

2:02

22:1

2:05

22:1

2:08

22:1

2:11

22:1

2:14

22:1

2:17

22:1

2:20

22:1

2:23

22:1

2:26

22:1

2:29

22:1

2:32

22:1

2:35

22:1

2:38

22:1

2:41

22:1

2:44

22:1

2:47

22:1

2:50

22:1

2:53

22:1

2:56

22:1

2:59

22:1

3:02

22:1

3:05

22:1

3:08

22:1

3:11

22:1

3:14

22:1

3:17

22:1

3:20

22:1

3:23

22:1

3:26

22:1

3:29

22:1

3:32

22:1

3:35

22:1

3:38

22:1

3:41

22:1

3:44

22:1

3:47

22:1

3:50

22:1

3:53

22:1

3:56

22:1

3:59

処理

件数

[ tps

]

time [ sec ]

集計トランザクション秒間処理件数

throughtput(tps)

平均約 40,000tps

7

図 7 情報登録負荷の変動時におけるレイテンシーおよびスループット

耐障害性についての検証では、集計結果を参照する端末が障害の発生した仮想マシンにアクセスしていて

も、自動的にアクセス先を稼動している仮想マシンに切替えることで、サーバ障害を意識することなく処理継続

が可能でした。障害が発生した仮想マシンから他仮想マシンへの切り替えは、約 3 秒で実現できることを確認

しました(図 8)。その間の登録情報等、ユーザの操作内容もロストすることはありません。この切り替えはシステ

ムが自動的に実施するため、ユーザは全く意識することはありません。

システム的には、1 台少ない状態で稼動するため、処理性能が足らなくなることが想定できます。この場合は、

スケールアウトを適用し、自動的に仮想マシンの追加およびデータリバランスを実現し、負荷の平準化を行うこ

ととなります。

図 8 切り替え時における、生存ノード数の変遷と更新スループットの状況

12.0%

19.1%

28.8%

42.3%

59.1%

68.5%

75.2%

79.7%

2.3 2.5 3.1 3.9 5.9 8.9 16 29.7

432

808

1336

2080

2928

3720

4072

4392

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

1 4 8 16 32 64 128 256

Num Of Client Thread

vRAMcloud POC [Real Time Summary]Latency & ThroughtPut with 8 Cache Servers

CPU Usage of Cache Server [%] Order Latency from Client [msec] Order ThroughtPut from Client [tps]

16.416.616.8

1717.217.417.617.8

1818.2

22:4

5:20

22:4

5:21

22:4

5:22

22:4

5:23

22:4

5:24

22:4

5:25

22:4

5:26

22:4

5:27

22:4

5:28

22:4

5:29

22:4

5:30

22:4

5:31

22:4

5:32

22:4

5:33

22:4

5:34

22:4

5:35

22:4

5:36

22:4

5:37

22:4

5:38

22:4

5:39

22:4

5:40

22:4

5:41

22:4

5:42

22:4

5:43

22:4

5:44

生存ノード数

生存ノード数

0

1000

2000

3000

4000

5000

6000

22:4

5:20

22:4

5:21

22:4

5:22

22:4

5:23

22:4

5:24

22:4

5:25

22:4

5:26

22:4

5:27

22:4

5:28

22:4

5:29

22:4

5:30

22:4

5:31

22:4

5:32

22:4

5:33

22:4

5:34

22:4

5:35

22:4

5:36

22:4

5:37

22:4

5:38

22:4

5:39

22:4

5:40

22:4

5:41

22:4

5:42

22:4

5:43

22:4

5:44

更新スループット

更新スループット

物理マシン 5 台(18VM)における 情報受付・登録処理のスループット&レイテンシ

8

サービス提供形態

リアルタイム集計・分析は、プライベートクラウドとしてご提供するソリューションです。お客様の大量処理や大

量集計といった業務ニーズに合わせて設計します。構築・導入期間を短縮できるフレームワークなどを用意し

ておりますので、通常のスクラッチ開発の2分の1程度の工数・期間で実現可能です。また、安価な PC サーバ

を使ったスケールアウト構成が可能なため、ハードウェアの投資コストを最小限に抑えられ、弊社の試算では

1/10 となったケースもあります。

リアルタイム情報収集、分析

大量に発生するリアルタイムデータを活用して、"今“を把握する事業オペレーションを実機検証しました。バ

ッチ処理にて一定期間後の状況から未来を予測するのではなく、今の情報と過去の傾向から近未来予想をた

て、”先手“での事業オペレーションが可能となります。

今回実施した、販売店毎の POS 情報集計・分析処理のみではなく、他分野の例を挙げリアルタイム情報収

集・分析の有用性を検討します。たとえば、素材系製造業であるガラス・レンズ、セラミックス、半導体、ゴムなど

の製造機器からは、時々刻々と大量の情報が発生します。これらの情報をリアルタイムに集計・分析することで、

温度や圧力などを常に把握し最適な数値に制御でき、一定品質を確保することが可能となります。

リアルタイム性が必要である適用分野で、上記現業処理のようにシステムダウンが許されない分野には信頼

性が必須です。vRAMcloud®は、システム構成を 2 重化、3 重化あるいはデュアル構成が可能であり、メインフレ

ームで実現していた信頼性と同等な信頼性を PC サーバ群で実現できた事例もあります。

さらに、vRAMcloud®は、DR 対応機能が組み込まれており、追加ソフトウェアを必要とせず必要な情報をバッ

クアップサイトに転送できるソリューションとなっています。バックアップサイトをコマンド 1 つで本番サイトに切替

えることが可能で、耐障害性を高く保てるように実現しています。

ソリューションメニュー

日立から御提供させていただくソリューションメニューは以下のようになります。

表 2 vRAMcloud ソリューションメニュー一覧

# メニュー 概要 費用 備考

1 導入診断

コンサルテーション

ソリューション導入可否、及び費用対効果

の算定

個別見積

2 導入コンサルテーション リアルタイム集計・分析導入支援(要件定

義、カスタマイズ実施)

個別見積

3 システムインテグレーション リアルタイム集計・分析と連携が必要な既

存業務システム連携を含め、高品質システ

ム開発を支援

個別見積

4 既存システムマイグレーショ

リアルタイム集計・分析の適用に際し、既

存システムのマイグレーションを支援

個別見積

9

まとめ及び今後の課題

リアルタイム集計・分析は、大量に発生する情報を効率的に収集する分散キャッシュ技術と、収集した情報

をリアルタイムに集計・分析する CEP を組み合わせることにより、リアルタイムに流れるビッグデータ活用を実現

するソリューションとなります。

分散キャッシュをスケーラブルに拡張させることで、急激なデータ処理量増加にも迅速に対応できます。また、

増加させた分散キャッシュに対応する CEP を配することで、レスポンスを低下させない集計・分析が可能です。

さらに、信頼性を高めたソリューションとしてシステム構成をご提供することも可能です。

まとめ

リアルタイム集計・分析は、急激なデータの増減にも対応できる、リアルタイムデータ処理を実現するソリュー

ションです。多数存在する販売店の POS 情報を瞬時に集計・分析を行うことが可能です。

実機検証では、仮想マシン18台(実ノードは PC サーバ5台)で、約 4,000tpsの要求を並行処理できることを

確認しました。特に、POS情報を商品別に分解する設定では、約 40,000tpsの集計・分析処理をリアルタイムに

実行できました。

本ソリューションの適用により、大量の入力情報を瞬時に集計・解析することが可能となります。

さらに、vRAMcloud®が提供可能な BA(Business Analytics)を実現する類推エンジン(統計情報解析や、テキ

スト解析等)と連携させることにより、異常値の発見や統計解析がリアルタイムに可能となります。

これら、リアルタイムの情報と蓄積された過去情報を対比することにより、新たな仮説に基づく施策の検討が

実現でき、企業の競争優位をもたらせます。

今後の計画

今後、リアルタイム集計・分析は、分析エンジン(開発中)と組み合わせ DWH(Data WareHouse)機能を拡張

していく計画です。リアルタイムあるいは、準リアルのような日中発生した情報は、リアルタイム集計・分析で扱

い、それ以降の蓄積系データについては、ビッグデータ分析によって、情報をさまざまな角度から分析できるよ

うになります。

以上