Vector wise presen

Ingres VectorWiseTechnical Overview – 21 Jun 2011

アジェンダ

© 2010 Ingres Corporation Slide 2

Ingres VectorWise

とは？

Ingres VectorWise

の特徴

Ingres VectorWise

の技術Q ＆ A

Ingres VectorWise とは？

分析・解析用のリレーショナル・データベース– 分析のための問合せが他の RDBMS より高速– 最近の CPU の持つ能力を最大限発揮– 安価な汎用サーバーで動作


10倍 – 70倍の性能向上

Ingres VectorWise アーキテクチャ


ERP

CRM

SCM

レガシー

OLTP

ET

L企業向け

データウェアハウス

データマート

BI、レポートアプリケーション

分析DB

エンドユーザ

アドホック検索ダッシュボード

統計データマイニング

分析

Ingres VectorWise の特徴

特徴– 最近の CPU が持つ機能をフルに活用

• 自動的なベクトル処理で解凍、結合、計算• CPU のキャッシュを RAM として使用

– 更新可能なカラム毎の格納方式実証されている技術

– カラム毎の格納方式– 自動的な圧縮– 自動的な格納インデックス


Ingres VectorWise データ処理の比較


O 社 DBMS （行ごと格納） 200 MB/s – コアあたりのデータ処理スループット。 CPU に依存。(http://download.oracle.com/docs/cd/E11882_01/server.112/e10578/tdpdw_system.htm#CHDHAEGE)H 社 DBMS （行ごと格納） 150 MB/s – コアあたりのデータ処理スループット。(http://www.wintercorp.com/whitepapers/whitepapers.asp)Ingres VectorWise （カラム毎の格納） 1.5 GB/s – コアあたりのデータ処理スループット。

O 社 H 社 Ingres VectorWise0

200

400

600

800

1000

1200

1400

1600

CPU コアあたりのデータ処理スループット

MB

/S

http://download.oracle.com/docs/cd/E11882_01/server.112/e10578/tdpdw_system.htm#CHDHAEGE

http://www.wintercorp.com/whitepapers/whitepapers.asp

データ処理性能の例

検索条件 O 社 H 社 Ingres VectorWise

アーキテクチャ（行／カラム）行行カラム

データをスキャンする量 (GB) 100 100 (0.2 * 100 =) 20

コアあたりの処理 (MB/s) 200 150 1500

検索時間（秒）並列処理なし 500 667 13

13 秒で処理するために必要なコア数 * 38 51 1


シナリオ – 1 テーブルでカラムが 10 あり、各カラムは、テーブル

の 1/10 のサイズ– テーブルサイズは、 100GB

select <c1>, sum <c2> from <table> group by <c1>

* リニアーなスケーラビリティを仮定

高速化で、より良い分析

即時にインタラクティブにデータを分析– 時間をかかるデータ準備作業が不要

より多くのデータを分析よりデータを活用

– より多くのユーザがデータを分析– より多くのアプリケーションからデータをアクセス


より廉価なコストで高速に結果

高速なデータベース設計– 特別なエキスパートがスキーマを設計する必要なし– インデックス設計やマテリアライズドビュー、投影など

が必要なし継続的なチューニングが不要安価な x86 ベースの汎用サーバー・ PC で動作

– 1 CPU で 20CPU 以上の作業をこなす– 単一のサーバで複雑な複数ノードのクラスターを超える

• 運用や空調のエネルギー使用・コストを低減• メンテナンスコストを低減し、故障も少なくなる


Ingres Business Intelligence Partners


http://www.pentaho.com/

Ingres VectorWise の実績

The Rohatyn Group : ニューヨークにあるヘッジファンド企業（ http://www.ingres.com/images/success_stories/success_story_rohatyn_group.pdf ）

イギリスにあるトップクラスの銀行イギリスにあるトップクラスの大学ニューヨークにある B2C の E コマース企業カナダにある電話会社ポーランドにあるソーシャルネットワークサービス企業フィリピンにある政府系金融企業オーストラリアにある航空会社


2011/3 時点

Ingres Supports 10,000+ Clients Globally


http://www.3m.com/

http://corporateportal.ppg.com/ppg



http://images.google.com/imgres?imgurl=http://klabs.org/richcontent/MAPLDCon03/logos/bae_systems_logo.jpeg&imgrefurl=http://klabs.org/richcontent/MAPLDCon03/Industrial_Exhibits.htm&h=180&w=1143&sz=58&hl=en&start=2&tbnid=aoJJA7zSDUaTFM:&tbnh=24&tbnw=150&prev=/images?q=bae+systems+logo&gbv=2&svnum=10&hl=en

http://www.sncf.fr/en_EN/html/

http://www.kcom.com/

http://www.ingres.com/customers/cs-workflowone.php

http://www.rwe.com/generator.aspx/rwe-systems-icw/language=de/id=148400/systems-home.html

Ingres VectorWise の技術


自動的にベクトル処理を活用

単一の命令で、何個ものデータを処理


Many V’s

1

=

1 x 1 = 1

2 x 2 = 4

3 x 3 = 9

4 x 4 = 16

5 x 5 = 25

6 x 6 = 36

7 x 7 = 49

8 x 8 = 64

.

.

.

n x n = n2

1 x 1

2 x 2

3 x 3

4 x 4

5 x 5

6 x 6

7 x 7

8 x 8

.

.

.

n x n

1

4

9

16

25

36

49

64

.

.

.

n2

SSE （ストリーミング SIMD 拡張命令）16 個の 128bit のレジスタ (Intel Sandy Bridge は 256bit)＊ 32bit float * 4＊ 16bit integer * 8＊ 8bit byte/char * 16 etc.＊加減算、積除算、比較、最大最小など＊文字列の処理で SSE4.2 が効果大（ GROUP BY や LIKE など）

SSE2 は Pentium 4, AMD64 以降SSE3 は後期 Pentium 4, 後期 Athlon64 以降SSE4 は後期 Core2 以降

CPU キャッシュ内で処理

CPU キャッシュのアクセスは、 RAM より非常に高速すべてのベクトルが CPU キャッシュ内に収まるように

問合せの実行プランを作成


Tim

e / C

ycle

s t

o P

roce

ss

Data Processed

DISK

RAM

CHIP

10GB2-3GB40-100MB

2-2

01

50-

25

0M

illio

ns

アクセスタイム

転送スピード（毎秒）

DISK 10-15ms 40-100MB

RAM 150-200ns 2-3GB

Cache 2-20ns 10GB

CPU キャッシュサイズ

Xeon 512KB/1-2MB

Xeon 50X0 4MB

Xeon 33X0 8 – 12MB

Xeon 75XX 12 – 24MB

更新可能なカラム毎の格納方式必要なデータだけにアクセス効率的な”増分更新”が可能

– 以前のカラム毎の格納方式では、弱点だった


Cust_Num Cust_surname

Cust_first_name

Cust_mid_name

Cust_DOB Cust_Sex Cust_Add_1 Cust_Addr_2 Cust_City Cust_State

46328927956 Jones Steven Sean 17-JAN-1971 M 333 StKilda Rd

Melbourne Vic

98679975745 Smith Leonard Patrick 04-APR-1964 M Unit 12, 147 Trafalgar Sqr

Birmingham London

52634346735 Rogers Cindy Carmine 11-MAR-1980 F Belmont Rail Service

421 Station St Belmont CA

346737347347 Andrews Jenny 14-SEP-1977 F Apt1, 117 West 42nd St

New York NY

88673477347 Cooper Sheldon Michael 30-JUN-1980 M Ingres Corporation

Level 2, 426 Argello St

Redwood City CA

34673447568 Kollwitz Rolf 22-DEC-1975 M IBM Headquarters

123 Mount View Crs

Atlantic City PN

99554443044 Wong Penny Lee 13-NOV-1981 F Ming On Tower 1

1777 Moa Tzu Tung Rd

Ming Now Province

Shanghi

自動的な圧縮と解凍

複数のアルゴリズムを使ってカラム毎に圧縮– 最適なものを Ingres VectorWise が自動的に使用

解凍はベクトル処理– CPU キャッシュ中でデータ処理


RAM

カラムバッファ

管理

Disk

カラ

ム

CPU

キャッシュ

解凍

RAM への書き込み・読み込みを削減

I/O スループットを最大化

CPU キャッシュ中に解凍し格納

自動的な最小値 / 最大値の作成

いつでも自動的に作成自動的にメンテナンスデータブロックごとに、最小値 / 最大値を維持

– 小さく、読み込みも速い（カラムサイズの 0.1% 以下）

候補となるデータブロックを効率よく見つけることが可能になる


TPC-H ベンチマーク

性能で Ingres VectorWise が Non Clustered で NO. 1 (2011/6/15 現在 )– 303,290 QphH@100GB – 400,932 QphH@300GB– 436,789 QphH@1000GB

コストパフォーマンスで Ingres VectorWise が Non Clustered でNo. 1 (2011/6/15 現在 )– 0.16 USD per QphH@100GB– 0.35 USD per QphH@300GB– 0.88 USD per QphH@1000GB


TPC-H ベンチマークとは（ http://www.tpc.org より引用）The TPC Benchmark™H (TPC-H) is a decision support benchmark. It consists of a suite of business oriented ad-hoc queries and concurrent data modifications. The queries and the data populating the database have been chosen to have broad industry-wide relevance. This benchmark illustrates decision support systems that examine large volumes of data, execute queries with a high degree of complexity, and give answers to critical business questions.

TPC-H ベンチマーク比較


Slide 21

Technology

Vector wise presen