Upload
kensuke-saeki
View
1.249
Download
3
Embed Size (px)
DESCRIPTION
「日本JasperServerユーザ会(JJSUG)第7回勉強会」「分析用DB Ingres VectorWiseについて(野田)」の資料です。
Citation preview
Ingres VectorWiseTechnical Overview – 21 Jun 2011
アジェンダ
© 2010 Ingres Corporation Slide 2
Ingres VectorWise
とは?
Ingres VectorWise
の特徴
Ingres VectorWise
の技術Q & A
Ingres VectorWise とは?
分析・解析用のリレーショナル・データベース– 分析のための問合せが他の RDBMS より高速– 最近の CPU の持つ能力を最大限発揮– 安価な汎用サーバーで動作
© 2010 Ingres Corporation Slide 3
10倍 – 70倍の性能向上
Ingres VectorWise アーキテクチャ
© 2010 Ingres Corporation Slide 4
ERP
CRM
SCM
レガシー
OLTP
ET
L企業向け
データウェアハウス
データマート
BI、レポートアプリケーション
分析DB
エンドユーザ
アドホック検索ダッシュボード
統計データマイニング
分析
Ingres VectorWise の特徴
特徴– 最近の CPU が持つ機能をフルに活用
• 自動的なベクトル処理で解凍、結合、計算• CPU のキャッシュを RAM として使用
– 更新可能なカラム毎の格納方式 実証されている技術
– カラム毎の格納方式– 自動的な圧縮– 自動的な格納インデックス
© 2010 Ingres Corporation Slide 5
Ingres VectorWise データ処理の比較
© 2010 Ingres Corporation Slide 6
O 社 DBMS (行ごと格納) 200 MB/s – コアあたりのデータ処理スループット。 CPU に依存。(http://download.oracle.com/docs/cd/E11882_01/server.112/e10578/tdpdw_system.htm#CHDHAEGE)H 社 DBMS (行ごと格納) 150 MB/s – コアあたりのデータ処理スループット。(http://www.wintercorp.com/whitepapers/whitepapers.asp)Ingres VectorWise (カラム毎の格納) 1.5 GB/s – コアあたりのデータ処理スループット。
O 社 H 社 Ingres VectorWise0
200
400
600
800
1000
1200
1400
1600
CPU コアあたりのデータ処理スループット
MB
/S
データ処理性能の例
検索条件 O 社 H 社 Ingres VectorWise
アーキテクチャ(行/カラム) 行 行 カラム
データをスキャンする量 (GB) 100 100 (0.2 * 100 =) 20
コアあたりの処理 (MB/s) 200 150 1500
検索時間(秒)並列処理なし 500 667 13
13 秒で処理するために必要なコア数 * 38 51 1
© 2010 Ingres Corporation Slide 7
シナリオ – 1 テーブルでカラムが 10 あり、各カラムは、テーブル
の 1/10 のサイズ– テーブルサイズは、 100GB
select <c1>, sum <c2> from <table> group by <c1>
* リニアーなスケーラビリティを仮定
高速化で、より良い分析
即時にインタラクティブにデータを分析– 時間をかかるデータ準備作業が不要
より多くのデータを分析 よりデータを活用
– より多くのユーザがデータを分析– より多くのアプリケーションからデータをアクセス
© 2010 Ingres Corporation Slide 8
より廉価なコストで高速に結果
高速なデータベース設計– 特別なエキスパートがスキーマを設計する必要なし– インデックス設計やマテリアライズドビュー、投影など
が必要なし 継続的なチューニングが不要 安価な x86 ベースの汎用サーバー・ PC で動作
– 1 CPU で 20CPU 以上の作業をこなす– 単一のサーバで複雑な複数ノードのクラスターを超える
• 運用や空調のエネルギー使用・コストを低減• メンテナンスコストを低減し、故障も少なくなる
© 2010 Ingres Corporation Slide 9
Ingres VectorWise の実績
The Rohatyn Group : ニューヨークにあるヘッジファンド企業( http://www.ingres.com/images/success_stories/success_story_rohatyn_group.pdf )
イギリスにあるトップクラスの銀行 イギリスにあるトップクラスの大学 ニューヨークにある B2C の E コマース企業 カナダにある電話会社 ポーランドにあるソーシャルネットワークサービス企業 フィリピンにある政府系金融企業 オーストラリアにある航空会社
© 2010 Ingres Corporation Slide 11
2011/3 時点
Ingres Supports 10,000+ Clients Globally
© 2010 Ingres Corporation Slide 12
Ingres VectorWise の技術
© 2010 Ingres Corporation Slide 13
自動的にベクトル処理を活用
単一の命令で、何個ものデータを処理
© 2010 Ingres Corporation Slide 14
Many V’s
1
=
1 x 1 = 1
2 x 2 = 4
3 x 3 = 9
4 x 4 = 16
5 x 5 = 25
6 x 6 = 36
7 x 7 = 49
8 x 8 = 64
.
.
.
n x n = n2
1 x 1
2 x 2
3 x 3
4 x 4
5 x 5
6 x 6
7 x 7
8 x 8
.
.
.
n x n
1
4
9
16
25
36
49
64
.
.
.
n2
SSE (ストリーミング SIMD 拡張命令)16 個の 128bit のレジスタ (Intel Sandy Bridge は 256bit)* 32bit float * 4* 16bit integer * 8* 8bit byte/char * 16 etc.*加減算、積除算、比較、最大最小など*文字列の処理で SSE4.2 が効果大 ( GROUP BY や LIKE など)
SSE2 は Pentium 4, AMD64 以降SSE3 は後期 Pentium 4, 後期 Athlon64 以降SSE4 は後期 Core2 以降
CPU キャッシュ内で処理
CPU キャッシュのアクセスは、 RAM より非常に高速 すべてのベクトルが CPU キャッシュ内に収まるように
問合せの実行プランを作成
© 2010 Ingres Corporation Slide 15
Tim
e / C
ycle
s t
o P
roce
ss
Data Processed
DISK
RAM
CHIP
10GB2-3GB40-100MB
2-2
01
50-
25
0M
illio
ns
アクセスタイム
転送スピード(毎秒)
DISK 10-15ms 40-100MB
RAM 150-200ns 2-3GB
Cache 2-20ns 10GB
CPU キャッシュサイズ
Xeon 512KB/1-2MB
Xeon 50X0 4MB
Xeon 33X0 8 – 12MB
Xeon 75XX 12 – 24MB
更新可能なカラム毎の格納方式 必要なデータだけにアクセス 効率的な”増分更新”が可能
– 以前のカラム毎の格納方式では、弱点だった
© 2010 Ingres Corporation Slide 16
Cust_Num Cust_surname
Cust_first_name
Cust_mid_name
Cust_DOB Cust_Sex Cust_Add_1 Cust_Addr_2 Cust_City Cust_State
46328927956 Jones Steven Sean 17-JAN-1971 M 333 StKilda Rd
Melbourne Vic
98679975745 Smith Leonard Patrick 04-APR-1964 M Unit 12, 147 Trafalgar Sqr
Birmingham London
52634346735 Rogers Cindy Carmine 11-MAR-1980 F Belmont Rail Service
421 Station St Belmont CA
346737347347 Andrews Jenny 14-SEP-1977 F Apt1, 117 West 42nd St
New York NY
88673477347 Cooper Sheldon Michael 30-JUN-1980 M Ingres Corporation
Level 2, 426 Argello St
Redwood City CA
34673447568 Kollwitz Rolf 22-DEC-1975 M IBM Headquarters
123 Mount View Crs
Atlantic City PN
99554443044 Wong Penny Lee 13-NOV-1981 F Ming On Tower 1
1777 Moa Tzu Tung Rd
Ming Now Province
Shanghi
自動的な圧縮と解凍
複数のアルゴリズムを使ってカラム毎に圧縮– 最適なものを Ingres VectorWise が自動的に使用
解凍はベクトル処理– CPU キャッシュ中でデータ処理
© 2010 Ingres Corporation Slide 17
RAM
カラムバッファ
管理
Disk
カラ
ム
CPU
キャッシュ
解凍
RAM への書き込み・読み込みを削減
I/O スループットを最大化
CPU キャッシュ中に解凍し格納
自動的な最小値 / 最大値の作成
いつでも自動的に作成 自動的にメンテナンス データブロックごとに、最小値 / 最大値を維持
– 小さく、読み込みも速い(カラムサイズの 0.1% 以下)
候補となるデータブロックを効率よく見つけることが可能になる
© 2010 Ingres Corporation Slide 18
TPC-H ベンチマーク
性能で Ingres VectorWise が Non Clustered で NO. 1 (2011/6/15 現在 )– 303,290 QphH@100GB – 400,932 QphH@300GB– 436,789 QphH@1000GB
コストパフォーマンスで Ingres VectorWise が Non Clustered でNo. 1 (2011/6/15 現在 )– 0.16 USD per QphH@100GB– 0.35 USD per QphH@300GB– 0.88 USD per QphH@1000GB
© 2010 Ingres Corporation Slide 19
TPC-H ベンチマークとは( http://www.tpc.org より引用)The TPC Benchmark™H (TPC-H) is a decision support benchmark. It consists of a suite of business oriented ad-hoc queries and concurrent data modifications. The queries and the data populating the database have been chosen to have broad industry-wide relevance. This benchmark illustrates decision support systems that examine large volumes of data, execute queries with a high degree of complexity, and give answers to critical business questions.
TPC-H ベンチマーク比較
© 2010 Ingres Corporation Slide 20
Slide 21