35
RedshiftDWHだけじゃない - 導入したいけど高いとお思いのあなたへ -

RedshiftはDWHだけじゃない

Embed Size (px)

DESCRIPTION

JAWS Festa Kansai2013のLTで発表した資料です。 Redshiftは高い買い物ですが、DHW意外の使い方もありますよという話。

Citation preview

Page 1: RedshiftはDWHだけじゃない

RedshiftはDWHだけじゃない- 導入したいけど高いとお思いのあなたへ -

Page 2: RedshiftはDWHだけじゃない

星野 豊 (@con_mame)

クックパッド株式会社 インフラストラクチャー部

AWS / MySQL / DataStore etc...

http://d.conma.me/

http://facebook.com/conmame

Page 3: RedshiftはDWHだけじゃない

BIG DATA

Page 4: RedshiftはDWHだけじゃない

世はまさにビッグデータ

ログ

アクセスログ

行動ログ

購入・決済ログ

クリック・動線

Page 5: RedshiftはDWHだけじゃない

ビッグデータ

Page 6: RedshiftはDWHだけじゃない

DWH / BI tool

Page 7: RedshiftはDWHだけじゃない

DWH

Page 8: RedshiftはDWHだけじゃない

数千万~数億

Page 9: RedshiftはDWHだけじゃない

(  ゚д゚)  ・・・      (つд⊂)ゴシゴシ      (;゚д゚)  ・・・      (つд⊂)ゴシゴシゴシ      _̲,  ._̲  (;゚  Д゚)  …!?

Page 10: RedshiftはDWHだけじゃない

    ∧_̲∧  ⊂(#・ω・)  置き場所が無い!    /      ノ∪    し―-‐‑‒J  |l|  |                    ⼈人ペシッ!!                __                \    \                     ̄ ̄

Page 11: RedshiftはDWHだけじゃない

何より...

Page 12: RedshiftはDWHだけじゃない

    ∧_̲∧  ⊂(#・ω・)  ⾼高い!    /      ノ∪    し―-‐‑‒J  |l|  |                    ⼈人ペシッ!!                __                \    \                     ̄ ̄

Page 13: RedshiftはDWHだけじゃない

Redshift

Page 14: RedshiftはDWHだけじゃない

Redshift?

Page 15: RedshiftはDWHだけじゃない

Redshift?データウェアハウス

フルマネージド

拡張性が高い

数TB~数PB

カラムナ型

リーズナブル?

データ保全性が高い(マルチノードなら)

複数ノードでデータ冗長保持

S3へのSnapshotバック・アップ

Page 16: RedshiftはDWHだけじゃない

Price

Page 17: RedshiftはDWHだけじゃない

1Y RI

3Y RI

Page 18: RedshiftはDWHだけじゃない

XL: 90,000 / 1,080,000

8XL: 720,000 / 8,640,000

1node type: month / year (円)

XL: 54,366 / 652,399

8XL: 434,933 / 5,219,199

XL: 32,711 / 392,533

8XL: 261,688 / 3,140,266

1Y RI

3Y RI

Page 19: RedshiftはDWHだけじゃない

まだ高い…

Page 20: RedshiftはDWHだけじゃない

1クラスタを複数の用途で

一緒に使えばいいのでは?

Page 21: RedshiftはDWHだけじゃない

DWHだけじゃない使い方

Page 22: RedshiftはDWHだけじゃない

ユーザ動向

検索ワード動向

監査

データarchive

サポート

developer

more user

Page 23: RedshiftはDWHだけじゃない

ユーザ動向

検索ワード動向

監査

データarchive

サポート

developer

more user

ユーザ属性変更

行動ログ

etc...

他データストアから

(後々データ解析で使用で

きる可能性のあるもの)

Page 24: RedshiftはDWHだけじゃない

app app app

fluentproxy

fluentproxy

manage

Separate audit from general logs

Page 25: RedshiftはDWHだけじゃない

Development DB

Audit DB

Service log DB

Data archive DB

Page 26: RedshiftはDWHだけじゃない

Development DB

Audit DB

Service log DB

Data archive DB

共用

部署A

部署B

部署C

Page 27: RedshiftはDWHだけじゃない

部署ごとにクラスタ料金を

分割出来る

Page 28: RedshiftはDWHだけじゃない

Work Load Management

Page 29: RedshiftはDWHだけじゃない

Redshiftへのクエリはキューごとに管理される

キュー毎に並列度が設定されている

defaultでは1つのキュー・5並列

並列度を超えた場合は先行クエリが終わるのを待つ

キューの識別

ユーザ

クエリグループ

サーバリソースは全てのキューで共有

Page 30: RedshiftはDWHだけじゃない

最優先

アプリケーションから発行されるクエリ

並列度高め

優先度低

バッチなどから発行されある程度時間がかかってい

いもの

どうにもこうにも時間内に収まらない場合はクラス

タサイズアップも検討

最低

開発用

Page 31: RedshiftはDWHだけじゃない

こう使うとコネクション沢山はってしまう

今は増やせません 同時96 connectionまで…

とてつもなく重いクエリ流しちゃった… psqlでも繋げな

い…

Management Consoleからクエリ killできません

実行が終わるのを待つかtimeoutを適切に

HWリソースもクエリ毎に重み付けしたい

今は出来ません…並列度をうまいことやりくりします

Page 32: RedshiftはDWHだけじゃない

こう使うとコネクション沢山はってしまう

今は増やせません 同時96 connectionまで…

とてつもなく重いクエリ流しちゃった… psqlでも繋げな

い…

Management Consoleからクエリ killできません

実行が終わるのを待つかtimeoutを適切に

HWリソースもクエリ毎に重み付けしたい

今は出来ません…並列度をうまいことやりくりします

実現お待ちしております!!!

Page 33: RedshiftはDWHだけじゃない

Conclusion

Page 34: RedshiftはDWHだけじゃない

1用途で高い!と思ったら

動向調査などの普通のDWH以外の使い方も考えてみる

用途が広がればノード代金をシェア出来る

(クラスタサイズupも出来るかも)

しっかりパフォーマンス測定をして

必要十分を用意する

WLMをしっかり考える

Page 35: RedshiftはDWHだけじゃない

Thank you!!