117
1 February 14 th , 2014 Presented by Takahiro Inoue – Chief Data Scien:st

Treasure Data Intro for Data Enthusiast!!

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Treasure Data Intro for Data Enthusiast!!

1  

February 14th, 2014

Presented  by      

Takahiro  Inoue  –  Chief  Data  Scien:st  

Page 2: Treasure Data Intro for Data Enthusiast!!

2  

Presented  by      

Takahiro  Inoue  –  Chief  Data  Scien:st  

Sec.0  Company  &  Product  Overview  Sec.1  Data  Collec:on  Sec.2  Data  Storage  Sec.3  Data  Management  

Management  Console  Sec.4  Data  Processing  

Treasure  Query  Accelerator  

Sec.5  Data  Processing  Design  Cubic  Data  Processing  Design  Graph  Data  Processing  Design  

Sec.6  Data  Visualiza:on  Treasure  Viewer    Dashboard:  Metric  Insights  Business  Intelligence:  Tableau  

Sec.7  Learning  Visualiza:on  PaTerns  (blog  link)  

Agenda

Page 3: Treasure Data Intro for Data Enthusiast!!

3  

Presented  by      

Takahiro  Inoue  –  Chief  Data  Scien:st  

•  Takahiro  Inoue  (TwiTer:  @doryokujin  )  

•  Majored  in  Mathema:cs  in  Keio  University  

•  Chief  Data  Scien:st  and  Solu:on  Architect  @  Treasure-­‐Data  

•  Leader  of  Japanese  MongoDB  Community,  Mongo  Masters  

Introduc-on

Page 4: Treasure Data Intro for Data Enthusiast!!

4  

Sec.0  Company  &  Product  Over  View  

Page 5: Treasure Data Intro for Data Enthusiast!!

5  

Presented  by      

Takahiro  Inoue  –  Chief  Data  Scien:st  

Company & Product Over View

会社概要 チーム概要

Hiro Yoshikawa – CEO Open source business veteran

Kaz Ohta – CTO Founder of world’s largest Hadoop Group

Jeff Yuan – Director, Engineering LinkedIn, MIT / Michale Stonebraker Lab

Keith Goldstein – VP Sales & BD VP, Business Devt, Tibco and Talend

Rich Ghiossi – VP Marketing VP Marketing, ParAccel and HP

投資家概要

Bill Tai Renown investor, GP Charles River Ventures

Jerry Yang Founder, Yahoo!

Yukihiro “Matz” Matusmoto Creator, “Ruby” programming language

James Lindenbaum Founder, Heroku

Sierra Ventures – (Tim Guleri) Leading venture capital firm in Big Data

2011年12月創業、米国カリフォルニア州。創業者は日本人3人組。2013年12月現在、社員約30名。

ビッグデータの収集・保存・解析を一手に行えるクラウドサービスを提供。他のサービスと異なり、数日で始められるのが特徴。

サービスコンセプト •  すぐに使い始められる •  クラウドサービスとしての提供を行う •  シンプルな機能セット、手厚いサポート

•  “Trend Setting Products” in Data for 2014(Database Trends and Applications)

•  “5 Hot Big Data Startups”(Enterprise Apps Today)

Page 6: Treasure Data Intro for Data Enthusiast!!

6  

Presented  by      

Takahiro  Inoue  –  Chief  Data  Scien:st  

Company & Product Over View

事業概要  (2013年12月8日現在)

>50% 四半期のアカウント数の伸び

>100 顧客数

>2,500,000,000,000 お客様から預かっている

レコード数

>7,000,000 実行した解析ジョブの数

1秒間に保存されている レコード数

>4,000 顧客がデータ収集を行っている

アプリケーションサーバー数

>150,000

Page 7: Treasure Data Intro for Data Enthusiast!!

7  

Presented  by      

Takahiro  Inoue  –  Chief  Data  Scien:st  

Company & Product Over View

Product  Overview

Web logs

App logs

Sensor

CRM

ERP

RDBMS

Data Collection Data Analysis

Streaming Log !Collector (JSON)!

Treasure Agent

Parallel Upload from CSV, MySQL, etc.!

Bulk Import

REST API, SQL, Pig, JDBC / ODBC!

BI Connectivity

REST API, SQL, Pig!

Result Push

Data Storage

Treasure Batch Query &

Treasure Query Accelerator

Time to Value Economy & Flexibility Simple & Supported

No Command Line,!Every Operation is Here! !

Management Console New!!

New!!

BI Tools

Dashboards Custom App, Local DB,

FTP Server, etc.

Cloud DB, Web App, & Command Line Flexible, Scalable, Columnar Storage!

Tableau, Metric Insights, Dr.Sum, Excel, etc.

Treasure Viewer New!!

Value  Proposi-on  1 Value  Proposi-on  2 Value  Proposi-on  3

収集・保存・解析まで単一のサービスでの提供を行うサービスはTreasure Dataのみ。

Page 8: Treasure Data Intro for Data Enthusiast!!

8  

Presented  by      

Takahiro  Inoue  –  Chief  Data  Scien:st  

ビッグデータ活用:7つのステージ

定型レポート  

アドホックレポート  

ドリルダウン  

アラート  

統計分析  

予測分析  

最適化  

What  happened?  

Where?  

Where  exactly?  

Error?  

Why?  

What’s  a  trend?  What’s  the  best?  

データ解析  

レポーティング  

お客様の進化に合わせて、我々のサービスも進化を続ける。  

Page 9: Treasure Data Intro for Data Enthusiast!!

9  

価格プラン:  Premium  Plan

Free   Standard   Premium     Custom  

価格   $0   $3000/月   $7500/月   -­‐    

レコード数   年間20億件   年間150億件   年間500億件   Unlimited  

バッチクエリ   0コア   8コア   16コア   Unlimited  

アドホック  クエリ   N/A   N/A   ○   Unlimited  

ユーザー数   1   5ユーザー   20ユーザー   Unlimited  

サポート   オンライン   通常   専任   Nego:able  

大企業様からの要望に答える形で、サポート体制の強化を行ったプランを新設  

Page 10: Treasure Data Intro for Data Enthusiast!!

10  

サービスポジショニング

自社 データ

センター

構造化データソース (取引履歴、会計、個人情報、etc)

非構造化、新しいデータ・ソース (Web、センサー、デバイス、etc)

マーケティングクラウド (DMP)

アプリケーションログのレポーティング、分析

センサーデータ/M2M Internet of Things

クラウド

自社データセンターで  保存・解析するには  

コスト・人材面でマッチしない  

セキュリティ/法律上  クラウドにデータが  

上げられない事が多い  

補完関係  

Page 11: Treasure Data Intro for Data Enthusiast!!

11  

なぜ Treasure  Data?  –  実装の早さ、本質的な作業に集中

•  既存のデータウェアハウスの実装プロセス

•  Treasure Dataのクラウドサービス

Data Collection ETL Data Warehouse BI/Reporting

6ヶ月 ~ 1年, 5-10億円+maintenance, ベンダーロックイン

Data Collection ETL Data Warehouse BI/Reporting

2 – 3週間

月額課金制での支払い

既存のBI/Reportingが利用可能

Page 12: Treasure Data Intro for Data Enthusiast!!

12  

Value  Proposi-on  

•  Faster  -me  to  value    

•  Cloud  flexibility  and  economics    

•  Simple  and  well  supported    

Page 13: Treasure Data Intro for Data Enthusiast!!

13  

Advantage  of  Treasure  Data

Value Advantage

Faster  -me  to  Value Data Collection •  Bulk Import 機能が大規模データの高速インポートを

サポート。 •  Streaming 機能によってほぼリアルタイムにデータ収

集を開始できる。

Data Processing •  計算ノードのオンタイムによる追加で高速に並列処理

が実行可能。 •  Streaming 機能によって,デイリーのバッチ処理を待

たずして分析が可能。

Page 14: Treasure Data Intro for Data Enthusiast!!

14  

Advantage  of  Treasure  Data

Value Advantage

Cloud flexibility and economics Data Collection •  テキスト,DB,FTP など多様なデータソースへのプラグ

インを用意。 •  Streaming 機能によってほぼリアルタイムにデータ収

集を開始できる。

Data Storage •  低限のコストで∞ストレージを提供。 •  JSON ライクの,スキーマレスを実現。

Data Processing •  必要に応じてノード数をオンタイムで変更可能。 •  ストレージ・ノード数に応じた従量制の価格体系。

Data Result Export •  JDBC, ODBC プラグインを用意。 •  集計済のデータのエクスポート先 CSV,ダッシュボード,

BI,DB など多様なプラグインを用意。

Page 15: Treasure Data Intro for Data Enthusiast!!

15  

Advantage  of  Treasure  Data

Value Advantage

Simple  and  well  supported

Data Collection •  Fluentd の豊富なドキュメントと様々なプラグインに

よってラーニングコストを 小化。

Data Storage •  Management Console からデータの参照が可能。

Data Processing •  SQL ライクの簡潔なクエリ言語によって実行可能。

Data Result Export •  Treasure Viewer, Metric Insights, Tableau をサポート。

Page 16: Treasure Data Intro for Data Enthusiast!!

16  

Sec.1  Data  Collec-on  •  Treasure  Agent  (Fluentd)  

Page 17: Treasure Data Intro for Data Enthusiast!!

Parallel Upload from CSV, MySQL, etc.!

Bulk Import

17  

Sec.1  Data  Collec-on

Web logs

App logs

Sensor

CRM

ERP

RDBMS

Data Collection Data Analysis

Streaming Log !Collector (JSON)!

Treasure Agent REST API, SQL, Pig, JDBC / ODBC!

BI Connectivity

REST API, SQL, Pig!

Result Push

Data Storage

Treasure Batch Query &

Treasure Query Accelerator

Time to Value Economy & Flexibility Simple & Supported

No Command Line,!Every Operation is Here! !

Management Console New!!

New!!

BI Tools

Dashboards Metric Insights, etc.

Cloud DB, Web App, & Command Line Flexible, Scalable, Columnar Storage!

Tableau, Dr.Sum, etc.

Treasure Viewer New!!

Focus!

Page 18: Treasure Data Intro for Data Enthusiast!!

18  

”データ解析の世界をシンプルにする”  

”データ収集をシンプルにする”  

Page 19: Treasure Data Intro for Data Enthusiast!!

19  

Web logs

App logs

Sensor

Treasure Agent Streaming Log !Collector (JSON)!

Parallel Upload from CSV, MySQL, etc.!

Bulk Import CRM

ERP

RDBMS

Treasure Data Cloud

新しいデータソース 従来のデータソース

•  「新しいデータソース」 = 各自のアプリケーション

から Treasure Data Library を利用して取得する

データ •  例:Heroku アプリケーションログ(Heroku

Plugin)・ソーシャルゲームログ・モバイルデバイ

スログ・センサーデータ・etc… •  これらのデータはデータ量が変化しやすく,また

既に取得項目が構造化されている。

•  「従来のデータソース」 = 既に過去に蓄積され,

データベースなどに保存されているもの。 •  例:POSデータ,Site CatalystやMedia Mindなど

の分析ツールが裏で保持しているローデータ。 •  試験プロセスとして過去の特定の期間のデータ

をアップロードする場合。 •  これらのデータは Bulk Import ツールを用いた

並列インポートで効率良く一気にクラウドスト

レージに送る。

データソースに応じた2種類のインポートメソッド

Page 20: Treasure Data Intro for Data Enthusiast!!

20  

Data  Acquisi-on  –  Bulk  Loader

Treasure Data

Cloud

RDBMS   App  SaaS  

FTP  

CSV,  TSV,  JSON,  MessagePack,  Apache,  regex,  MySQL,  FTP  

 

Bulk  Loader    

Prepare  >  Upload  >  Perform  >  Commit  

Page 21: Treasure Data Intro for Data Enthusiast!!

21  

Data  Acquisi-on  –  Streaming  Capture

Treasure Data Cloud

# Application Code ... ... # Post event to Treasure Data TD.event.post('access', {:uid=>123}) ... ...

Treasure  Data  Library  Java,  Ruby,  PHP,  Perl,  Python,  Scala,  Node.js      

Applica:on  Server  

Treasure  Agent  (local)  

•  Automa:c  Micro-­‐batching  •  Local  buffering  Fall-­‐back  •  Network  Tolerance  

Page 22: Treasure Data Intro for Data Enthusiast!!

22  

Treasure  Data  が提案する新しいデータ:  Event  Base  Logs

# Application Ruby Code ... # Post event to Treasure Data TD.event.post(’login', {:uid => 123, :device => ’smart phone’ :time => 138959673 }) ... TD.event.post(’pay', {:uid => 123, :name => ’ItemA’, :sub_category => ’a’, :category => A, :count => 2, :price => 300 :time => 138959673 }) ... TD.event.post(’invite', {:uid => 123, :invited_uid => 456, :campaign_name => ’invite_event_2’, :time => 138959673 })

For  Social  Game  Analy:cs  # HTML Source ... # Post event to Treasure Data TD.event.post(‘login', {‘uid’ : get_session(), ‘time’ : 138959673 }) ... TD.event.post(’conversion', {‘uid’ : 123, ‘conversion_id’ : ’conv_1’, ‘referer’ : ’www.top.html’, ‘time’ : 138959673 }) ... TD.event.post(’add_cart', {‘uid’ : 123, ‘product_name’ : ‘book1’, ‘cart_id’ : 1, ‘time’ : 138959673 }) ... TD.event.post(’subscribe', {‘uid’ : 123, ‘mail’ : ‘[email protected]’, ‘plan’ : ‘$300’, ‘time’ : 138959673 })

For  Web  Analy:cs  

Treasure  Data  Library  Java,  Ruby,  PHP,  Perl,  Python,  Scala,  Node.js    ,  JS  Tag  Library  

Page 23: Treasure Data Intro for Data Enthusiast!!

23  

Treasure  Data  が提案する新しいデータ:  Event  Base  Logs

# Java Code ... # Post event to Treasure Data TD.event.post(’ignition_on', {‘uid’ : 123, ‘longitude’ : 135, ‘latitude’ : 36, ‘odometer’ : ‘100km’, ‘room_temperature’: 24 ‘last_iginition_off_time’ : 138959000, ‘time’ : 138959673 }) ... TD.event.post(’airbag_on', {‘uid’ : 123, ‘longitude’ : 135, ‘latitude’ : 36, ‘time’ : 138959673 }) ... TD.event.post(’pedal_accelerator', {‘uid’ : 123, ‘longitude’ : 135, ‘latitude’ : 36, ‘speed’ : ‘70km/h’, ‘acceleration’ : ’1m/s^2’, :time : 138959673 })

For  Telema:cs  Analy:cs  # HTML Source ... # Post event to Treasure Data TD.event.post(‘pay', {‘uid’ : get_session(), ‘price’ : 1000, ‘genka’ : 800, ‘area’ : ‘Tokyo’, ‘time’ : 138959673 }) ... TD.event.post(’post_comment', {‘uid’ : 123, ‘item_name’ : ’itemA’, ‘rating’ : 4, ‘comment’ : ‘使いやすくてTD 高です!’, ‘time’ : 138959673 }) ... TD.event.post(’visit_from_affiliate', {‘url’ : ‘www.hoge.com’, ‘affliate_url’ : ‘www.sale.com’, ‘session_id’ : get_session(), ‘time’ : 138959673 }) …

For  EC  Analy:cs  

Treasure  Data  Library  Java,  Ruby,  PHP,  Perl,  Python,  Scala,  Node.js    ,  JS  Tag  Library  

Page 24: Treasure Data Intro for Data Enthusiast!!

Heroku Add-on: Treasure Data Hadoop によって Herokuアプリケーションからのログのストリーミング収集が容易かつ低コストで実現。

Before

After

Heroku  Add-­‐on:  Treasure  Data  Hadoop

hTps://addons.heroku.com/treasure-­‐data

*  参考記事: hTp://doryokujin.hatenablog.jp/entry/2012/07/05/025737

Page 25: Treasure Data Intro for Data Enthusiast!!

25  

Project

•   Treasure  Data  のデータコレクタ部分は、オープンソース化  –  2013年、国内外で広く浸透  –  世界中でデータを解析可能な形で収集するのに一役買っている  

"We utilize Fluentd to collect a very large amount of logs. The logs are written into Hadoop HDFS clusters, and are also used to analyze various service statuses in realtime. We also use many plugins from rubygems.org to further enhance this mechanism." Fluentd is very similar to Apache Flume or Facebook’s Scribe [but] it’s easier to install and maintain and has better documentation and support than either Flume or Scribe”

"We use Fluentd to collect massive data logs for our platforms. Having developed a system based on Fluentd, we are now effectively monitoring and analyzing our services in real-time. We are very much satisfied with its flexibility, especially how easy it is to use in tandem with other systems."

Fluentd  オープンソースプロジェクトのユーザー例  

Page 26: Treasure Data Intro for Data Enthusiast!!

26  

Before  Fluentd:  M  x  N  通りのデータ収集・活用方法

Page 27: Treasure Data Intro for Data Enthusiast!!

27  

A\er  Fluentd:  M  +  N  通りに経路を集約して簡素化

Nagios

MongoDB

Hadoop

Alerting

Amazon S3

Analysis

Archiving

MySQL

Apache

Frontend

Access logs

syslogd

App logs

System logs

Backend

Databasesfilter / buffer / routing

Page 28: Treasure Data Intro for Data Enthusiast!!

28  

Treasure  Agent  Monitoring  Service

•  td-­‐agentのモニタリングサービス  –  Treasure  Dataのクラウドサービスの一機能  –  fluent-­‐plugin-­‐td-­‐monitoringをインストール  

•  td-­‐agent  v1.1.18  にはこっそり既に入っております  

td-­‐monitoring  

Treasure  Data  Service  

統計情報の定期送付  (毎分)  •  システム統計情報  •  Fluentd内部メトリクス情報  •  SSLによる送信  

Treasure  Agent  

Page 29: Treasure Data Intro for Data Enthusiast!!

29  

Summary  -­‐  Our  2  Import  Methods  -­‐

Streaming Bulk  Loader

•  ほぼリアルタイムにログの収集が可能。 •  あらゆるデータソースを接続口として持

つ(Fluentd In-Plugin)。 •  あらゆるアウトプット形式に対応

(Fluentd Out-Plugin)。 •  定常的にネットワーク帯域を使える。 •  ネットワークの遅延などにより,多少の

データロストがある場合がある。

•  数十GB〜数TBの大規模データに対応。 •  並列処理で高速にアップロード。 •  データのロストが無く安心。

これから取得するデータはStreamingで,既に蓄積している 数年分のデータはBulk Loaderを用いることでデータの一元 管理が可能。

Page 30: Treasure Data Intro for Data Enthusiast!!

30  

Sec.2  Data  Storage  •  Treasure  Cloud  Storage  

Page 31: Treasure Data Intro for Data Enthusiast!!

31  

Sec.2  Data  Storage

Web logs

App logs

Sensor

CRM

ERP

RDBMS

Data Collection Data Analysis

Streaming Log !Collector (JSON)!

Treasure Agent

Parallel Upload from CSV, MySQL, etc.!

Bulk Import

REST API, SQL, Pig, JDBC / ODBC!

BI Connectivity

REST API, SQL, Pig!

Result Push

Data Storage

Treasure Batch Query &

Treasure Query Accelerator

Time to Value Economy & Flexibility Simple & Supported

No Command Line,!Every Operation is Here! !

Management Console New!!

New!!

BI Tools

Dashboards Metric Insights, etc.

Cloud DB, Web App, & Command Line Flexible, Scalable, Columnar Storage!

Tableau, Dr.Sum, etc.

Treasure Viewer New!!

Focus!

Page 32: Treasure Data Intro for Data Enthusiast!!

32  

Data  Storage

Treasure  Data  Cloud  

-me   v  

1384160400   {“ip”:”135.52.211.23”,  “code”:”0”}  

1384162200   {“ip”:”45.25.38.156”,  “code”:”-­‐1”}  

1384164000   {“ip”:”97.12.76.55”,  “code”:”99”}  

-me   ip  :  string   code  :  int  

1384160400   135.52.211.23   0  

1384162200   45.25.38.156   -­‐1  

1384164000   97.12.76.55   99  

Default  (schema-­‐less)  

Schema  applied   ~30%  Faster  

•  “スキーマレス”  な  JSON形式で保存  –  変更されたスキーマも既存の

テーブルへの保存が可能。  •  列指向データベースを採用。  •  スキーマを定義する事でパフォーマ

ンスが大幅に上昇。  •  特に時間をキーにしたフィルタリン

グに強み。  •  「容量を気にすることなく,あらゆる

データをとにかく蓄積していく,必要なことものはそれから考えましょう」  

*スキーマを定義することでパフォーマンスが 大幅にアップ。

Page 33: Treasure Data Intro for Data Enthusiast!!

33  

従来のストレージ,SQL,No  SQL

従来の(クラウド)ストレージ •  非構造化によるデータの保持

•  データ抽出,集計時にファイルの読込が毎回必要

•  圧縮,解凍は入出力の際にマニュアル処理

SQL •  構造化とインデックスで高速処理が可能

•  スキーマの追加が困難

•  スケールしにくく,その場合の管理コストが大

No SQL •  柔軟なデータ保持方法

•  スケーリングに強いものも

•  歴史が浅く,情報源が少ない

•  各No SQLに特化した人材コスト

210.233.9.2  -­‐  -­‐  [07/Aug/2006:10:45:40  +0900]  "GET  /img/mtdc.gif  HTTP/1.1"  200  1242  "hTp://mermaid-­‐tavern.com/"  "Mozilla/4.0  (compa:ble;  MSIE  6.0;  Windows  NT  5.1;  SV1)  

210.233.9.2  -­‐  -­‐  [07/Aug/2006:10:45:40  +0900]  "GET  /img/mtdc.gif  HTTP/1.1"  200  1242  "hTp://mermaid-­‐tavern.com/"  "Mozilla/4.0  (compa:ble;  MSIE  6.0;  Windows  NT  5.1;  SV1)  

-me   Ip   Code    

1384160400   135.52.211.23   0  

1384162200   45.25.38.156   -­‐1  

Page 34: Treasure Data Intro for Data Enthusiast!!

34  

Treasure  Data  Cloud  のメリット

Treasure  Data  Cloud  

-me   v  

1384160400   {“ip”:”135.52.211.23”,  “code”:”0”}  

1384162200   {“ip”:”45.25.38.156”,  “code”:”-­‐1”}  

1384164000   {“ip”:”97.12.76.55”,  “code”:”99”}  

Treasure Data Cloud のメリット

•  変更されたスキーマも既存のテーブル

への保存が可能

•  (S3に準ずる)高いデータの機密性・

堅牢性を保持 •  レコード数に応じた課金体系,多くの

場合は非常に低コストで利用可能 •  データは自動で圧縮して保存 •  Hive(SQL Like)クエリによるデータの

抽出および集計がダイレクトに可能 •  データの管理・運用にかかる人材コス

トが不要

“巨大な列指向データベース“  

Page 35: Treasure Data Intro for Data Enthusiast!!

35  

Treasure  Management  Console  によるデータ管理

Database   Table  

指定したDB名,Table名に対してHive (SQL-Like) Query を実行することによりデータの抽出および集計がストレージに対してダイレクトに行える。

New  Query  

Page 36: Treasure Data Intro for Data Enthusiast!!

36  

サービスポジショニング

自社 データ

センター

構造化データソース (取引履歴、会計、個人情報、etc)

非構造化、新しいデータ・ソース (Web、センサー、デバイス、etc)

マーケティングクラウド (DMP)

アプリケーションログのレポーティング、分析

センサーデータ/M2M Internet of Things

クラウド

自社データセンターで  保存・解析するには  

コスト・人材面でマッチしない  

セキュリティ/法律上  クラウドにデータが  

上げられない事が多い  

補完関係  

Page 37: Treasure Data Intro for Data Enthusiast!!

37  

Try  &  Error  Itera-on:中間データをどこに保持するか

自社 データ

センター

ローデータ,クラウドに上げられないデータ

ローデータ,フィルタ済データ, 分析用中間データ,tempデータ

ローデータ

- フィルタ済データ

- 分析用中間データ - データキューブ

クラウド

様々な  Try  And  Error  の末に保存対象となったナレッジデータのみローカルに保存することでコスト減。    

- テンポラリデータ 中間データ群を自社データセンターに保存するだけで大幅なコスト。  

Try  &  Error  Itera-on

Page 38: Treasure Data Intro for Data Enthusiast!!

38  

データ横串分析1:中古車相場データからの応用

Car Sensor : B to C の中古車相場

業者間オークション : B to B の中古車相場

個人間オークション : C to C の中古車相場

新車カタログ : 新車価格,車両情報

レビューサイト : 車両レビュー

業者が卸してから販売 する際のマージンに注目

新車からの値落ち率と年式等との関係に注目

業者の販売値と個人間の販売値との乖離 = (整備・保証料) に注目

レビューの高さと中古車相場の関係に注目

Page 39: Treasure Data Intro for Data Enthusiast!!

39  

データ横串分析2:オンラインゲーム横断分析

Page 40: Treasure Data Intro for Data Enthusiast!!

40  

新しいデータ:The  Internet  of  Things(IoT)

When everything has an ID, and can send data about itself…

Page 41: Treasure Data Intro for Data Enthusiast!!

41  

テレマティクスとは

•   Telecommunica:on(通信)  +  Informa:cs(情報科学)  –  自動車などの移動体に通信システムを組み合わせて、リアルタイム

に情報サービスを提供すること  

•  モダン・テレマティクスデータの特徴  –  車両のID(車載機)と、運転者のID(スマートフォン)を別々に管理す

ることができるため、どの車に誰が乗ったかを自動的に判別可能。

–  拡張性:車載器だけでなく,スマートフォンからも詳細なデータ取得

が可能に。モニターやカメラ、加速度センサーなど、スマートフォン

に搭載されているデバイスであれば、ハードの追加無く拡張可能。  

Page 42: Treasure Data Intro for Data Enthusiast!!

並列アップロード  Bulk Import

ストリーミングアップロード!Treasure Agent

42  

Telema-cs  Data  Analysis  

自動車保険:  -­‐  走行距離連動型保険  -­‐  運転の雑さを指標化  

電気スタンド需要  -­‐  駐車が多い施設の特定  

電気自動車需要  -­‐  一回の走行距離・距離が    少ないエリアの特定  

渋滞予測システム  -­‐  車速や単位当たりの移動距離          から渋滞エリアを特定  

-­‐  緯度・経度  -­‐  アクセルON/OFF  -­‐  イグニッションON/OFF  -­‐  車速・燃費  

Page 43: Treasure Data Intro for Data Enthusiast!!

43  

Leading/Well-Known Auto Manufacturer

•  Telematics!–  200 sensors in new cars!–  Each collect data every 10 seconds!

•  Business Benefits!–  Dramatically lowers friction for!

new projects!•  And prototypes!

–  Focus resources on the cars !and the data!

•  Not the data collection or storage!–  Big Data pipeline up in days!

•  Minimal upfront investment!•  Initial results in few days!

Page 44: Treasure Data Intro for Data Enthusiast!!

44  

World’s largest OBD provider

•  Telematics!–  On-board Diagnostics (OBD) vendor!–  Building a embeddable solution for auto

manufacturers!

•  Business Benefits!–  Looking to build a turn-key !

solution for auto manufacturers •  But they don’t have Big Data expertise!•  They want to focus on their OBD solution

and leadership position!–  ROI expected at 25-50x!

•  Over using a traditional data warehouse approach!

Page 45: Treasure Data Intro for Data Enthusiast!!

45  

Innovative Semiconductor Company

•  Wearable Sensors!–  Wrist-band activity sensor!–  Tracks movement & exercise!

•  Business Benefits!–  Looking to build a turn-key solution !

for fitness brands •  As a semiconductor company, !

they don’t have in-house expertise !on Big Data infrastructure!

–  They need to develop quickly !to secure a leadership position !with major brands before their competitors do!

Android  

Page 46: Treasure Data Intro for Data Enthusiast!!

46  

Sec.3  Data  Management  •  Treasure  Management  Console  

Page 47: Treasure Data Intro for Data Enthusiast!!

47  

Sec.3  Data  Management

Web logs

App logs

Sensor

CRM

ERP

RDBMS

Data Collection Data Analysis

Streaming Log !Collector (JSON)!

Treasure Agent

Parallel Upload from CSV, MySQL, etc.!

Bulk Import

REST API, SQL, Pig, JDBC / ODBC!

BI Connectivity

REST API, SQL, Pig!

Result Push

Data Storage

Treasure Batch Query &

Treasure Query Accelerator

Time to Value Economy & Flexibility Simple & Supported

No Command Line,!Every Operation is Here! !

Management Console New!!

New!!

BI Tools

Dashboards Metric Insights, etc.

Cloud DB, Web App, & Command Line Flexible, Scalable, Columnar Storage!

Tableau, Dr.Sum, etc.

Treasure Viewer New!!

Focus!

Page 48: Treasure Data Intro for Data Enthusiast!!

48  

Our  2  Management  Tools

Treasure Command Line Tools ( for Engineer )

Treasure  Management  Console  (  for  Analyst,  Decision  Maker  )

•  豊富なコマンド群を通じて詳細な情報を得

ることが可能。 •  シェルスクリプトなどと合わせて自動化が

できる。 •  UIでなくコマンドラインでないと落ち着かな

いエンジニア向けに。

•  Web UI からデータベースおよびテーブル

の状況を把握できる。 •  各テーブル内のデータサンプルを素早く

参照できる。 •  クエリの記述・実行もここから可能。 •  さらに Treasure Viewer によってすぐにグ

ラフ化することが可能。

Management  Console  の登場によって,より多くのアナリスト・意思決定者自身がCloud  Databaseに触れる機会が増える。  

Page 49: Treasure Data Intro for Data Enthusiast!!

49  

Watch  Databases

データベースの一覧。データベース名,作成日,更新日の一覧。各データベース名をクリックすることでテーブル一覧へ。

Page 50: Treasure Data Intro for Data Enthusiast!!

50  

Watch  Tables

特定のデータベースのテーブル一覧。レコード数,圧縮後のデータサイズ,更新日,作成日。各テーブル名をクリックすることでレコードの取得が可能。

Page 51: Treasure Data Intro for Data Enthusiast!!

51  

Tail  Records

特定のテーブルに格納されているレコードを参照できる。

Page 52: Treasure Data Intro for Data Enthusiast!!

52  

Watch  Jobs

現在実行されている・終了したジョブの一覧。クエリ内容やStatusの確認が可能。実行中・失敗・スロークエリの特定も可能。

Page 53: Treasure Data Intro for Data Enthusiast!!

53  

Set    Schedule

定型のバッチクエリはCRONライクな設定方法で,容易にスケジューリング可能。

Page 54: Treasure Data Intro for Data Enthusiast!!

54  

U-liza-on

現在のデータ使用状況・コア数等を表示するUtilization。

Page 55: Treasure Data Intro for Data Enthusiast!!

55  

Sec.4  Data  Processing  •  Treasure  Batch  Query  •  Treasure  Query  Accelerator  

Page 56: Treasure Data Intro for Data Enthusiast!!

56  

Sec.4  Data  Processing

Web logs

App logs

Sensor

CRM

ERP

RDBMS

Data Collection Data Analysis

Streaming Log !Collector (JSON)!

Treasure Agent

Parallel Upload from CSV, MySQL, etc.!

Bulk Import

REST API, SQL, Pig, JDBC / ODBC!

BI Connectivity

REST API, SQL, Pig!

Result Push

Data Storage

Treasure Batch Query &

Treasure Query Accelerator

Time to Value Economy & Flexibility Simple & Supported

No Command Line,!Every Operation is Here! !

Management Console New!!

New!!

BI Tools

Dashboards Metric Insights, etc.

Cloud DB, Web App, & Command Line Flexible, Scalable, Columnar Storage!

Tableau, Dr.Sum, etc.

Treasure Viewer New!!

Focus!

Page 57: Treasure Data Intro for Data Enthusiast!!

57  

Big Data Infrastructure

…and building a Big Data infrastructure is complicated, expensive, and requires skills that are very hard to hire.

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

O/S  Hardware  

Networking  

Storage  Layer  

Frameworks  

Processing  Engines  

Applica:on  Interfaces  

Streaming  Collec:on   Batch  Collec:on   Business  Rules   Data  Integra:on   Consump:on  /  Analy:cs  

Page 58: Treasure Data Intro for Data Enthusiast!!

58  

Hive

Pig

MapReduce

Dashboard

BI  Tools

ML  /    Graph  Mining

Data  Analysis

Data  Insight Deep

Date,  Product  Category,  Area     User  Id

Granularity

Small

Auto

What  Helps?

Human  Decision

Machine  Learning

Intermediate  Data Aggregator Business  

Goal Batch  Process Interac-ve

Their  Own  Products

Enterprise  

Open  Source  

Impala

Database

Cube

File  /  HDFS

Batch

Ad-­‐hoc

Page 59: Treasure Data Intro for Data Enthusiast!!

59  

Treasure  Query  Accelerator •  Treasure  Query  Accelerator  (TQA)  

– アドホックデータ解析向けのクエリエンジン  – 既存のバッチ型クエリエンジンと比較し、10  〜  50倍高速  – 目的に応じて、既存のバッチ型クエリエンジンと使い分け

MPP  (Massively  Parallel  Processing)  Query  Executor        

 Plazma  Cloud  Storage  

(2.5兆件のデータを保持)  

Queries  

Page 60: Treasure Data Intro for Data Enthusiast!!

60  

Data Analysis

Scripted  Processing  (Pig):  -­‐  DataFu  (LinkedIn)  -­‐  Piggybank  (Apache)  

Heavy  Li\ing  SQL  (Hive):  -­‐  Hive’s  Built-­‐in  UDFs  -­‐  TD  Added  Func:ons:  -­‐  Time  Func:ons  -­‐  First,  Last,  Rank  -­‐  Sessionize  

JDBC  Connec-vity:  -­‐  Custom  Java  Apps  -­‐  Standards-­‐based  -­‐  BI  Tool  Integra:on  

Tableau  ODBC  connector  -­‐  Leverages  Impala  

Push  Query  Results:  -­‐  MySQL,  PostgreSQL  -­‐  Google  Spreadsheet  -­‐  Web,  FTP,  S3  -­‐  Le{ronic,  Indicee  -­‐  Treasure  Data  Table  

Interac-ve  SQL  Treasure  Query  Accelerator    (Impala)  

Scheduled  Jobs  -­‐  SQL,  Pig  Scripts  -­‐  Data  Pushes  REST  API  

Page 61: Treasure Data Intro for Data Enthusiast!!

61  

Data  Insight Deep

Date,  Product  Category,  Area     User  Id

Granularity

Small

Auto

What  Helps?

Human  Decision

Machine  Learning

Database

Cube

Dashboard

BI  Tools

Intermediate  Data Aggregator Business  

Goal Batch  Process Interac-ve

Batch

Ad-­‐hoc

SQL-­‐like 

Que

ry  Lan

guage

Database

Cube

File  /  HDFS

Data  Analysis

Treasure  Batch  Query  (Hive)  

Treasure Query  Accelerator   (Impala)

New!!

Treasure  Scripted  

Query  (Pig)  

Scrip

t  

多段MapReduce

Page 62: Treasure Data Intro for Data Enthusiast!!

62  

Comparison  Between  Batch  and  Ad-­‐hoc

バッチ型クエリ アドホック型クエリ

SQL-­‐style  Query  Language  -­‐  ラーニングコストが低い  -­‐  参考になる情報が溢れている  -­‐  Join,  Group  by,  Where  の概念は馴染み

やすい  

JDBC/ODBC  Driver  -­‐  多数のBIがJDBC/ODBCに対応  -­‐  それ以外のBIでもコネクタを作る事が

可能    

Yes!  Interac-ve!!  -­‐  インタラクティブな操作が実現  -­‐  クリック・ドラッグ操操作で直接

Treasure  Cloud  Storage  へアクセスが

可能に

For  R/Excel/SPSS  -­‐  解析に必要なデータセットの抽出  -­‐  Hiveの出力データ構造と解析ツールの

入力形式の親和性が良い  -­‐  入力データ抽出→解析→入力データ修

正→…  のイテレーション  

For  Automa-c  System  -­‐  リコメンドエンジンや広告配信システム

など,常に結果を参照し続けるシステム

に対応

Monitoring

BI  Tools

Data  Analysis

Page 63: Treasure Data Intro for Data Enthusiast!!

63  

バッチ型クエリ アドホック型クエリ

定時レポーティング  •  顧客向けの定時パフォーマンスレ

ポーティング  •  1時間に1回の更新、確実に終わら

せる事が重要  

配信 適化  •  接続しているアドネットワークのパ

フォーマンスをリアルタイム集計  •  集計結果から広告配信のロジックをリ

アルタイムに 適化

定時レポーティング  •  社内  /  子会社  /  経営層向けの定期

パフォーマンスレポーティング  •  大量のKPIを定義し、毎日  /  毎時確

実に終わらせる事が重要  

サポート業務効率化  •  ユーザーからのサポートリクエストに

応じてその場でデータを集計  •  サポートのレスポンス・対応業務を効

率化し、ユーザーの満足度向上に繋

げる  

定時レポーティング  •  PoS・Webサイト解析システム・タッチ

パネルシステムから上がってくる

データの定期レポーティング  •  毎時確実に終わらせる事が重要  

即時バスケット分析  •  過去数年分、数百億件のデータから、

その場でバスケット分析を実行可能  •  商品開発のミーティングの中で、過去

データを参照。データを元にした商品

開発活動を開始  

オンライン広告  

Web  /  Social  

リテール  

Page 64: Treasure Data Intro for Data Enthusiast!!

64  

New  Query  (Batch)  From  Console Query Type を”Hive”に設定

Treasure  Management  Console  よりクエリの実行が可能。その際に  Hive(Batch  Query),Impala(Ad-­‐hoc  Query)  の選択が可能。

Page 65: Treasure Data Intro for Data Enthusiast!!

65  

New  Query  (Ad-­‐Hoc)  From  Console Query Type を”Impala”に設定

Page 66: Treasure Data Intro for Data Enthusiast!!

66  

Result

Resultを表示,csv等にエクスポートも可能。

Batch ならば数分,Ad-Hoc なら数秒で結果が得られる。

Page 67: Treasure Data Intro for Data Enthusiast!!

67  

Sec.5  Data  Processing  Design  •  Cubic  Data  Processing  Design  •  Graph  Data  Processing  Design  

Page 68: Treasure Data Intro for Data Enthusiast!!

68  

Data  Scien-st  に求められる3つの”プロフェッショナル”

役割 必要なスキル

1.  適切な 「前処理」 を行うこと •  あらゆるデータソースからデータを収集できるインフラスキル  •  手元で手早く処理を行うためのシェルスクリプティング能力  •  泥臭い作業を続ける忍耐力  

2.  「集計」 をパターン化して半機械的なプロセスに落とし込むこと

•  専門家では無い人にも 「集計」 が行えるようにするための  Processing  Design  スキル  

•  あらゆる 「集計」 をもれなく押さえ,パターン化する数学的ス

キル  •  自分は 「集計」 をするために存在するのではなく,「分析」

するために存在するのだという信念  

3.  意思決定者に対してアクショナブルな考察をもたらす 「分析」 を行うこと

•  深い分析をしても,専門家ではない意思決定者に理解しても

らえるための説明力 •  できるだけシンプルに,かつアクショナブルな考察をもたらす

ためのデータ表現(可視化)スキル

Focus!

Page 69: Treasure Data Intro for Data Enthusiast!!

69  

Dashboard

BI  Tools

1.  Cubic  Data  Processing  Design:  Goal Source  Tables  

Big  Cube  

Cross  Tables  

Mini  Cubes   Visualize  

非専門家による  Mini  Cube  の作成,クロス集計,Dashboard  埋め込み  

専門アナリストによる  KPI  レポーティング  

専門アナリストによる前処理,  Big  Cube  の作成   パターンプロセス

専門アナリストによる  応用分析  

Big  Cube  

Page 70: Treasure Data Intro for Data Enthusiast!!

70  

Dashboard

BI  Tools

1.  Cubic  Data  Processing  Design:  For  Treasure  Data Source  Tables  

Big  Cube  

Cross  Tables  

Mini  Cubes   Visualize  

専門アナリストによる前処理,  Big  Cube  の作成  

非専門家による  Mini  Cube  の作成,クロス集計,Dashboard  埋め込み  

専門アナリストによる  KPI  レポーティング  

パターンプロセス

専門アナリストによる  応用分析  

Page 71: Treasure Data Intro for Data Enthusiast!!

71  

Dashboard

BI  Tools

Source  Tables  

Big  Cube  

Cross  Tables  

Mini  Cubes  Batch  Process Interac-ve Batch  Process   Interac-ve Visualize  

Treasure  Batch  Query  

Treasure  Batch  Query  

Treasure  Batch  Query  

Treasure  Ad-­‐hoc  Query  

Treasure  Ad-­‐hoc  Query  

BI  Tools

Excel  

Import  

Import  

Connector  

On  Memory  

1.  Cubic  Data  Processing  Design:  For  Treasure  Data

Page 72: Treasure Data Intro for Data Enthusiast!!

72  

Source  Tables  

Big  Cube  Batch  Process

Treasure  Batch  Query  

1-­‐1.  Making  Big  Cube

Focus!

•  JOIN  可能な複数のデータソースを1つのテーブルにまとめる。  

•  全てのディメンジョンをGROUPキーにした集計を実行する。  

•  大規模なデータ処理になる場合は,時間分割などをする。  

•  Dashboard  や  BI  から直接  Big  Cube  を参照することはない。(Ad-­‐hoc  クエリは例外。)  

•  i.e.  一度Big  Cubeを作ったら,ソーステーブルは二度と参照しない。  

•  全ての項目を「メジャー」と「ディメンジョン」に分類する。  

専門アナリスト  

Page 73: Treasure Data Intro for Data Enthusiast!!

73  

Car  Hierarchy

name  country_name  …  

Name  code  grade  model  series  body_code  body_name  period  …  

code  large_area_name  …  

carsensor  table  brand_master  table  

id  name  grade  model  code  body_name  price  year  shop_pref_code  shop_pref_name  ...  

Schema:  Car  Sensor:  

1.  Table  Join

catalog  table  

pref_master  table  

hTp://doryokujin.hatenablog.jp/entry/2014/01/22/184300

Page 74: Treasure Data Intro for Data Enthusiast!!

74  

Data  Cube  

Ex.  Cube  for  (  Country,  Car  Name,  Year  )

Year    Level

Cell:  (  Prius,  Korea,  2005)    -­‐-­‐>  10,000

Products     Date  

Loca-on  

PRIUS  

MARK  X  

FAIRLADY  Z  

ROAD  STAR  

USA   Canada   Japan   Korea  

2005  

2006  

2007  

Car  Name  Level

Country  Level  

ディメンジョン(階層がある場合は 上位階層を選択する)を固定することで,各ディ

メンジョンを次元軸に,1つのメジャーを各セルに取ったData  Cubeを作成できる

1.  Cubic  Data  Processing  Design

Page 75: Treasure Data Intro for Data Enthusiast!!

75  

Car  Hierarchy

Loca-on  Country  State  City  

Date  Year  Month  Day  

Products  Company  Car  Type  Car  Name  

Fact  table  Dimension  tables  

State  Month  Car  Name    

Profit  Sales  Payroll  Marke-ng  Inventory  Margin  ...  

Star  Schema  

Hierarchy  (level-­‐of-­‐detail)  

1.  Cubic  Data  Processing  Design

Page 76: Treasure Data Intro for Data Enthusiast!!

76  

Dimension,  Measure  –  Original  Table  

–  Big  Cube  

County State City Company Car  Type Car  Name Date Units Sales

USA California San  Jones TOYOTA Sedan   Corolla   2012-­‐08-­‐15 36 $3,000

USA California Palo  Alto TOYOTA Sedan Alion 2012-­‐08-­‐15 24 $2,000

USA California Los  Altos NISSAN SUV X-­‐TRAIL 2012-­‐08-­‐16 100 $1,000

USA New  York ManhaTan NISSAN Sport FAIRLADY  Z 2012-­‐08-­‐16 64 $500

Canada Alberta Airdrie MAZDA Sport Road  Star 2012-­‐08-­‐15 4 $3,000

Measure Most  Detailed  Dimensions

Most  D

etailed  Dimen

sion

s  <city

,  car  nam

e>

County State City Company Car  Type Car  Name Date Avg  of  Top  20

USA California San  Jones TOYOTA Sedan   Corolla   2012-­‐08-­‐15 $3,600

USA California ALL TOYOTA Sedan Alion 2012-­‐08-­‐15 $2,400

USA ALL ALL NISSAN SUV X-­‐TRAIL 2012-­‐08-­‐16 $1,000

ALL ALL ALL NISSAN Sport FAIRLADY  Z 2012-­‐08-­‐16 $640

USA California San  Jones TOYOTA Sedan   ALL   2012-­‐08-­‐15 $3,600

USA California San  Jones TOYOTA ALL ALL 2012-­‐08-­‐15 $1,100

USA California San  Jones ALL ALL ALL 2012-­‐08-­‐15 $2,300

… … … … … … … …

ALL ALL ALL ALL ALL ALL ALL $720

Holis-c  Measure

*  Date  Dimension  はツール側で自動的にlevelを考慮してくれる

<country,  car  name> <country,  *>

<*,  *>

<country,  car  type>

<*,  car  name>

<county,  car  name>

<state,  car  name>

<city,  car  name>

Loca:on  Hierarchy Products  Hierarchy Date  Hierarchy

3.  Business  Intelligence

Page 77: Treasure Data Intro for Data Enthusiast!!

77  

Big  Cube  

Mini  Cubes  Batch  Process  

Treasure  Batch  Query  

Treasure  Batch  Query   On  Memory  

1-­‐2.  Making  Mini  Cubes  from  Big  Cube

Focus!

•  軸にするディメンジョンを 大2つ選択し,Mini  Cubeを作成する。  

•  必要名ディメンジョンの組み合わせだけ,Mini  Cubeが作られる。  

•  階層を持ったディメンジョンは1つのディメンジョンとして扱う。  

•  例1.Time:  year  >  month  >  day  >  hour  •  例2.Item:category    >  sub_category  >  

item_name  •  Dashboard  や  BIから直接参照するこ

とを前提としているので,Mini  Cubesの保存場所はデータベース(インデックスをきちんと作成しておく),メモリ上になる。  

非専門家による  パターンプロセス  

Page 78: Treasure Data Intro for Data Enthusiast!!

78  

Cross  Tables  

Mini  Cubes   Interac-ve

Treasure  Batch  Query  

Treasure  Batch  Query  

BI  Tools

Excel  

On  Memory  

1-­‐3.  Making  Cross  Table  from  Mini  Cubes

Focus!

•  さらに  Mini  Cube  の中でクロス集計が必要なものは  Excel  などの統計ツールや  BI  の機能を使って作成する。  

•  Mini  Cube  を2つのディメンジョンに限定したのはクロス集計における2軸の設定を自動で行うため。  

•  クロステーブルの各セルの値には合計,数,平均などが入る。  

•  クロス集計をインプットとした可視化はよりわかりやすいものになりやすい。  

非専門家による  パターンプロセス  

Page 79: Treasure Data Intro for Data Enthusiast!!

79  

Dashboard

BI  Tools

Cross  Tables  

Mini  Cubes   Interac-ve Interac-ve Visualize  

Treasure  Batch  Query  

Treasure  Batch  Query  

Treasure  Ad-­‐hoc  Query  

Treasure  Ad-­‐hoc  Query  

BI  Tools

Excel  

Import  

Import  

Connector  

On  Memory  

1-­‐4.  Repor-ng  from  Mini  Cube  or  Cross  Table

Focus!

•  作成したMini  CubeおよびCross  TableをDashboard  および  BIのインプットデータとする。  

•  レポーティング中に新しい項目の集計が必要な場合はBig  CubeからMini  Cubeに切り出してそれを新たなインプットとする。  

非専門家による  パターンプロセス  

専門アナリスト  

Page 80: Treasure Data Intro for Data Enthusiast!!

80  

2.  Graph  Data  Processing  Design

Page 81: Treasure Data Intro for Data Enthusiast!!

81  

2.  Graph  Data  Processing  Design

•  データのテーブルまたは項目を,「ディメンジョン」「メジャー」で分けるのではなく,ノード・エッジ・ステータスのグラフ(Property  Graph)で表現する。  

•  上記の例では,ブックレビューデータの例。ユーザーが本をレビューした場合,ユーザー(ノード)が本(ノード)に対して“review”(エッジ)をした場合の  Property  Graph。  

Page 82: Treasure Data Intro for Data Enthusiast!!

82  

2-­‐1.  Property  Graph  (Access  Log)

•  アクセスログもまた  Property  Graph  による表現が可能。ユーザーが特定できていなくても,ページ間(ノード)の遷移:  “access”  というアクションをエッジにしてグラフに落とし込む。  

Page 83: Treasure Data Intro for Data Enthusiast!!

83  

2-­‐2.  Property  Graph  (Book  Review  Dataset)

•  引き続きブックレビューデータの例。ユーザー(ノード)は本(ノード)に対して”add  to  list”,  “review”,  “buy”  という3種類のアクションを起こしている。  

•  さらに別ユーザー(ノード)がレビューしたユーザーに対して  “comment”  というアクションを起こしている。  

Page 84: Treasure Data Intro for Data Enthusiast!!

84  

2-­‐3.  Property  Graph  (Social  Game  Dataset)

•  ソーシャルゲームデータの例。ユーザー(ノード)はアイテム(ノード)に対して  “pay”(エッジ) アクションを,仮想通貨(ノード)に対して  “use”,  “get”  (エッジ)アクションを起こしている。また,アイテムは上位階層としてカテゴリ(ノード集合)を持つ。  

•  また,ユーザー間に対して  “invite”(エッジ)アクションを,自分自身に対して  “login”,  “register”  を行っている。  

Page 85: Treasure Data Intro for Data Enthusiast!!

85  

2-­‐4.  Property  Graph  Visualiza-on

•  ブックレビューの分析事例。それぞれのアクション  “review”,  “comment”,  “add  to  list”(エッジ)を分析軸としてデータ集計を行う。  

•  ブックレビューデータセットによるデータ解析入門(準備編)  hTp://doryokujin.hatenablog.jp/entry/2012/06/28/011526  

•  ブックレビューデータセットによるデータ解析入門(実践編1)  hTp://doryokujin.hatenablog.jp/entry/2012/06/29/174702  

•  ブックレビューデータセットによるデータ解析入門(実践編2)  hTp://doryokujin.hatenablog.jp/entry/2012/07/03/024022  

Page 86: Treasure Data Intro for Data Enthusiast!!

86  

Sec.6  Data  Visualiza-on  •  1.  Treasure  Viewer  •  2.  Dashboard:  Metric  Insights  

•  3.  Business  Intelligence:  Tableau  

Page 87: Treasure Data Intro for Data Enthusiast!!

87  

1.  Treasure  Viewer

目的  –  TD  Management  Console  からグラフを素早く参照するため  

–  サンプルデータを素早く可視化し,全体像を把握するため  

要求  –  集計結果を表・グラフですぐ表示できること  

–  TD  Management  Console  内で機能すること  

–  JS  ライブラリによるインタラクティブかつ綺麗なチャートである事  

このために作られたのが

Treasure Viewer

Page 88: Treasure Data Intro for Data Enthusiast!!

88  

1.  Treasure  Viewer •  データ可視化ツールをデフォルトで提供  

–  TQA  (Treasure  Query  Accelerator)  を利用し、大量のデータからドラッグ  &  ドロップでデータの可視化が行える  

–  簡易な可視化ツールの扱い。高度な機能・要件が求められる場合、パートナーのBIツールを使用してお客様の要件を満たす事も多い。  

3rd  Party  BI  Tool  (Tableau)  Treasure  Viewer  

Page 89: Treasure Data Intro for Data Enthusiast!!

89  

1.  Treasure  Viewer

1. Database, Table名を選択

Page 90: Treasure Data Intro for Data Enthusiast!!

90  

1.  Treasure  Viewer

3. X-軸,Y-軸となるカラムを選択,ドラッグ&ドロップ

2. グラフを選択 レコードサンプルを表示

Page 91: Treasure Data Intro for Data Enthusiast!!

91  

1.  Treasure  Viewer

自動的にクエリが生成される

グラフを表示

Page 92: Treasure Data Intro for Data Enthusiast!!

92  

Dashboard(MI)  と  BI  (Tableau)  の違い

Dashboard ( Metric Insights ) BI  (  Tableau  )

目的

•  毎日更新されるデータ (KPI) を素早く参照する

ため

•  解析者に関わらず全てのユーザーが参照する

ため

•  異常値やイベントなどの効果を素早く把握する

ため

•  Smart Phone や Tablet からも参照するため

•  様々の切り口・セグメントの組合せでデータを閲覧す

るため

•  インタラクティブな操作でドリルダウンや軸の切り替

えを行うため

•  様々なチャートとテーブルを組合せた情報表現を行

うため

•  プレゼンに耐えうるクオリティの高いレポートを作成

するため

要請

•  異常検出機能,およびアラート機能を備えてい

ること

•  チャートへのアノテーション機能を備えているこ

•  チャートの一覧性・わかりやすさを重視してい

ること

•  (任意の時間インターバルでの)データ自動更

新機能を持っていること

•  素早く編集可能な互いに独立したパネル(ウィ

ジェット)を持っていること

•  様々なデータベース・ファイル形式と接続でき

るコネクタを備えていること

•  インタラクティブな操作が可能なこと

•  豊富なチャートライブラリ,ダッシュボードエディタの

実装していること

•  適化された中間データ構造(Data Cubeなど)を備

えていること

•  マウス操作によってデータの深堀りや切り口の切り

替えが可能なこと

•  JDBC / ODBC コネクタを初めとした様々なデータソー

スとの接続口を持つこと

Page 93: Treasure Data Intro for Data Enthusiast!!

93  

2.  Dashboard

Page 94: Treasure Data Intro for Data Enthusiast!!

94  

2.  Dashboard

目的  –  毎日更新されるデータ  (KPI)  を素早く参照するため  –  解析者に関わらず全てのユーザーが参照するため  –  異常値やイベントなどの効果を素早く把握するため  –  Smart  Phone  や  Tablet  からも参照するため  

要求  –  異常検出機能,およびアラート機能を備えていること  

–  チャートへのアノテーション機能を備えていること  

–  チャートの一覧性・わかりやすさを重視していること  

–  (任意の時間インターバルでの)データ自動更新機能を持っていること  

–  素早く編集可能な互いに独立したパネル(ウィジェット)を持っていること  

–  様々なデータベース・ファイル形式と接続できるコネクタを備えていること  

Metric Insights はこれらの

役割を高次元で担っている

Page 95: Treasure Data Intro for Data Enthusiast!!

95  

特徴:  –  メールアラート・アノテーション機能  –  1つ1つのウィジェットにクエリを埋め込む独立

型  –  あらゆるデータソース:{  テキスト,データベ

ース,TD  Cloud  Storage  }  からのウィジェット

を並べる事ができる  –  {  クエリ,集計インターバル,チャートタイプ

,データソース  }  指定のみで自動更新  –  ピボットテーブル,バブル /  ボックス /  ファ

ンネル チャートにも対応  –  セットアップが容易  

 

Page 96: Treasure Data Intro for Data Enthusiast!!

96  

Data  Personaliza-on

Page 97: Treasure Data Intro for Data Enthusiast!!

97  

2.  Dashboard:  Widget  Seungs 1. 集計インターバルを設定

2. メジャーの種類を設定

3. カテゴリを設定

Page 98: Treasure Data Intro for Data Enthusiast!!

98  

2.  Dashboard:  Widget  Seungs

4. Plug-inを選択

5. 接続するデータソースを指定

6. クエリを記述

7. Sample Result を確認

Page 99: Treasure Data Intro for Data Enthusiast!!

99  

2.  Dashboard:  Widget  Seungs

Page 100: Treasure Data Intro for Data Enthusiast!!

100  

Personalized  Email  Digest  Delivered  to  Users

トレンドライン

コメント

重要な変化に関する アラート

View 詳細

Page 101: Treasure Data Intro for Data Enthusiast!!

101  

Unique  Product  Benefits

アラートなし  

日次  Sales  Chart  

統計的に有意な変化についてはアラートで通知  

期待(予想)変動帯  

Page 102: Treasure Data Intro for Data Enthusiast!!

102  

3.  Business  Intelligence:  Tableau

Page 103: Treasure Data Intro for Data Enthusiast!!

103  

3.  Business  Intelligence

Goal  –  Overview  first,  zoom  and  filter,  then  details-­‐ondemand  

–  様々の切り口・セグメントの組合せでデータを閲覧するため  

–  インタラクティブな操作でドリルダウンや軸の切り替えを行うため  

–  様々なチャートとテーブルを組合せた情報表現を行うため  

–  プレゼンに耐えうるクオリティの高いレポートを作成するため  

 

 Demand  –  インタラクティブな操作が可能なこと  

–  豊富なチャートライブラリ,ダッシュボードエディタの実装していること  

–  適化された中間データ構造(Data  Cubeなど)を備えていること  

–  マウス操作によってデータの深堀りや切り口の切り替えが可能なこと  

–  JDBC  /  ODBC  コネクタを初めとした様々なデータソースとの接続口を持つこと  

Tableau はこれらの

役割を高次元で担っている

Page 104: Treasure Data Intro for Data Enthusiast!!

104  

3.  Business  Intelligence Tableau  

–  大多数の企業の導入実績(Zynga,  Nokia,  eBay,  etc…)  –  TD  用コネクタなど,連携が容易  –  豊富なチャートライブラリとデータソースコネクタを持つ  

Page 105: Treasure Data Intro for Data Enthusiast!!

105  

Tableau:  Seungs

Page 106: Treasure Data Intro for Data Enthusiast!!

106  

Tableau:  Seungs  

Page 107: Treasure Data Intro for Data Enthusiast!!

107  

Tableau:  Seungs  

Page 108: Treasure Data Intro for Data Enthusiast!!

108  

Tableau:  Seungs  

Page 109: Treasure Data Intro for Data Enthusiast!!

109  

Tableau:  Seungs  

Page 110: Treasure Data Intro for Data Enthusiast!!

110  

Tableau:  Seungs  

Page 111: Treasure Data Intro for Data Enthusiast!!

111  

Tableau:  Seungs  

Page 112: Treasure Data Intro for Data Enthusiast!!

112  

Tableau:  Seungs  

Page 113: Treasure Data Intro for Data Enthusiast!!

113  

Tableau:  Seungs  

Page 114: Treasure Data Intro for Data Enthusiast!!

114  

Treasure Cloud Storage

C-level Execs

Managers

Employees

KPIs  

Data-­‐Driven  Aler:ng  Collabora:on  Email  Burs:ng  

Tableau Dashboards

Increased  and  more  :mely  usage  

4.  MI  as  KPI  Dashboard  &  Tableau  as  Repor-ng  Tool

Page 115: Treasure Data Intro for Data Enthusiast!!

115  

Metric  Manager  for  Tableau

複数の  KPI  を組合せたレポーティング  

•  主要 KPI  を一覧,モニタリングするツールとしての Metric  Insights  

•  MI  の  KPI  群を組み合わせ,数値テーブルや考察を並べた レポー

ティングツールとしての Tableau  

•  MI  へのダッシュボード埋込フローはプロセス化して学生アルバイト

でも行えるように。  

•  Tableau  へのレポーティングフローは専門アナリストが行う。  

定時  KPI  取得クエリ  

KPI考察,  レポートサマリ  

Treasure Cloud Storage

Treasure Cloud Storage

応用的な分析クエリ  

・ エンジニア  ・ マネージャー  ・ アナリスト  

・ 上司  ・ 意思決定者  ・ ディレクター  

参照,モニター,アラート  

Page 116: Treasure Data Intro for Data Enthusiast!!

116  

Sec.7  Learning  Visualiza-on  Paverns  •  Learning  Visualiza:on  PaTerns  Part.1    hTp://doryokujin.hatenablog.jp/entry/2012/07/17/012854  

•  Learning  Visualiza:on  PaTerns  Part.2      hTp://doryokujin.hatenablog.jp/entry/2012/07/18/005737  

•  Learning  Visualiza:on  PaTerns  Part.3      hTp://doryokujin.hatenablog.jp/entry/2012/07/18/084702  

Page 117: Treasure Data Intro for Data Enthusiast!!

117  

Discussion & Q and A