14
Analytics Cloud と Embulk ととととととととととととと 株株株株株株株 株株

Analytics CloudとEmbulkを使った社会的データの分析

Embed Size (px)

Citation preview

Page 1: Analytics CloudとEmbulkを使った社会的データの分析

Analytics Cloud とEmbulk を使った社会的

データの分析株式会社ウフル 田実 誠

Page 2: Analytics CloudとEmbulkを使った社会的データの分析

Who Am I?名前:田実 誠

所属:ウフルの人

Salesforce Summer Tokyo に申し込まずにコミュニティハッピーアワーにだけ飛び入り参加する不心得者は私の事です。

Blog: http://freedom-man.com/blog/ Github: tzmfreedomTwitter: @tzm_freedomSlideShare: tzm_freedom

Page 3: Analytics CloudとEmbulkを使った社会的データの分析

Analytics Cloud ?• BI ツール付きデータストアな、大量データ分析プラット

フォーム• 億レベルのレコード数のデータを格納/解析可能• レンズ、ダッシュボードによるクリックベースの設定• SAQL ( Apache Pig Latin ライクなクエリ言語)

• フロントエンドは React/EclairNG• 転置インデックス• カラムナー DB

概要資料http://www.salesforce.com/jp/analytics-cloud/overview/

アーキテクチャhttp://www.slideshare.net/mokamoto/biweb

“Analytics Cloud 用”の Developer 環境で試せる!https://developer.salesforce.com/promotions/orgs/wave-de

Page 4: Analytics CloudとEmbulkを使った社会的データの分析

AnalyticsCloud の UI から取り込めるデータ種別

Page 5: Analytics CloudとEmbulkを使った社会的データの分析

AnalyticsCloud の UI から取り込めるデータ種別

び、微妙…

Page 6: Analytics CloudとEmbulkを使った社会的データの分析

AnalyticsCloud の UI から取り込めるデータ種別

S3 とか TreasureData とか BigQuery とか RedShift とか HDFS とか、そういうところからロードしたいはず。

え、 CSV だけ…?それ以外はファイル変換しなきゃダメなの

…?

普通の RDB からも入力したいな…

んーエンジニアっぽくテキストベースでスマートに

バルクロードできるやつないかなー

Page 7: Analytics CloudとEmbulkを使った社会的データの分析

ということで Embulk に目を付けた• バルクデータローダな OSS

• 並列処理をすることで高速なアップロードを実現

• Fluentd のバッチ版

• Fluentd 同様プラガブルなアーキテクチャ

• リトライ/エラーハンドリング→利用するプラグインに依存するけど…

• 設定ファイルをある程度自動的に作成してくれる仕組み(guess)

• TreasureData が担っている OSS$ embulk run config.yml

Page 8: Analytics CloudとEmbulkを使った社会的データの分析

embulk-output-analytics_cloud をリリース

Page 9: Analytics CloudとEmbulkを使った社会的データの分析

こんな感じで設定すればおk

out: type: analytics_cloud username: [email protected] password: xxxxxx edgemart_alias: foobar auto_metadata_settings: {}

INPUT から算出したスキーマ情報から、自動的にメタデータ JSON を作ってく

れる。明示的に指定することも可能

Page 10: Analytics CloudとEmbulkを使った社会的データの分析

全体こんな感じin: type: s3 bucket: tzmfreedom-tweet-stock path_prefix: sakamichi/2016/05/01 endpoint: s3-ap-northeast-1.amazonaws.com access_key_id: AKI****** secret_access_key: ******* decoders: - {type: gzip} parser: type: jsonl charset: UTF-8 newline: CRLF columns: - {name: id_str, type: string} - {name: text, type: string} - {name: timestamp_ms, type: string}filters: - type: typecast columns: - {name: created_at, type: timestamp, format: "%a %b %d %H:%M:%S %z %Y"}out: type: analytics_cloud username: [email protected] password: ******* edgemart_alias: foobar auto_metadata_settings: {}

S3 から

jsonl 形式のデータを

gzip で圧縮されたファイルで

AnalyticsCloud にロードする

Page 11: Analytics CloudとEmbulkを使った社会的データの分析

嫌な予感しかしない DEMO今回は乃木坂 46, 欅坂 46 に関するツイートを集めてAnalytics Cloud で分析。

Twitter Streaming API で各メンバーの名前及びグループ名が入っているツイートをリアルタイムに取得

embulk-output-analytics_cloud

jsonl ファイルとして格納

Page 12: Analytics CloudとEmbulkを使った社会的データの分析

Embulk の起動

Page 13: Analytics CloudとEmbulkを使った社会的データの分析

ジョブはこんな感じ

Page 14: Analytics CloudとEmbulkを使った社会的データの分析

ツイート分析ダッシュボード