35
Talend勉強会 2015-04-15 @kuro

Talend勉強会 20150414

  • Upload
    kuroiwa

  • View
    143

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Talend勉強会 20150414

Talend勉強会 2015-04-15 @kuro

Page 2: Talend勉強会 20150414

本スライドの内容は個人的な調査の結果であり、株式会社Talendとの関係はありません。

!

Page 3: Talend勉強会 20150414

アジェンダ• Talend製品について:10分

• Talend Open Studio for Data Integration デモ:20分

• 有償版との違いについて:15分

• 質疑応答:15分

• 質問は適宜して頂いて結構です!3

Page 4: Talend勉強会 20150414

Talend製品について

Page 5: Talend勉強会 20150414

Talend製品ポートフォリオ

• http://www.slideshare.net/talendkk/talendtalend54 のP.26~

• 6つのモジュールと3つの製品レベル

5

Page 6: Talend勉強会 20150414

10分

Page 7: Talend勉強会 20150414

Talend Open Studio for Data Integration デモ

Page 8: Talend勉強会 20150414

デモのお題• 店舗ID(storeId)と売上(sales)が含まれるcsvファイルを入力とする。店舗IDは同じIDが複数回含まれる。

• 同一店舗IDで売上を合算した売上合計(totalSales)を一覧として店舗名(storeName)と組でcsvファイル出力する。店舗名はDBの店舗マスタ(store)を参照する。

• 細かいルール(店舗IDの規則など)は省略。

Page 9: Talend勉強会 20150414

デモのお題

storeId,sales 0001,100 0002,200 0003,300 0001,10000 0002,20000 0003,30000

storeName,totalSales 池袋店,10100 新宿店,20200 品川店,30300

store_id store_name0001 池袋店

0002 新宿店

0003 品川店

店舗マスタ(store)

入力データ(sales)

出力ファイル(totalSales)

Page 10: Talend勉強会 20150414

事前準備するもの

• 入力ファイルサンプル(1行目はカラム名)

• 出力ファイルサンプル(1行目はカラム名)

• マスタデータサンプル@DBサーバ

Page 11: Talend勉強会 20150414

デモ メタデータの作成

Page 12: Talend勉強会 20150414

メタデータの作成• メタデータ≒スキーマ≒入出力データ定義

• 入出力データ定義はコンポーネント毎にも指定できるが、メタデータ化することで他のコンポーネントやジョブ間で共有できる。

• メタデータを変更した場合、該当のメタデータを利用しているコンポーネントに自動反映。

• メタデータを0から手で作ることも可能だが、実データを元に自動生成した方が楽。

Page 13: Talend勉強会 20150414

デモ ジョブの作成

Page 14: Talend勉強会 20150414

ジョブの作成• コンポーネントの配置はパレットからドラッグ&ドロップ or 名前を覚えたらデザイナーの空き地にフォーカスを当てて文字入力することでインクリメンタルサーチ。

• 各コンポーネント間の接続はRow接続(データの接続)とトリガ接続(イベントの接続)の2パターンがある。

Page 15: Talend勉強会 20150414

デモ ジョブのエクスポート

Page 16: Talend勉強会 20150414

ジョブのエクスポート• エクスポートでjarとランチャ(sh, bat)が生成される。

• ランチャの実行でジョブが実行される。

• 実行時にパラメータを指定してジョブに渡すことも可能。

• 有償版はエクスポートでサーバ配置するのではなくリポジトリ(SVN)経由。

Page 17: Talend勉強会 20150414

デモ コンテキストの利用

Page 18: Talend勉強会 20150414

コンテキストの利用• コンテキストを利用することで環境別設定が実化可能(DB接続先、ファイル配置先、ファイル文字コード、区切り文字など)。

• メタデータのパラメータを自動的にコンテキストすることが可能(コンテキストとしてエクスポート)。

• どの環境設定を利用するかはジョブ実行時にパラメータとして指定できる。

Page 19: Talend勉強会 20150414

デモ 試験データの作成

Page 20: Talend勉強会 20150414

試験データの作成

• tRowGeneratorコンポーネントでデータ生成が可能。

• ランダムデータを作るための関数もいくつか用意されている(シーケンス、ランダム、US氏名、US住所)。

Page 21: Talend勉強会 20150414

デモ その他コンポーネントの紹介

Page 22: Talend勉強会 20150414

その他コンポーネントの紹介

• Java実行

• Sort

• など時間があれば

Page 23: Talend勉強会 20150414

30分

Page 24: Talend勉強会 20150414

有償版との違い (Data Integration)

Page 25: Talend勉強会 20150414

製品比較表(概要)

http://jp.talend.com/products/data-integration

特長 Talend Open Studio forData Integration

Talend EnterpriseData Integration

ジョブデザイナ x xビジネスモデラ x x800以上のコネクタ x xバージョン管理 x x共有リポジトリ xスケジューリング xモニタリング xウィザード x補償/保証 xライセンス Open Source Subscription

http://jp.talend.com/products/data-integration/matrix詳細は

Page 26: Talend勉強会 20150414

モジュール構成

Talend Open Studio

 開発・運用端末

Subversion (リポジトリ)

JobServer

Administration Center

Activity Monitoring Console

LogServer

Kibana

JobServerJobServerJobServer

ログモニタリング

ログをLogServerに集約

メタ、統計データ

ジョブ資材を取得

ジョブ実行支持

設定保存、読込

資材チェクイン、チェックアウト

統計情報取得

ブラウザ

Page 27: Talend勉強会 20150414

共有リポジトリStudioで保存する度にSubversionに自動コミット。

Page 28: Talend勉強会 20150414

TACからのジョブ制御Talend Administration Centerからジョブのデプロイ、スケジューリングが可能。

バージョン指定したデプロイ

Page 29: Talend勉強会 20150414

TACからのジョブ制御Talend Administration Centerからジョブのデプロイ、スケジューリングが可能。

Page 30: Talend勉強会 20150414

処理の並列化有償版Studioでは処理の並列化が可能。tParalizeコンポーネントを利用した並列化

データフローの並列化

Page 31: Talend勉強会 20150414

ドキュメント自動生成ジョブ作成時に自動的にドキュメントを生成。Open Studioでも手動で作成はできる。

Page 32: Talend勉強会 20150414

AMCによる性能監視Activity Monitoring Consoleによるジョブのステータス、処理時間の監視。

Page 33: Talend勉強会 20150414

遠隔サーバでの実行Studioから遠隔サーバでジョブを実行可能。

Page 34: Talend勉強会 20150414

45分

Page 35: Talend勉強会 20150414

質疑応答