40
オオオオオオオオ ETL オオオ Pentaho Data Integration PDI オオオオ PostgreSQL オオオオオオオオオ オオオ @( 9/6 KSK オオオオオオオ オオオオ TwitterID:@teruu

オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

Embed Size (px)

DESCRIPTION

PostgreSQLアンカンファレンス@東京(9/6) 発表資料です。 https://atnd.org/events/54447

Citation preview

Page 1: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

オープンソースの ETL ツールPentaho Data

Integration ( PDI )のご紹介

PostgreSQL アンカンファレンス@東京( 9/6 )

KSK アナリティクス川崎照夫

TwitterID:@teruu

Page 2: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

自己紹介

川崎照夫TwitterID: @teruu所属: KSK アナリティクスBI 歴:2年 (※ BI :ビジネス・インテリジェンス)DB 歴: 17 年

Page 3: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

DWH 系データベースを探しています

HP Vertica Community Edition→ production 環境も可

PostgreSQL-XL→ 永安さんブログ

「 Chef/serverspec を使って Postgres-XL を 2 分でデプロイする」

http://pgsqldeepdive.blogspot.jp/2014/06/deploying-postgres-xl-chef-serverspec.html

関連ツイート(今回このツイートを見て、この会に参加させていただきました)https://twitter.com/snaga/status/491907303155564544

Page 4: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

こちらの永安さんのやり取りを拝見したのがきっかけで今回参加させていただきました

Page 5: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

自己紹介

オープンソース BI 勉強会 #10https://atnd.org/events/56153

Page 6: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

Yahoo リアルタイム検索「 pentaho 」定点観測中・「日本語の資料が全然ない」というツイート

日本の Pentaho ユーザ・日本語の情報が見つからない・やりたいことがなかなかできない ( 簡単なことなのに ...)・フラストレーションがたまりがち

6/83

Pentaho のチュートリアル資料を充実

Pentaho のチュートリアル資料を充実

Page 7: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

これまでの開催

• #5 MongoDB+Pentaho ハンズオン• #6 OLAP ハンズオン• #7 ETL ハンズオン• #8 定型レポート• #9 CTools ( ダッシュボード )

Page 8: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

次回以降

• #10 OLAP ハンズオン ( 9/30 )• #11 ETL ハンズオン• #12 定型レポートハンズオン• #13 CTools( ダッシュボード ) ハンズオ

Page 10: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

会員制ドキュメント・ダウンロード・サービス「 LiBRA 」 ( リブラ )→ 提供資料の加工編集、再配布が可能(http://libra.netcommerce.co.jp/)以降は LiBRA の「ビジネス・インテリジェンス」から引用(http://libra.netcommerce.co.jp/library/knowledge/841)

Page 11: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
Page 12: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
Page 13: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

ETL ツール使ってますか?

• 商用製品

• オープンソース ( 出典: Wikipedia)

– Talend Open Studio for Data Integration

– JasperReports ETL– Clover.ETL– Enhydra Octopus– Pentaho Data Integration

Page 14: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

オープンソースの ETL ツールPentaho Data Integration ( PDI )

Page 15: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

GitHub (ギットハブ)での開発

PDI をはじめ Pentaho のオープンソース製品は、ソフトウェア開発のための共有ウェブサービスである「 GitHub 」を利用して開発が行われています。GitHub にアクセスすることで、活発なソフトウェア開発の様子を見ることができます。また、公開されているソースコードを参照でき、バグの修正などの形で PDI のソフトウェア開発に参加することも可能です。

◇PDI の GitHub リポジトリhttps://github.com/pentaho/pentaho-kettle

Page 16: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

ダウンロード• Pentaho 配布サイトhttp://community.pentaho.com/http://sourceforge.net/projects/pentaho/files/

• Pentaho 配布サイト PDIhttp://sourceforge.net/projects/pentaho/files/Data

%20Integration/

• ダウンロード候補– pdi-ce-5.1.0.0-752.zip

Page 17: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

インストール

• ダウンロードするだけ( Java の環境があれば)

• DB の JDBC ドライバを追加– postgresql のドライバは同梱されている

• SourceForge のサイトからダウンロードし、

Windows であれば、解凍したフォルダ中のSpoon.bat をダブルクリック• 起動後、言語の設定を確認(日本語に

なっているか)

Page 18: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

Spoon 起動 Windows の場合、 Spoon.bat ファイルをダブルクリックして起動します。

Page 19: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

新規→データ変換 ファイル→新規→データ変換、を選択します。

デザインタブ

キャンバス

ツールバー

Page 20: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

データ変換作成

• DB 出力(※過去のハンズオンから)

詳細は下記資料をごらんください。#7 ETL ハンズオンhttp://www.slideshare.net/teruok/pdi-tutorial-20140121

Page 21: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

テキストファイル入力新規→データ変換 を選択。「入力」ノードから「テキストファイル入力」を選択。

Page 22: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

ステップ配置「出力」ノードから「テキストファイル出力」を選択。下記のように配置します。

Page 23: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

テキストファイル入力「テキストファイル入力」ステップで先ほど出力したファイルを指定。「プレビュー」ボタンをクリック。

Page 24: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

プレビュー プレビューを確認。

Page 25: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

テキストファイル入力全般タブ

全般タブで「入力タブ」ボタンをクリックしてタブを入力。

Page 26: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

テキストファイル入力フィールドタブ

「フィールドを取得」をクリック。

Page 27: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

走査した結果 走査した結果が表示される。

Page 28: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

テーブル出力「テーブル出力」ステップを編集。テーブル名を指定。「列名を指定する」チェックボックスを ON に。「フィールドを取得」ボタンをクリックして、フィールド欄に自動記入。「 SQL 」ボタンをクリック。

Page 29: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

SQL 文生成、実行CREATE TABLE 文が生成される。「実行」ボタンをクリックして、出力先のテーブル作成。

Page 30: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

フィールドマッピング「フィールドマッピング」ボタンをクリックして、マッピングの内容を確認。

Page 31: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

実行ツールバーの「実行」をクリック。「実行」ボタンをクリック。

Page 32: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

実行結果 実行結果が表示される。

Page 33: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

照会DB に出力した内容を確認。ビュータブのデータベース接続から該当の接続を右クリックして、「照会」を選択。

Page 34: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

データベースエクスプローラー

該当のテーブルを選択。

Page 35: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

プレビュー該当のテーブルを右クリックして、「 x 行プレビュー」を選択。

Page 36: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

プレビュー テーブルの内容が表示される。

Page 37: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

データ変換作成

• DB 出力

Page 38: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

関連書籍

ハンズオンのスライドでは、左側の「 Pentaho Data Integration Beginner’s Guide 」の内容を一部参考にしています。

Page 39: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

不明な点

• Pentaho のフォーラムへ– 日本語でコミュニティー・サポート

http://forums.pentaho.com/forumdisplay.php?86

Page 40: オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

オープンソース BI 勉強会 #10https://atnd.org/events/561539/30( 火 )19:00 ~ 大崎

オープンソースカンファレンス 2014 Tokyo/Fall

http://www.ospn.jp/osc2014-fall/10/18( 土 ) 、 19 日 ( 日 )→ 「オープンソース BI 勉強会」コミュニティで出展予定