Upload
teruo-kawasaki
View
1.472
Download
0
Embed Size (px)
DESCRIPTION
PostgreSQLアンカンファレンス@東京(9/6) 発表資料です。 https://atnd.org/events/54447
Citation preview
オープンソースの ETL ツールPentaho Data
Integration ( PDI )のご紹介
PostgreSQL アンカンファレンス@東京( 9/6 )
KSK アナリティクス川崎照夫
TwitterID:@teruu
自己紹介
川崎照夫TwitterID: @teruu所属: KSK アナリティクスBI 歴:2年 (※ BI :ビジネス・インテリジェンス)DB 歴: 17 年
DWH 系データベースを探しています
HP Vertica Community Edition→ production 環境も可
PostgreSQL-XL→ 永安さんブログ
「 Chef/serverspec を使って Postgres-XL を 2 分でデプロイする」
http://pgsqldeepdive.blogspot.jp/2014/06/deploying-postgres-xl-chef-serverspec.html
関連ツイート(今回このツイートを見て、この会に参加させていただきました)https://twitter.com/snaga/status/491907303155564544
こちらの永安さんのやり取りを拝見したのがきっかけで今回参加させていただきました
Yahoo リアルタイム検索「 pentaho 」定点観測中・「日本語の資料が全然ない」というツイート
日本の Pentaho ユーザ・日本語の情報が見つからない・やりたいことがなかなかできない ( 簡単なことなのに ...)・フラストレーションがたまりがち
6/83
Pentaho のチュートリアル資料を充実
Pentaho のチュートリアル資料を充実
これまでの開催
• #5 MongoDB+Pentaho ハンズオン• #6 OLAP ハンズオン• #7 ETL ハンズオン• #8 定型レポート• #9 CTools ( ダッシュボード )
次回以降
• #10 OLAP ハンズオン ( 9/30 )• #11 ETL ハンズオン• #12 定型レポートハンズオン• #13 CTools( ダッシュボード ) ハンズオ
ン
これまでの資料
オープンソースBI勉強会メモ
• #7 ETL ハンズオンhttp://www.slideshare.net/teruok/pdi-tutorial-20140121
• #8 定型レポートhttp://www.slideshare.net/teruok/pentaho-reporting-20140729
会員制ドキュメント・ダウンロード・サービス「 LiBRA 」 ( リブラ )→ 提供資料の加工編集、再配布が可能(http://libra.netcommerce.co.jp/)以降は LiBRA の「ビジネス・インテリジェンス」から引用(http://libra.netcommerce.co.jp/library/knowledge/841)
ETL ツール使ってますか?
• 商用製品
• オープンソース ( 出典: Wikipedia)
– Talend Open Studio for Data Integration
– JasperReports ETL– Clover.ETL– Enhydra Octopus– Pentaho Data Integration
オープンソースの ETL ツールPentaho Data Integration ( PDI )
GitHub (ギットハブ)での開発
PDI をはじめ Pentaho のオープンソース製品は、ソフトウェア開発のための共有ウェブサービスである「 GitHub 」を利用して開発が行われています。GitHub にアクセスすることで、活発なソフトウェア開発の様子を見ることができます。また、公開されているソースコードを参照でき、バグの修正などの形で PDI のソフトウェア開発に参加することも可能です。
◇PDI の GitHub リポジトリhttps://github.com/pentaho/pentaho-kettle
ダウンロード• Pentaho 配布サイトhttp://community.pentaho.com/http://sourceforge.net/projects/pentaho/files/
• Pentaho 配布サイト PDIhttp://sourceforge.net/projects/pentaho/files/Data
%20Integration/
• ダウンロード候補– pdi-ce-5.1.0.0-752.zip
インストール
• ダウンロードするだけ( Java の環境があれば)
• DB の JDBC ドライバを追加– postgresql のドライバは同梱されている
• SourceForge のサイトからダウンロードし、
Windows であれば、解凍したフォルダ中のSpoon.bat をダブルクリック• 起動後、言語の設定を確認(日本語に
なっているか)
Spoon 起動 Windows の場合、 Spoon.bat ファイルをダブルクリックして起動します。
新規→データ変換 ファイル→新規→データ変換、を選択します。
デザインタブ
キャンバス
ツールバー
データ変換作成
• DB 出力(※過去のハンズオンから)
詳細は下記資料をごらんください。#7 ETL ハンズオンhttp://www.slideshare.net/teruok/pdi-tutorial-20140121
テキストファイル入力新規→データ変換 を選択。「入力」ノードから「テキストファイル入力」を選択。
ステップ配置「出力」ノードから「テキストファイル出力」を選択。下記のように配置します。
テキストファイル入力「テキストファイル入力」ステップで先ほど出力したファイルを指定。「プレビュー」ボタンをクリック。
プレビュー プレビューを確認。
テキストファイル入力全般タブ
全般タブで「入力タブ」ボタンをクリックしてタブを入力。
テキストファイル入力フィールドタブ
「フィールドを取得」をクリック。
走査した結果 走査した結果が表示される。
テーブル出力「テーブル出力」ステップを編集。テーブル名を指定。「列名を指定する」チェックボックスを ON に。「フィールドを取得」ボタンをクリックして、フィールド欄に自動記入。「 SQL 」ボタンをクリック。
SQL 文生成、実行CREATE TABLE 文が生成される。「実行」ボタンをクリックして、出力先のテーブル作成。
フィールドマッピング「フィールドマッピング」ボタンをクリックして、マッピングの内容を確認。
実行ツールバーの「実行」をクリック。「実行」ボタンをクリック。
実行結果 実行結果が表示される。
照会DB に出力した内容を確認。ビュータブのデータベース接続から該当の接続を右クリックして、「照会」を選択。
データベースエクスプローラー
該当のテーブルを選択。
プレビュー該当のテーブルを右クリックして、「 x 行プレビュー」を選択。
プレビュー テーブルの内容が表示される。
データ変換作成
• DB 出力
関連書籍
ハンズオンのスライドでは、左側の「 Pentaho Data Integration Beginner’s Guide 」の内容を一部参考にしています。
不明な点
• Pentaho のフォーラムへ– 日本語でコミュニティー・サポート
http://forums.pentaho.com/forumdisplay.php?86
オープンソース BI 勉強会 #10https://atnd.org/events/561539/30( 火 )19:00 ~ 大崎
オープンソースカンファレンス 2014 Tokyo/Fall
http://www.ospn.jp/osc2014-fall/10/18( 土 ) 、 19 日 ( 日 )→ 「オープンソース BI 勉強会」コミュニティで出展予定