17
情報流通を支えるデータ統合技術の国内外最新技術の動向 Talend株式会社 コンサルティングマネージャー 正金 秀規 ( [email protected] ) Talend株式会社 Office :〒107-0062 東京都港区南青山 5-10-13 デコパージュ南青山4F Telephone 03-6427-6370 Facsimile 03-3409-6521 URL http://jp.talend.com, http://www.talendforge.org 本書に記載の会社名、製品名、ロゴ等は各社の商標または登録商標です インフラ・イノベーション研究会 第8回講演会 「情報の有効活用~蓄積・流通~」 20111020於:中島董一郎記念ホール

情報流通を支えるデータ統合技術の国内外最新技術 …advanced-infra.sakura.ne.jp/sblo_files/advanced-infra/...情報流通を支えるデータ統合技術の国内外最新技術の動向

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

情報流通を支えるデータ統合技術の国内外 新技術の動向

Talend株式会社 コンサルティングマネージャー

正金秀規 ( [email protected] )

Talend株式会社Office :〒107-0062 東京都港区南青山 5-10-13 デコパージュ南青山4FTelephone : 03-6427-6370Facsimile : 03-3409-6521URL : http://jp.talend.com, http://www.talendforge.org

本書に記載の会社名、製品名、ロゴ等は各社の商標または登録商標です

インフラ・イノベーション研究会 第8回講演会「情報の有効活用~蓄積・流通~」

2011年10月20日於:中島董一郎記念ホール

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

1

0. 自己紹介

講師略歴

1980年代終盤:

大学で気象シミュレーションを計算するロジックを「計算機」に実装する研究をやる傍ら、ソフトハウスにて大型汎用機上に業務処理をCOBOL言語でプログラミングする開発作業に従事。

1990年代前半:大学卒業後、大手IT事業会社の研究開発部門に「自然言語処理 / 人口知能」の研究員として入社。Common Lisp処理系の国際/日本語化や自然言語解析処理の研究を担当。傍ら、インターネットの前身である「JUNET」PRJ.に参加。

1990年代後半:

米国西海岸系データベースベンダーに所属し、大型汎用機からオープン系サーバー上に業務システムを移行するコンサルティング支援を実施。主に、国内都市銀行における市場系取引システム等を担当。

2000年代初頭:監査法人系コンサルティングファームに居を移し、銀行業向け管理会計ソリューションを構築。地方銀行数行へ導入。

2000年代中盤:

情報流通技術の中核を成す「データ統合」ベンダーの日本法人を起ち上げ。主に、現場でのソリューション導入とシステム構築PRJのマネジメントを担当。主に、通信会社、金融機関、保険会社、製造業の皆様とPRJを遂行。

2000年代終盤~現在:引き続きデータ統合分野のITコンサルティング業を行う傍ら、現業:Talend株式会社日本法人を2010年より開始。

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

2

0. Talend概要

図:Talend本社、海外拠点オフィス

Paris (Suresnes) コーポレート営業マーケティングR&D技術支援

London (Maidenhead)営業マーケティング

技術支援

Milan (Curno) 営業マーケティング

技術支援

San Francisco (Los Altos)コーポレート

Orange County (Irvine)営業マーケティングR&D技術支援

Boston (Burlington)営業マーケティングR&D

New York (Tarrytown)営業マーケティング

技術支援 Utrecht営業マーケティング

BeijingR&D技術支援

Tokyo営業マーケティング

技術支援・日本語化

Nuremberg営業マーケティング技術支援Bonn営業マーケティングR&D技術支援Munich営業マーケティング

OSS: オープンソースソフトウェアを基本としたデータマネジメント製品のリーダー

未上場、VC支援による経営

グローバル展開と導入ユーザー

世界で もユーザ数の多いデータマネジメント製品

(1,500万ダウンロード、75万ユーザ、2,500+社の有償導入顧客)

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

1. 情報活用実現への道のり例:某保険会社におけるプロジェクト

3©2011 Talend

【 某保険会社におけるプロジェクト 】某保険始まって以来の大規模プロジェクトであり、現行IT部門と同程度のプロジェクトを組成した。当PRJで目指したことは、①本社への会計報告を除きシステムの全面オープン化を行う②業界で も戦略的なIT化を行う③全ての業務をリアルタイム化する(契約と査定がリアルタイムに業務連動可能であり代理店動向が瞬時に把握できる)。その為には既存のM/Fベースの基幹システムとオープン化+統合化することが必要であった。Phase-1にて目指したのは、52の個別システム(商品、市場別)でホスト上に管理されている保険証券の統合管理。独自の保険業データモデル:共通ODSを構築し、自動車、傷害、新種(役員保険等)、海上、学校、査定業務等主データの移行。

サーバー環境

共通ODS

証券照会

再保険

証券管理

代理店手数料

購買管理

[新規開発アプリケーション]

M/F環境

TRNPool

新自動車保険契約管理

代理店支援

自動車保険

個人賠償保険

個人傷害保険

海上保険

火災保険

学校向け

企業賠償

外部インタフェース

自動車保険抽出

個人賠償抽出

個人傷害抽出

海上保険抽出

火災保険抽出

学校向け抽出

企業賠償抽出

[既存アプリケーション]

自動車異動

自動車新規

個人賠償異動

個人賠償新規

法人賠償異動

法人賠償新規

海上異動

海上新規

火災異動

火災新規

ETLソフトウェア適用範囲

COBOL/Java/HULFT適用範囲

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

1. 情報活用実現への道のり例:某銀行におけるプロジェクト

4©2011 Talend

勘定系ホスト 既存情報系ホスト

ディレード更新

収益実績/ラダー

ex. 収益管理システム

App. 1 App. 2

App. n

CIFDB

ex. MCIF

App. 1 App. 2

App. n

信用コスト

ex. 信用リスク管理

App. 1 App. 2

App. n

!複雑に入り組んだ

データフロー

データの遍歴が確認できない

既存情報系、及び取巻く環境: before

after

ODS層

勘定系ホストその他システム

①現状の複雑に絡み合ったデータフローを紐解き、簡素なデータハブ機能を新情報系で構築

②データの出所を明確にし、全ての業務が同じ情報源を共有することにより、情報齟齬を削減

普通預金

定期預金

証貸 等商手貸

譲渡性預金 当貸

データ処理層:ディレード、ETL処理

統合DWH層

DM層

デー

タ処

理層

:ETL処理

顧客口座管理

収益明細

取引明細

預金明細

融資明細

原価明細

事務量日次明細

口座新

信用リスク

日計 行員店舗エリア

役務為替動/不動産

個別DM層

店別損益

個社別損益

顧客別融資実績

【情報系システムが、現状抱える課題】• 保守運用面

• 運用コスト:一システムに20以上のメンテナンス要員を5年間抱えてきた実情。• 複雑なジョブフローを理解している担当者が一人しかいない。• 拡張性の無いデータモデル。

• 機能追加• 全てをC言語、Shell、PL/SQLに深く依存した実装のために機能追加が困難。• 新規データの切出しを行うのに6.0人月の工数を要す。• パフォーマンス&チューニングが非常に困難。

• 要件の未達• 帳票出力、月末締め処理が全て終わるのに1週間以上要し、定形業務でありながら予測不能。

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

2. 情報活用を支えるIT:言葉の整理と定義

5©2011 Talend

情報(素データ)の発生源

コンピュータシステム通信システム(CDR)

センサー機器・・・・

データの蓄積

データの流通と情報化加工

データの情報化

情報の有効活用

素データ情報化加工

された素データ

情報 = 素データ + 論理的な意味付け

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

3. 素データを有効活用できる情報に変えるために(ITの観点)

6©2011 Talend

① メタデータ管理⇒ 高品質な情報のために

② データベース管理⇒ 素データの履歴を管理

③ データプロセッシング⇒ 情報への変換

④ データプロファイリング⇒ 齟齬のない把握

i. 情報源となる文化圏(コンピュータや機器等)から素データを抽出する

ii. 素データを自身の環境で扱いやすい形にする

iii. 素データの内容を調査し、傾向を正しく把握する

iv. 数字・記号・コード・文字列の羅列に過ぎない素データの各項目に 適な命名を行う

v. 項目に入る素データの型と形式と長さを定義する

vi. 羅列された素データを項目を論理的な意味づけを持たせたグループ分けを行う

vii. グループ間の関係を定義する

viii. 命名された項目の組み合わせに対して論理処理(ロジック)に基づく計算機処理をかけることで情報を生成する

ix. 生成された情報を活用される場所・モノ・人に 適な時間で提供する

x. 情報は、次の文化圏では新しい「素データ」として扱われ、上iに戻る

xi. ……….

情報としてデリバリ

ITの言葉で正規化すると

これ以外にもITの言葉がありますが、この場では割愛します。

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

4. 情報活用を支えるITのトレンド:オープンソースソフトウェア

7©2011 Talend

オープンソースの定義:OSD ※出典:Open Source Initiative (八田真行氏訳、2004年2月21日、バージョン 1.9)

1. 再頒布の自由「オープンソース」であるライセンス(以下「ライセンス」と略)は、出自の様々なプログラムを集めたソフトウェア頒布物(ディストリビューション)の一部として、ソフトウェアを販

売あるいは無料で頒布することを制限してはなりません。 ライセンスは、このような販売に関して印税その他の報酬を要求してはなりません。

2. ソースコード「オープンソース」であるプログラムはソースコードを含んでいなければならず、コンパイル済形式と同様にソースコードでの頒布も許可されていなければなりません。何ら

かの事情でソースコードと共に頒布しない場合には、ソースコードを複製に要するコストとして妥当な額程度の費用で入手できる方法を用意し、それをはっきりと公表しなければなりません。方法として好ましいのはインターネッ トを通じての無料ダウンロードです。ソースコードは、プログラマがプログラムを変更しやすい形態でなければなり

ません。意図的にソースコードを分かりにくくすることは許されませんし、プリプロセッサや変換プログラムの出力のような中間形式は認められません。3. 派生ソフトウェア

ライセンスは、ソフトウェアの変更と派生ソフトウェアの作成、並びに派生ソフトウェアを元のソフトウェアと同じライセンスの下で頒布することを許可しなければなりません。

4. 作者のソースコードの完全性(integrity)バイナリ構築の際にプログラムを変更するため、ソースコードと一緒に「パッチファイル」を頒布することを認める場合に限り、ライセンスによって変更されたソースコードの頒布を制限することができます。ライセンスは、変更されたソースコードから構築されたソフトウェアの頒布を明確に許可していなければなりませんが、派生ソフトウェアに元のソフトウェアとは異なる名前やバージョン番号をつけるよう義務付けるのは構いません。

5. 個人やグループに対する差別の禁止ライセンスは特定の個人やグループを差別してはなりません。

6. 利用する分野(fields of endeavor)に対する差別の禁止ライセンスはある特定の分野でプログラムを使うことを制限してはなりません。例えば、プログラムの企業での使用や、遺伝子研究の分野での使用を制限してはなりません。

7. ライセンスの分配(distribution)プログラムに付随する権利はそのプログラムが再頒布された者全てに等しく認められなければならず、彼らが何らかの追加的ライセンスに同意することを必要としてはなりません。

8. 特定製品でのみ有効なライセンスの禁止プログラムに付与された権利は、それがある特定のソフトウェア頒布物の一部であるということに依存するものであってはなりません。プログラムをその頒布物から取り出し

たとしても、そのプログラム自身のライセンスの範囲内で使用あるいは頒布される限り、プログラムが再頒布される全ての人々が、元のソフトウェア頒布物において与えられていた権利と同等の権利を有することを保証しなければなりません。

9. 他のソフトウェアを制限するライセンスの禁止ライセンスはそのソフトウェアと共に頒布される他のソフトウェアに制限を設けてはなりません。例えば、ライセンスは同じ媒体で頒布される他のプログラムが全てオープンソースソフトウェアであることを要求してはなりません。

10. ライセンスは技術中立的でなければならないライセンス中に、特定の技術やインターフェースの様式に強く依存するような規定があってはなりません。

オープンソースの定義:OSD ※出典:Open Source Initiative (八田真行氏訳、2004年2月21日、バージョン 1.9)

1. 再頒布の自由「オープンソース」であるライセンス(以下「ライセンス」と略)は、出自の様々なプログラムを集めたソフトウェア頒布物(ディストリビューション)の一部として、ソフトウェアを販

売あるいは無料で頒布することを制限してはなりません。 ライセンスは、このような販売に関して印税その他の報酬を要求してはなりません。

2. ソースコード「オープンソース」であるプログラムはソースコードを含んでいなければならず、コンパイル済形式と同様にソースコードでの頒布も許可されていなければなりません。何ら

かの事情でソースコードと共に頒布しない場合には、ソースコードを複製に要するコストとして妥当な額程度の費用で入手できる方法を用意し、それをはっきりと公表しなければなりません。方法として好ましいのはインターネッ トを通じての無料ダウンロードです。ソースコードは、プログラマがプログラムを変更しやすい形態でなければなり

ません。意図的にソースコードを分かりにくくすることは許されませんし、プリプロセッサや変換プログラムの出力のような中間形式は認められません。3. 派生ソフトウェア

ライセンスは、ソフトウェアの変更と派生ソフトウェアの作成、並びに派生ソフトウェアを元のソフトウェアと同じライセンスの下で頒布することを許可しなければなりません。

4. 作者のソースコードの完全性(integrity)バイナリ構築の際にプログラムを変更するため、ソースコードと一緒に「パッチファイル」を頒布することを認める場合に限り、ライセンスによって変更されたソースコードの頒布を制限することができます。ライセンスは、変更されたソースコードから構築されたソフトウェアの頒布を明確に許可していなければなりませんが、派生ソフトウェアに元のソフトウェアとは異なる名前やバージョン番号をつけるよう義務付けるのは構いません。

5. 個人やグループに対する差別の禁止ライセンスは特定の個人やグループを差別してはなりません。

6. 利用する分野(fields of endeavor)に対する差別の禁止ライセンスはある特定の分野でプログラムを使うことを制限してはなりません。例えば、プログラムの企業での使用や、遺伝子研究の分野での使用を制限してはなりません。

7. ライセンスの分配(distribution)プログラムに付随する権利はそのプログラムが再頒布された者全てに等しく認められなければならず、彼らが何らかの追加的ライセンスに同意することを必要としてはなりません。

8. 特定製品でのみ有効なライセンスの禁止プログラムに付与された権利は、それがある特定のソフトウェア頒布物の一部であるということに依存するものであってはなりません。プログラムをその頒布物から取り出し

たとしても、そのプログラム自身のライセンスの範囲内で使用あるいは頒布される限り、プログラムが再頒布される全ての人々が、元のソフトウェア頒布物において与えられていた権利と同等の権利を有することを保証しなければなりません。

9. 他のソフトウェアを制限するライセンスの禁止ライセンスはそのソフトウェアと共に頒布される他のソフトウェアに制限を設けてはなりません。例えば、ライセンスは同じ媒体で頒布される他のプログラムが全てオープンソースソフトウェアであることを要求してはなりません。

10. ライセンスは技術中立的でなければならないライセンス中に、特定の技術やインターフェースの様式に強く依存するような規定があってはなりません。

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

4. 情報活用を支えるITのトレンド:オープンソースソフトウェア導入のメリットとリスク

8©2011 Talend

【 利用者にとってのメリット(一般論) 】

ソフトウェア導入にかかるコストが低く抑えれて、他に予算をまわせられる ソフトウェアの不具合や問題の修正が迅速である 投資実行前に機能を試し、自身が求めることが実現可能か確認出来る コミュニティが活性化しており、利用者同士が容易に情報交換出来る 柔軟性に富んでおり、利用者が自分で機能拡張したり改変が可能である等

【 利用者にとってのリスク(一般論) 】

問題が起きた場合、誰が 終責任をとるのか、、、 コミュニティが英語だった(海外製品の場合)、、、 専門家による支援が少ない、、、 ミッションクリティカルのサポートが出来るだろうか、、、 扱えるIT技術者が自社に居ない、、、 検討評価の方法がわからない、、、等

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

4. 情報活用を支えるITのトレンド:オープンソースソフトウェアの発展

9©2011 Talend

オープンソース概念の誕生

ソースコードへのフリーアクセス

フリーソフトウェア財団設立

(リチャード・ストールマン)

GPL, GNUの創設

オープンソースソリューションの出現

Apacheプロジェクト…

オープンソースソフトウェア企業が誕生

MySQL, JBoss, SugarCRM…

さらに成熟したKeyプレイヤーが市場での存在感を増す

JBoss, SugarCRM, Jaspersoft, Talend…

経済危機の発生が企業ITへのオ

ープンソース導入を後押し

1970 1984 1998 2000 2003 2006 20092002

オープンソース・イニシアティブ創設

ビジネスとテクノロジの現状を踏まえたポリシーの実現について話し合いが実現

時代は、商用オープンソースへ

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

4. 情報活用を支えるITのトレンド:既に始まっているオープンソースソフトウェアの企業導入(選択理由トップ10)

10©2011 Talend

10. 評価用製品ではなく本利用が可能である

9. 選定にあたり障壁が無い

8. 優れた学習曲線

7. 安定的であり予測可能なプライスモデル

6. コミュニティの強力な支援

5. ミッション・クリティカル環境のサポート

4. 多種多様、多岐に渡る接続性

3. 全てのプロジェクトに通じる普遍性と汎用性

2. 多機能であり、処理性能の優れ、信頼性が高い

1. 時間と投資コストの 適化を図る

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

4. 情報活用を支えるITのトレンド:クラウドコンピューティング(クラウドのカテゴリとメインプレイヤー)

11©2011 Talend

オンプレミスシステム

SaaS Apps

Cloud Platforms

PaaS

Private Clouds

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

4. 情報活用を支えるITのトレンド:クラウドコンピューティングの成長率(出典:IDC)

12©2011 Talend

Cloud Platforms

CAGR: 27%

2009 2010 2011 2012 2013 2014

3,385 4,381

5,676 7,194

8,877

11,345

PaaSCAGR: 39%

2009 2010 2011 2012 2013 2014

1,647 2,264

3,130 4,325

6,075

8,618 2009 2010 2011 2012 2013 2014

8,118 10,431

13,040 15,332

17,470

20,580

SaaSCAGR: 20%

出典: IDC

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

4. 情報活用を支えるITのトレンド:クラウドコンピューティングが何故注目されているか?

13©2011 Talend

自社でコンピュータハードウェアを維持管理する必要がない!

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

4. 情報活用を支えるITのトレンド:クラウドコンピューティングを支える情報蓄積技術(Apache Hadoop)

14©2011 Talend

【 Apache Hadoop とは 】

昨今のクラウドコンピューティングを支える基盤技術 クラウドを産んだGoogleが、自社の基盤技術を2003

年から論文公開。Yahoo!, Amazon, Facebook等、

クラウドプレイヤーが、より使いやすくする機能を拡張していき、同様にオープンソースで公開

所謂「Big Data」を扱う基盤として 適 無償かつ安価なハードウェアで構築することが可能 超並列処理と高い障害耐性を実現

これまで「捨てられていた」素データを格納し、高速に処理することが可能

【 Hadoop 導入企業一例 】

Yahoo! Facebook eBay VISA JP Morgan Chase Baidu China Mobile はてな 楽天 クックパッド等

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

4. 情報活用を支えるITのトレンド:クラウドの登場が引き起こした異文化間における新たな情報流通の必要性

15©2011 Talend

お客様協業先

国外部支店等

レガシィ財務会計システム

業務システムA

業務システムB

CRMシステム

営業部門用データマート

企画部門用データマート

データの分析・検証

データクレンジング

システム間のデータ交換

外部連携先とのデータ交換

抽出変換

ローディング

全社DWH

システム

One Factデータの監理

マスタデータハブ

レガシイシステムの移行

新会計システム

大型汎用機

クラウド

サーバー

情報流通を支えるデータ統合技術の国内外 新技術の動向インフラ・イノベーション研究会第8回講演会 「情報の有効活用~蓄積・流通~」

5. まとめ情報流通を支えるデータ統合技術

16©2011 Talend

① メタデータ管理⇒ 高品質な情報のために

正確に緻密に。文化圏の違いが生み出す同音異義語に注意! 商用オープンソースのメタデータ管理ツール / ETL・EAIツール等で流通したいデータ

の「データ」であるメタデータを厳密に管理・共有 メタデータ自体も必要に応じて流通させる

② データベース管理⇒ 素データの履歴を管理

クラウドコンピューティングで培われたテクノロジーをベースに用途と予算、適時性に応じた蓄積場所を選択

RDBMS有りきで検討せず、用途に応じてはHadoop技術の導入により 適化を図る

③ データプロセッシング⇒ 情報への変換

文化圏の違いを吸収し、素データを価値ある「情報」に加工する

商用オープンソースによる、 適なコスト効果のある製品に投資する 確実な加工を実現するためのデータ検査処理を自動化し、例外データを排除する 例外データのその後の扱いも忘れずに

④ データプロファイリング⇒ 齟齬のない把握

流通したいデータの「棚卸し」を行う: 人間系作業

棚卸し作業を支援するデータプロファイリングツールも存在する データプロファイリング作業は、IT担当者と業務遂行者が対になって実施! ドキュメントも大事だが、実データの実地検証が も大事!

IT投資の明細内容は、モノ(ハードウェア、ソフトウェア)から人(専門家、サービス)への比重が高まる!