22
Talendビッグデータインテグレーション製品ご紹介 2014129日(水) 15:00 – 17:30 Talend株式会社 TalendActuateでビッグデータ資産をセキュアに活用する方法

Talendビッグデータインテグレーション製品ご紹介

Embed Size (px)

DESCRIPTION

2014年1月29日開催の「TalendとActuateでビッグデータ資産をセキュアに活用する方法」における正金のセッションスライド

Citation preview

Page 1: Talendビッグデータインテグレーション製品ご紹介

1  ©  Talend  2014  

Talendビッグデータインテグレーション製品ご紹介

2014年1月29日(水) 15:00 – 17:30 Talend株式会社

TalendとActuateでビッグデータ資産をセキュアに活用する方法

Page 2: Talendビッグデータインテグレーション製品ご紹介

2  ©  Talend  2014  

Talendのアプローチ: 進化が続くビッグデータテクノロジーへのポテンシャル

TALEND ENTERPRISE

Big  Data   Data  Integra7on   ESB  

TALEND OPEN STUDIO for

Big  Data   Data  Quality  

Data  Integra7on  

MDM            ESB            BPM  

Data  Management  

Big  Data   MDM   Enterprise  Integra7on  

Data    Services  

TALEND PLATFORMS

ユニファイドプラットフォーム 全ての製品を統一した基盤技術上で実現  

ベスト・オブ・ブリード 統合基盤の分野ごとに最良な製品・テクノロジーの組合せ  

包括的なインテグレーション データ統合・アプリケーション統合・プロセス統合  

TALEND ユニファイド プラットフォーム

スタジオ

監視

リポジトリ デプロイ

実行

Page 3: Talendビッグデータインテグレーション製品ご紹介

3  ©  Talend  2014  

Talendのアプローチ: 進化が続くビッグデータテクノロジーへのポテンシャル

r  

コードジェネレーション方式 ブラックボックエンジンと ならない透明性の高い実装モデル

Java   SQL   Map  Reduce  

Camel   ……  

標準・普及技術への準拠 ベンダーロックインを除外し、習得コストを削減

分散型アーキテクチャ 軽量コンテナによる分散型アーキテクチャが 実現するハイパフォーマンス処理の実現

Page 4: Talendビッグデータインテグレーション製品ご紹介

4  ©  Talend  2014  

Talendのアプローチ: 進化が続くビッグデータテクノロジーへのポテンシャル

100,000 コミュニティメンバー 1,500 ベータテスター

500 ポスト/週 350+ コミュニティコ

ネクター

オープンソース オープンスタンダートであり、柔軟性と拡張性を重視

サブスクリプションベースの課金 必要なときに必要な分だけ購入が可能

コミュニティに立脚した開発手法 革命的な新技術への迅速な取り組みとコミュニティメンバーによる貢献

Page 5: Talendビッグデータインテグレーション製品ご紹介

5  ©  Talend  2014  

Talendのアプローチ: Talend製品にコネクターやコンポーネントを実装済みです

Redshi6

Page 6: Talendビッグデータインテグレーション製品ご紹介

6  ©  Talend  2014  

HadoopによるDWHの最適化: 背景

【参照】  hGp://techcrunch.com/2012/10/17/big-­‐data-­‐to-­‐drive-­‐232-­‐billion-­‐in-­‐it-­‐spending-­‐through-­‐2016/

n  レポートと分析業務が必要となるユーザーの増加    → 特定部門から全従業員へ  

 n  レポートを分析に必要なデータ量と種

類の増加    → 構造化データのみならず    → ビッグデータコストの市場予測は、         2016年に2,320億USDに  

 n  抽出元データソースの増加  

 → 内部データのみならずオープンデータや      SNSデータ等の外部データによる補完  

 n  遅延の短縮要件  

 → 1週間前から前日へ、要件によっては      1時間前の情報が要求される  

最適化が必要となる背景  

Page 7: Talendビッグデータインテグレーション製品ご紹介

7  ©  Talend  2014  

HadoopによるDWHの最適化: 何を最適化するのか?

何を最適化するか?  

従来のDWH環境

データマート DWH ステージングエリア ファイル類

ERP

Cloud / SaaS

DBMS

DWH

分析・  レポーティング

業務システム

アーキテクチャ

ツール 設計 技術

Page 8: Talendビッグデータインテグレーション製品ご紹介

8  ©  Talend  2014  

HadoopによるDWHの最適化: TalendユーザーにおけるHadoop適用例

Hadoop適用例1:コールドデータの保管場所

コールドデータ  :使用・アクセス頻度の低いデータ  ウォームデータ  :使用・アクセス頻度が中位のデータ  ホットデータ  :使用・アクセス頻度が高いデータ

メリット:  n  ストレージコストの削減  n  コールドデータ退避によるDWHクエリの高速化  

Hadoop

Page 9: Talendビッグデータインテグレーション製品ご紹介

9  ©  Talend  2014  

HadoopによるDWHの最適化: TalendユーザーにおけるHadoop適用例

Hadoop適用例2:ステージングエリアへの適用

メリット:  n  分析・レポーティングへの影響なし  n  バッチ型のDWH前処理にMap&Reduce処理の適用が可能  

従来のDWH環境

データマート DWH ステージングエリア ファイル類

ERP

Cloud / SaaS

DBMS

DWH

分析・  レポーティング

業務システム

Hadoop

Page 10: Talendビッグデータインテグレーション製品ご紹介

10  ©  Talend  2014  

HadoopによるDWHの最適化: TalendユーザーにおけるHadoop適用例

Hadoop適用例3:特殊用途DWHとしての適用

ハイブリッドDWH 分析・  レポーティング

Hadoop

外部データ

メリット:  n  既存の分析・レポーティングを補完  n  既存環境の運用への影響が少ない  n  既存環境との併用により、既存情報系資産の活用をレバレッジ  

Page 11: Talendビッグデータインテグレーション製品ご紹介

11  ©  Talend  2014  

HadoopによるDWHの最適化: TalendユーザーにおけるHadoop適用例

Hadoop適用例4:ETL処理基盤としての適用

ビッグデータウェアハウス環境

メリット:  n  より大量なデータの高速処理基盤を実現  n  処理をHadoop側によせることでコスト削減を実現  n  そもそも既存DWHでは処理出来なかったビッグデータの実装が可能  

ETL処理エンジン Hadoop

Page 12: Talendビッグデータインテグレーション製品ご紹介

12  ©  Talend  2014  

Talendビッグデータテクノロジーの適合性:  Hadoopインテグレーションにおける新たな要件  

# Hadoopサポートに関するデータ統合ツールの要件例

1 プッシュダウン処理方式 Ù  処理をMap  Reduceエンジンに展開できること  Ù  Map  Reduceは、フィルタリング・文字列処理・数値演算・行列集計・

グループ集計・ソート等あらゆるデータ処理を拡張性に富む高速化

が行える

2 データ量への拡張性 Ù  大量データを処理するためにツール内で既に最適化されていること

3 NoSQLサポート Ù  HDFSに保管される構造・半構造・非構造データの処理方式へのアプローチがあること  

Ù  それら半構造・非構造データとフラットなデータ構造との総方向変換

が可能であること

4 双方向性 Ù  HadoopへのデータロードとHadoopからのデータ抽出が可能であること

5 スキーマオンリードへの  対応

Ù  データを書き込むときではなく「読み込む」ときにスキーマを当てる  Ù  データ活用・処理時の対応作業量への対処が必要

6 データストアへの透明性 Ù  低レベルなMap  ReduceのネイティブAPIに対する隠蔽化が可能であること  

Ù  従来型データストアとHadoopデータストアへのアクセスが同レベル

で可能であること

Page 13: Talendビッグデータインテグレーション製品ご紹介

13  ©  Talend  2014  

Talendビッグデータテクノロジーの適合性: Talendビッグデータ統合・連携基盤製品

開発・運用・維持管理までEnd-­‐to-­‐Endでサポートする統合連携基盤

連携元システム-1

連携元システム-2

連携元システム-3

連携元システム-n

ファイル類

DB

ERP

Cloud / SaaS

DBMS

Talendビッグデータインテグレーション製品の特徴  •  500以上のコンポーネント(処理部品)を標準で提供  •  豊富な部品と一般的に普及しているEclipseベースのGUIにより、プログラムレスで開発が可能  •  既存Javaライブラリの取組が可能な柔軟性  •  メタデータの自動取得と変更に対する自動検知  •  チーム開発をサポートする共有リポジトリとバージョン管理機能  •  100%  pure  Javaコードの生成によるブラックボックス化しない実行環境  •  複数分散サーバーで、分散実行が可能な拡張性に富むアーキテクチャ  •  成果物のデプロイ、スケジュール実行、稼働監視を行うTalend  Administra7on  Center等

クラウド  基盤

PaaS,  SaaS,  DBaaS,  etc

国内・海外  部支店

ビジネス  パートナー、  グループ会社

ETL/ELT処理

CDC処理

MQ連携

ファイル連携

Map  Reduce処理

SOAP/REST連携

SAP連携

Salesforce  連携

ジョブスケジューラ-機能  スケールアウト型分散実行機能

ビッグデータ  環境

Page 14: Talendビッグデータインテグレーション製品ご紹介

14  ©  Talend  2014  

Talendビッグデータテクノロジーの適合性: 高い開発生産性を発揮する開発作業環境(1/2)

共有リポジトリビュー

500以上のコンポーネント

ワークスペースにグラフィカルに処理をデザイン

コンポーネントプロパティを設定

ビッグデータ統合処理の開発:  Talend  Studio

Page 15: Talendビッグデータインテグレーション製品ご紹介

15  ©  Talend  2014  

Talendビッグデータテクノロジーの適合性: 高い開発生産性を発揮する開発作業環境(2/2)

©Talend  2013   15

ビッグデータ統合処理の開発:  データ変換とマッピングに高い柔軟性を提供

入力項目 出力項目と変換定義  入出力項目の関係は  ビジュアルに表現  

Page 16: Talendビッグデータインテグレーション製品ご紹介

16  ©  Talend  2014  

Talendビッグデータテクノロジーの適合性: Hadoop用コンポーネント

Hadoopディシュとリビューションをネィティブにサポート

# コンポーネント

1 HBase:  CDH上のHBaseに対して接続・クローズ、データ抽出、データ反映をサポート

2 HDFS  :  CDH上の多様なファイル操作と非CDHデータのストリームでの入出力をサポート。

3 Hive  /  Hive2  :  HiveQLによるデータ抽出やより高度なクエリ、ロード処理の実行をサポート

4 Pig  :  Pig  La7nによるビジュアルデータマッピングや多様なPigコマンドの実行フローをサポート

5 Sqoop  :  Sqoopによる非HadoopデータのCDH環境への取込みと出力

6 Oozie  :  OozieによるMap  ReduceやPigジョブのワークフロー化を管理・監視

ビッグデータコンポーネント① ビッグデータコンポーネント②

※Kerberos認証を各所でサポート Sequence  file,  RC,  ORC,  Avro形式ファイルに対応  

Page 17: Talendビッグデータインテグレーション製品ご紹介

17  ©  Talend  2014  

Talendビッグデータテクノロジーの適合性: Map Reduce処理をGUIで開発 ➜  Map  Reduceジョブデザインワークスペースでインディケーターを表示  

•  実行時にMapステップとReduceステップの進捗状況とステータスをリアルタイム表示  

•  Map  Reduceジョブのチューニングがビジュアルに可能  

Page 18: Talendビッグデータインテグレーション製品ご紹介

18  ©  Talend  2014  

Talendビッグデータテクノロジーの適合性: Talend GUIで開発するHadoop Map Reduceジョブ

Map  ReduceジョブをTalendのGUIで開発~デプロイ~スケジュール運用

①Talend  Studio上でMRジョブを設定

②共有リポジトリに自動格納

③TACより実行スケジュールとともにHadoopマスタノードへ実行モジュールをデプロイ

④Hadoop  Map  Reduceジョブとして稼働

⑤TACよりOozieと連動して日々の稼働を監視

Page 19: Talendビッグデータインテグレーション製品ご紹介

19  ©  Talend  2014  

Talendビッグデータテクノロジーの適合性: ビッグデータ統合基盤の運用を支える統合運用監視機能

ビッグデータ統合基盤の運用:  Talend  AdministraRon  Center

ロールベースの  ユーザー管理

分散サーバーを一元で監視

Hadoop環境へのデプロイと  Oozieベースの実行スケジュール

実行監視と履歴分析

※  ソースデータ収集処理の自動運転を実現

Page 20: Talendビッグデータインテグレーション製品ご紹介

20  ©  Talend  2014  

ビッグデータは検証プロジェクトから業務運用へ: Talendのビッグデータ顧客事例

リスク計算の精緻化を実現:CiR  Bank様  Ù  かねてより運用していた信用リスクシステムの精緻・高度化にHadoop&Talendを活用  Ù  信用収縮に対する当局監査のプレッシャー  Ù  非正常先に格付け区分される融資先のなかから正常先に分類可能な債務者の発見  

DWHのコスト削減としてご活用:Vodafone社様  Ù  5年分のCDR:通話明細記録をHadoopストア上に保管  Ù  既存のDWH環境であるOracle上では、コスト面で実現不可能であった  Ù  顧客情報とのマッチングによる高度な分析を行う基盤を実現  

EU共通運転免許書運用基盤としてご活用:フランス内務省様  Ù  2013年よりEU諸国で発給される運転免許書の様式統一に向け、EU加盟国は発給済み免許

証の効力・記載事項等の統一が必要  Ù  新たなEU免許証ネットワークが設立され、発給・更新に関する情報照合の仕組みが急務  Ù  EU諸国からのデータ収集と地域毎に発給・更新される免許証情報の一元DWH化を実現  

Page 21: Talendビッグデータインテグレーション製品ご紹介

21  ©  Talend  2014  

ビッグデータは検証プロジェクトから業務運用へ: ビッグデータ活用をレバレッジ  

Map  Reduce処理をGUIで開発・運用:高生産性の実現  Ù  Talend  StudioにてGUI部品の組み合わせでMap  Reduce処理を開発  Ù  Talend  Administra7on  Centerから、Oozieベースのジョブフロー運用を実現  Ù  Hadoop環境をDWHエンジンとして活用するための障壁を取り除く  

サブスクリプションモデルによる親和性の高い課金モデル  Ù  Talendのサブスクリプションライセンスは、CPU・ノード数等のシステム規模に非依存  Ù  課金対象項目は、Talend使用ユーザー数と使用年数のみ  Ù  サブスクリプションには、年間保守料金を含む  Ù  データ量の不透明なビッグデータ環境に最適なライセンスモデル  

ビッグデータ環境と非ビッグデータ環境の双方向連携:自動運転を実現  Ù  GUI設定でHadoopネイティブのビッグデータ処理を構築可能  Ù  標準で約500のコンポーネントを内包  Ù  メタデータ管理、共有リポジトリや多彩なチーム開発機能を標準装備  Ù  ジョブスケジューラ-やフェイルオーバー機能などミッションクリティカルの要件を満たす 

運用機能を標準装備  Ù  Javaによるハードコーディングに比較して1/4程度に製造工数を圧縮  

$  

Page 22: Talendビッグデータインテグレーション製品ご紹介

22  ©  Talend  2014  

ご清聴有難う御座いました

Talend株式会社

〒107-0062 東京都港区南青山 5-10-13 デコパージュ南青山4F オフィス:03-6427-6370 | [email protected] http://jp.talend.com | https://www.talend-bc.jp