Upload
talend-kk
View
459
Download
6
Embed Size (px)
DESCRIPTION
2014年1月29日開催の「TalendとActuateでビッグデータ資産をセキュアに活用する方法」における正金のセッションスライド
Citation preview
1 © Talend 2014
Talendビッグデータインテグレーション製品ご紹介
2014年1月29日(水) 15:00 – 17:30 Talend株式会社
TalendとActuateでビッグデータ資産をセキュアに活用する方法
2 © Talend 2014
Talendのアプローチ: 進化が続くビッグデータテクノロジーへのポテンシャル
TALEND ENTERPRISE
Big Data Data Integra7on ESB
TALEND OPEN STUDIO for
Big Data Data Quality
Data Integra7on
MDM ESB BPM
Data Management
Big Data MDM Enterprise Integra7on
Data Services
TALEND PLATFORMS
ユニファイドプラットフォーム 全ての製品を統一した基盤技術上で実現
ベスト・オブ・ブリード 統合基盤の分野ごとに最良な製品・テクノロジーの組合せ
包括的なインテグレーション データ統合・アプリケーション統合・プロセス統合
TALEND ユニファイド プラットフォーム
スタジオ
監視
リポジトリ デプロイ
実行
3 © Talend 2014
Talendのアプローチ: 進化が続くビッグデータテクノロジーへのポテンシャル
r
コードジェネレーション方式 ブラックボックエンジンと ならない透明性の高い実装モデル
Java SQL Map Reduce
Camel ……
標準・普及技術への準拠 ベンダーロックインを除外し、習得コストを削減
分散型アーキテクチャ 軽量コンテナによる分散型アーキテクチャが 実現するハイパフォーマンス処理の実現
4 © Talend 2014
Talendのアプローチ: 進化が続くビッグデータテクノロジーへのポテンシャル
100,000 コミュニティメンバー 1,500 ベータテスター
500 ポスト/週 350+ コミュニティコ
ネクター
オープンソース オープンスタンダートであり、柔軟性と拡張性を重視
サブスクリプションベースの課金 必要なときに必要な分だけ購入が可能
コミュニティに立脚した開発手法 革命的な新技術への迅速な取り組みとコミュニティメンバーによる貢献
5 © Talend 2014
Talendのアプローチ: Talend製品にコネクターやコンポーネントを実装済みです
Redshi6
6 © Talend 2014
HadoopによるDWHの最適化: 背景
【参照】 hGp://techcrunch.com/2012/10/17/big-‐data-‐to-‐drive-‐232-‐billion-‐in-‐it-‐spending-‐through-‐2016/
n レポートと分析業務が必要となるユーザーの増加 → 特定部門から全従業員へ
n レポートを分析に必要なデータ量と種
類の増加 → 構造化データのみならず → ビッグデータコストの市場予測は、 2016年に2,320億USDに
n 抽出元データソースの増加
→ 内部データのみならずオープンデータや SNSデータ等の外部データによる補完
n 遅延の短縮要件
→ 1週間前から前日へ、要件によっては 1時間前の情報が要求される
最適化が必要となる背景
7 © Talend 2014
HadoopによるDWHの最適化: 何を最適化するのか?
何を最適化するか?
従来のDWH環境
データマート DWH ステージングエリア ファイル類
ERP
Cloud / SaaS
DBMS
DWH
分析・ レポーティング
業務システム
アーキテクチャ
ツール 設計 技術
8 © Talend 2014
HadoopによるDWHの最適化: TalendユーザーにおけるHadoop適用例
Hadoop適用例1:コールドデータの保管場所
コールドデータ :使用・アクセス頻度の低いデータ ウォームデータ :使用・アクセス頻度が中位のデータ ホットデータ :使用・アクセス頻度が高いデータ
メリット: n ストレージコストの削減 n コールドデータ退避によるDWHクエリの高速化
Hadoop
9 © Talend 2014
HadoopによるDWHの最適化: TalendユーザーにおけるHadoop適用例
Hadoop適用例2:ステージングエリアへの適用
メリット: n 分析・レポーティングへの影響なし n バッチ型のDWH前処理にMap&Reduce処理の適用が可能
従来のDWH環境
データマート DWH ステージングエリア ファイル類
ERP
Cloud / SaaS
DBMS
DWH
分析・ レポーティング
業務システム
Hadoop
10 © Talend 2014
HadoopによるDWHの最適化: TalendユーザーにおけるHadoop適用例
Hadoop適用例3:特殊用途DWHとしての適用
ハイブリッドDWH 分析・ レポーティング
Hadoop
外部データ
メリット: n 既存の分析・レポーティングを補完 n 既存環境の運用への影響が少ない n 既存環境との併用により、既存情報系資産の活用をレバレッジ
11 © Talend 2014
HadoopによるDWHの最適化: TalendユーザーにおけるHadoop適用例
Hadoop適用例4:ETL処理基盤としての適用
ビッグデータウェアハウス環境
メリット: n より大量なデータの高速処理基盤を実現 n 処理をHadoop側によせることでコスト削減を実現 n そもそも既存DWHでは処理出来なかったビッグデータの実装が可能
ETL処理エンジン Hadoop
12 © Talend 2014
Talendビッグデータテクノロジーの適合性: Hadoopインテグレーションにおける新たな要件
# Hadoopサポートに関するデータ統合ツールの要件例
1 プッシュダウン処理方式 Ù 処理をMap Reduceエンジンに展開できること Ù Map Reduceは、フィルタリング・文字列処理・数値演算・行列集計・
グループ集計・ソート等あらゆるデータ処理を拡張性に富む高速化
が行える
2 データ量への拡張性 Ù 大量データを処理するためにツール内で既に最適化されていること
3 NoSQLサポート Ù HDFSに保管される構造・半構造・非構造データの処理方式へのアプローチがあること
Ù それら半構造・非構造データとフラットなデータ構造との総方向変換
が可能であること
4 双方向性 Ù HadoopへのデータロードとHadoopからのデータ抽出が可能であること
5 スキーマオンリードへの 対応
Ù データを書き込むときではなく「読み込む」ときにスキーマを当てる Ù データ活用・処理時の対応作業量への対処が必要
6 データストアへの透明性 Ù 低レベルなMap ReduceのネイティブAPIに対する隠蔽化が可能であること
Ù 従来型データストアとHadoopデータストアへのアクセスが同レベル
で可能であること
13 © Talend 2014
Talendビッグデータテクノロジーの適合性: Talendビッグデータ統合・連携基盤製品
開発・運用・維持管理までEnd-‐to-‐Endでサポートする統合連携基盤
連携元システム-1
連携元システム-2
連携元システム-3
連携元システム-n
ファイル類
DB
ERP
Cloud / SaaS
DBMS
Talendビッグデータインテグレーション製品の特徴 • 500以上のコンポーネント(処理部品)を標準で提供 • 豊富な部品と一般的に普及しているEclipseベースのGUIにより、プログラムレスで開発が可能 • 既存Javaライブラリの取組が可能な柔軟性 • メタデータの自動取得と変更に対する自動検知 • チーム開発をサポートする共有リポジトリとバージョン管理機能 • 100% pure Javaコードの生成によるブラックボックス化しない実行環境 • 複数分散サーバーで、分散実行が可能な拡張性に富むアーキテクチャ • 成果物のデプロイ、スケジュール実行、稼働監視を行うTalend Administra7on Center等
クラウド 基盤
PaaS, SaaS, DBaaS, etc
国内・海外 部支店
ビジネス パートナー、 グループ会社
ETL/ELT処理
CDC処理
MQ連携
ファイル連携
Map Reduce処理
SOAP/REST連携
SAP連携
Salesforce 連携
ジョブスケジューラ-機能 スケールアウト型分散実行機能
ビッグデータ 環境
14 © Talend 2014
Talendビッグデータテクノロジーの適合性: 高い開発生産性を発揮する開発作業環境(1/2)
共有リポジトリビュー
500以上のコンポーネント
ワークスペースにグラフィカルに処理をデザイン
コンポーネントプロパティを設定
ビッグデータ統合処理の開発: Talend Studio
15 © Talend 2014
Talendビッグデータテクノロジーの適合性: 高い開発生産性を発揮する開発作業環境(2/2)
©Talend 2013 15
ビッグデータ統合処理の開発: データ変換とマッピングに高い柔軟性を提供
入力項目 出力項目と変換定義 入出力項目の関係は ビジュアルに表現
16 © Talend 2014
Talendビッグデータテクノロジーの適合性: Hadoop用コンポーネント
Hadoopディシュとリビューションをネィティブにサポート
# コンポーネント
1 HBase: CDH上のHBaseに対して接続・クローズ、データ抽出、データ反映をサポート
2 HDFS : CDH上の多様なファイル操作と非CDHデータのストリームでの入出力をサポート。
3 Hive / Hive2 : HiveQLによるデータ抽出やより高度なクエリ、ロード処理の実行をサポート
4 Pig : Pig La7nによるビジュアルデータマッピングや多様なPigコマンドの実行フローをサポート
5 Sqoop : Sqoopによる非HadoopデータのCDH環境への取込みと出力
6 Oozie : OozieによるMap ReduceやPigジョブのワークフロー化を管理・監視
ビッグデータコンポーネント① ビッグデータコンポーネント②
※Kerberos認証を各所でサポート Sequence file, RC, ORC, Avro形式ファイルに対応
17 © Talend 2014
Talendビッグデータテクノロジーの適合性: Map Reduce処理をGUIで開発 ➜ Map Reduceジョブデザインワークスペースでインディケーターを表示
• 実行時にMapステップとReduceステップの進捗状況とステータスをリアルタイム表示
• Map Reduceジョブのチューニングがビジュアルに可能
18 © Talend 2014
Talendビッグデータテクノロジーの適合性: Talend GUIで開発するHadoop Map Reduceジョブ
Map ReduceジョブをTalendのGUIで開発~デプロイ~スケジュール運用
①Talend Studio上でMRジョブを設定
②共有リポジトリに自動格納
③TACより実行スケジュールとともにHadoopマスタノードへ実行モジュールをデプロイ
④Hadoop Map Reduceジョブとして稼働
⑤TACよりOozieと連動して日々の稼働を監視
19 © Talend 2014
Talendビッグデータテクノロジーの適合性: ビッグデータ統合基盤の運用を支える統合運用監視機能
ビッグデータ統合基盤の運用: Talend AdministraRon Center
ロールベースの ユーザー管理
分散サーバーを一元で監視
Hadoop環境へのデプロイと Oozieベースの実行スケジュール
実行監視と履歴分析
※ ソースデータ収集処理の自動運転を実現
20 © Talend 2014
ビッグデータは検証プロジェクトから業務運用へ: Talendのビッグデータ顧客事例
リスク計算の精緻化を実現:CiR Bank様 Ù かねてより運用していた信用リスクシステムの精緻・高度化にHadoop&Talendを活用 Ù 信用収縮に対する当局監査のプレッシャー Ù 非正常先に格付け区分される融資先のなかから正常先に分類可能な債務者の発見
DWHのコスト削減としてご活用:Vodafone社様 Ù 5年分のCDR:通話明細記録をHadoopストア上に保管 Ù 既存のDWH環境であるOracle上では、コスト面で実現不可能であった Ù 顧客情報とのマッチングによる高度な分析を行う基盤を実現
EU共通運転免許書運用基盤としてご活用:フランス内務省様 Ù 2013年よりEU諸国で発給される運転免許書の様式統一に向け、EU加盟国は発給済み免許
証の効力・記載事項等の統一が必要 Ù 新たなEU免許証ネットワークが設立され、発給・更新に関する情報照合の仕組みが急務 Ù EU諸国からのデータ収集と地域毎に発給・更新される免許証情報の一元DWH化を実現
21 © Talend 2014
ビッグデータは検証プロジェクトから業務運用へ: ビッグデータ活用をレバレッジ
Map Reduce処理をGUIで開発・運用:高生産性の実現 Ù Talend StudioにてGUI部品の組み合わせでMap Reduce処理を開発 Ù Talend Administra7on Centerから、Oozieベースのジョブフロー運用を実現 Ù Hadoop環境をDWHエンジンとして活用するための障壁を取り除く
サブスクリプションモデルによる親和性の高い課金モデル Ù Talendのサブスクリプションライセンスは、CPU・ノード数等のシステム規模に非依存 Ù 課金対象項目は、Talend使用ユーザー数と使用年数のみ Ù サブスクリプションには、年間保守料金を含む Ù データ量の不透明なビッグデータ環境に最適なライセンスモデル
ビッグデータ環境と非ビッグデータ環境の双方向連携:自動運転を実現 Ù GUI設定でHadoopネイティブのビッグデータ処理を構築可能 Ù 標準で約500のコンポーネントを内包 Ù メタデータ管理、共有リポジトリや多彩なチーム開発機能を標準装備 Ù ジョブスケジューラ-やフェイルオーバー機能などミッションクリティカルの要件を満たす
運用機能を標準装備 Ù Javaによるハードコーディングに比較して1/4程度に製造工数を圧縮
$
22 © Talend 2014
ご清聴有難う御座いました
Talend株式会社
〒107-0062 東京都港区南青山 5-10-13 デコパージュ南青山4F オフィス:03-6427-6370 | [email protected] http://jp.talend.com | https://www.talend-bc.jp