Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
クラウドアーキテクトのためのハンドブック:
リーディング企業のビジネス変革における
Talend と AWS の活用
2
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
はじめに
Talend は、データ駆動型企業向けオープンソース統合ソフトウェアの大手プロバイダーとし
て、データ統合のあらゆるユースケースに対応するリアルタイムソリューションを提供しま
す。
Amazon Web Services Partner Network(APN)の先進テクノロジーパートナーである
Talend は、Amazon Web Services 上でビッグデータ、リアルタイム分析、ETL プロジェク
トの迅速な開発を可能にし、オンプレミスのシステム、クラウド、ソーシャル、モバイルア
プリケーションからのビジネスクリティカルなデータとアプリケーションを予測可能な価格
で接続することにより、今日の統合の課題を解決できるように支援します。
強力な機能を提供する Talend と AWS を組み合わせることにより、多くのお客様がビジネス
の変革を成功させています。本書では、製薬及び食品飲料業界でのユースケースについて説
明し、ソリューションで使用された IT アーキテクチャーを紹介します。
3
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
目次
はじめに……………………………………………………………………………………………2
ユースケース 1 : ローバル製薬会社における運用報告システムの変革
……………………………………………………………………………………………………4
ユースケース 2: 床試験研究の公開データセットの分析による治療の改善
……………………………………………………………………………………………………7
ユースケース3: ソーシャル及びモバイル分析による食品飲料サービス小売業のマーケテ
ィングキャンペーンの改善………………………………………………………………………9
4
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
ユースケース 1:グローバル製薬会社における運用報告システムの
変革
ある大手製薬企業では、長期的な成長戦略を立てるため、複数の運用システムを世界的に統
合し、正確な KPI データをタイムリーに提供して必要な知見を得ることが急務となっていま
した。
迅速で統合された拡張性の高いデータ統合サービスを実現するため、この企業は Talend と提
携しました。Talend Data Integration と Talend Application Integration を Amazon Web
Services(AWS)クラウド環境に配備することで、最小限のコストでより迅速なデータの知
見を得ることのできる最新のクラウドベースの運用報告インフラストラクチャを設計して構
築しました。
図 1: Talend と AWSによる運用報告インフラストラクチャ
運用報告インフラストラクチャ全体は、AWS Virtual Private Cloud(VPC)環境を使用して
設計されています。これは、データの取り込み、データ品質、ステージング、ETL、ESB 用
Externalreal-time
datafeeds
InternaldatafromERPand
othersystems
AvailabilityZone
VPCsubnet
AutoScalinggroup
AutoScalinggroup
Internetgateway
AWSDirectConnect
router
EC2InstancewithTalend DataIntegration
EC2InstancewithTalend ESB
AvailabilityZone
VPCsubnet
AutoScalinggroup
AutoScalinggroup
LargeETLInstanceswithTalend DataIntegration
BeanstalkInstanceswithTalend ESB
S3stagingarea
Data
AWSRegion
AmazonCloudWatch
EventNotification
EventNotification
AWSSQS:LargeDataLoadingQueue
AWSSQS:Real-timeDataLoadingQueue
Jobs
MasterAurorainstance
AuroraReadReplica
Real-timereplication
VPCsubnet
Queries
BusinessAnalysts
DataQualityandCleansing BatchandReal-TimeProcessing
アベイラビリティゾーン
AWS SQS:
大規模データロードキュー ジョブ
クエリー
ビジネス
アナリスト
バッチ処理とリアルタイム処理
Talend Data Integrationを含む
EC2インスタンス
イベント通知 自動スケーリンググループ
リアルタイム
レプリケーション
データ
S3ステージング
イベント通知
マスター
Aurora
インスタンス
Aurora
読み取り
レプリカ
VPCサブネット
Talend ESBを含む
EC2インスタンス
自動スケーリンググループ
VPCサブネット AWS SQS:
リアルタイムデータロー
ドキュー
Talend ESBを含む
Beanstalk インスタンス
自動スケーリンググループ
VPCサブネット アベイラビリティゾーン
Amazon
CloudWatch
インターネット
ゲートウェイ
ルーター
AWS Direct Connect
外部からの
リアルタイム
データフィード
ERP等のシ
ステムからの
内部データ
AWS リージョン
Talend Data Integrationを
含む大規模 ETL インスタンス
データ品質及びクレンジング
自動スケーリンググループ
5
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
の個別の領域で構成され、最後にデータをターゲットのリレーショナルデータベースにプッ
シュします。
データの取り込み
SAP 等の ERP システムの内部データは、安全な VPN を使用して、この企業のデータレイク
にロードされます。VPN によって、AWS VPC が実質的に企業ネットワークの拡張となるの
で、インターネットトラフィックが減ってコストが抑制され、アプリケーションとデータ転
送の安全性とコスト効果が向上します。AWS VPC は、パブリック AWS クラウド環境内で割
り当てられたオンデマンドで構成可能な共有コンピューティングリソースのプールであり、
異なる組織間で高いレベルのセキュリティと制御を提供します。外部からのリアルタイムの
データフィードは、SFTP 等のインターネットゲートウェイや、クライアントのミドルウェア
サービスからのプッシュを介して送信されます。Talend ESB は、コーディングなしでサービ
スと API を統合するために使用されます。また、複雑なマッピングの問題を簡素化し、エン
タープライズクラスのセキュリティを提供します。
Talend によるデータのプロファイリングとクレンジング
データが全て AWS のデータレイクに取り込まれると、メッセージをキューに入れるイベント
通知が行われます。これらのキューにより、AWS EC2 インスタンスはデータパッケージを処
理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである
AWS Elastic Beanstalk の一部であり、新しいリアルタイムデータフィードを自動的かつ弾
力的に処理するために使用されます。Talend Data Integration は、取り込まれたデータの
迅速な統合、クレンジング、プロファイリングに使用されます。また、メタデータを同期し、
セルフサービス型のデータ準備も提供します。Beanstalk の設定により、インスタンスは異
なるタスクを処理できます。1 つのインスタンスタイプはリアルタイムデータフィードを処理
し、もう 1 つのインスタンスタイプは大規模バッチデータを処理します。各インスタンスは 1
つの自動スケーリンググループです。自動スケーリンググループは、不健全なインスタンス
を検出し、必要に応じて容量を調整する機能を持ちます。したがって、これをインフラスト
ラクチャに追加することで、フォールトトレランス、可用性の向上、及びコスト管理の向上
を実現できます。
6
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
バッチ処理とリアルタイム処理
クレンジングされたデータは、AWS のデータレイクに移されます。そこから、AWS Simple
Queue Services(Amazon SQS)の 2 つのセットを使用してデータのフィードが行われま
す。Amazon SQS は、システム内の他のコンポーネント間のメッセージやワークフローを処
理するメッセージングキューサービスです。異なるキューは、それぞれ異なるデータセット
を処理します。これにより、データロード時のパフォーマンスが向上します。これはまた、
バッチジョブがリアルタイムのトランザクションロードから分離されることを意味します。
ここでも、新しいリアルタイムデータフィードを自動的に、そして弾力性のある方法で処理
するために、AWS Elastic Beanstalk が使用されます。新しいデータフィードが到着すると、
Talend ESB Runtime が起動して処理します。同様に、バッチデータが到着すると、Talend
Data Integration が全て処理します。その後で、両方のデータセットは運用データウェアハ
ウス(ODS)に送信されます。ODS は、データに対する追加の操作のために複数のソースか
らのデータを統合するよう設計されたデータベースです。
ターゲット:リレーショナルデータベース
バッチ処理とリアルタイム処理が完了すると、データはデータターゲット領域(ODS)に送
信されます。この場合、この企業は複数の AWS Aurora インスタンスを使用しています。最
初のインスタンスはマスターインスタンスであり、その他のインスタンスは複製されたデー
タを継続的に読み取るために使用されるレプリケーションインスタンスです。レプリケーシ
ョンインスタンスでは、ビジネスユーザーが独自のBIツールまたは現在テスト段階のTalend
Data Preparationを使用して、日常業務でのニーズに応じてデータを抽出します。
このアーキテクチャーで使用されている製品
Talend Data Integration
Talend ESB
AWS Aurora
AWS Elastic Beanstalk
AWS S3
AWS CloudWatch
AWS VPC
7
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
AWS Simple Queue Service (SQS)
AWS Auto Scaling Group
______________________________________________________________________
ユースケース 2:臨床試験研究の公開データセットの分析による治療
の改善
製薬会社にとって新薬の市場投入は、研究開発関連の費用から FDA(米国食品医薬品局)の
認可まで、広範にわたる課題に対応しなければならない大事業です。腫瘍やがん等の重篤な
疾患の治療においては、薬の効果を確実に上げるために非常に大きな努力が必要となります。
新薬の市場投入期間を短縮する方法の 1 つは、詳細な臨床研究情報を含む公開データセット
を利用することです。ただし、このようなデータセットは複雑で階層的な特性を持ち、非常
に大きな XML ファイルの形式をとることが多いという課題があります。
ある製薬会社は、Talend Big Data Platform と AWS を使用して、52,000 以上の XML ファ
イルの臨床研究データを合理化して変換するための、迅速な概念実証を構築できました。
図 2:Talendと AWSによる公開データセットを使用した治療の最適化
AutoScalinggroup
Internetgateway
EC2InstancewithFTP&Talend BigDataPlatform
BusinessAnalysts
AvailabilityZoneA
AWSRegion
AvailabilityZoneB
EC2InstancewithTalendBigDataPlatform
DataParallelbulkload
FlattenXMLfile
structure
AmazonS3Bucketwith
objects
AmazonRedshiftwith
densecomputemode
Downloadfiles
ファイルの
ダウンロード
XMLファ
イル構造
の平坦化
並行バルク
ロード データ
インターネット
ゲートウェイ FTP と Talend Big Data
Platformを含む EC2インスタンス
自動スケーリンググループ
Amazon S3
バケットと
オブジェクト
Amazon Redshift
と高密度コンピュー
トノード Talend Big Data Platformを含む
EC2インスタンス
アベイラビリティゾーン A
アベイラビリティゾーン B
AWS リージョン
ビジネス
アナリスト
ビジネス アナリスト
8
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
米国全体のさまざまな診療所や病院で、3〜6 か月の期間をかけて、腫瘍及びがんの患者を対
象とする一連の偽薬を使用するランダム化比較試験のデータが収集されました。その後、デ
ータは治療センターの名前と住所等の複数のディメンションテーブルと、試験関連のファク
トデータに整理されました。
データの取り込み
Talend Big Data Platform は、臨床試験データをホストする外部サイトから AWS EC2 クラ
スター上で実行される FTP サーバーにファイルをダウンロードします。FTP サーバー上のフ
ァイルは、インターネットゲートウェイを介して AWS VPC(Virtual Private Cloud)環境に
送信されます。
XMLファイルの平坦化
Talend Big Data Platform は、階層構造の XML データを取得して平坦化し、プラットフォ
ーム内の Talend Data Mapper 機能を活用して 1 つのファクトテーブルと複数のディメンシ
ョンテーブルを生成し、マッピングを実行します。Talend Data Mapper は、複雑な階層デ
ータ(ネスト構造やループ構造等)を変換するために使用されます。これにより、XML、SWIFT、
COBOL、CSV、EDI、XLS 等のさまざまな形式のデータレコードまたはドキュメント間をマ
ッピングできます。
臨床関連の各 XML ファイルには、実施された研究に関する情報とともに臨床試験の場所や試
験対象の薬のタイプ等、さまざまなディメンション属性が含まれます。ここでの課題は、XML
ファイルごとに 1 対多のレコードを意味する場合が多い階層構造の XML ファイルから、必要
なディメンションデータとファクトデータを特定することでした。Talend Data Mapper を
活用することで、複雑な XML 構造を複数のファクトテーブルとディメンションテーブル
に効果的に平坦化できました。
9
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
データのステージングとターゲットのデータウェアハウス
Talend Big Data Platform は、XML データを変換した後で、ステージングのために Amazon
S3 バケットにファイルをバルクロードします。さらに、報告と分析のために、再び Amazon
Redshift へ並行してバルクロードします。Amazon Redshift は、高速かつ強力で完全に管理
されたペタバイト規模のデータウェアハウスです。最後に、Talend は XML ファイルのバッ
チをファクトテーブル(最大 52,000 レコード)とディメンションテーブル(最大 200,000
レコード)に変換しました。
______________________________________________________________________
このアーキテクチャーで使用されている製品
Talend Big Data Platform
Amazon Virtual Private Cloud (VPC)
Amazon S3
Amazon Redshift
Amazon Auto-scaling Groups
______________________________________________________________________
ユースケース 3:ソーシャル及びモバイル分析による食品飲料サービ
ス小売業者のマーケティングキャンペーンの改善
ある大手食品飲料サービス小売業者は、ターゲットをより絞ったマーケティングキャンペー
ンを設計してブランド認知度を高めるために、店舗データだけでなくモバイルアプリケーシ
ョンやソーシャルメディアチャネルの情報から顧客に関する知見を獲得しようとしていまし
た。しかし、従来の ETL システムのために、ビジネスユーザーの能力が制限されていました。
速度、柔軟性、拡張性のためにクラウドのみのインフラストラクチャを実現することを優先
事項とし、安全な AWS クラウド環境で予測分析を実行する概念実証のために、Talend
Real-Time Big Data Platform が AWS S3、EMR、Redshift との組み合わせで使用されまし
10
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
た。これにより、1,000 万人のアプリケーションユーザーのサンプルセットからソーシャル
データを分析できるようになりました。
図 3:Talendと AWSを組み合わせたソーシャル及びモバイルアプリケーションの
データ分析インフラストラクチャ
この小売業者は、ソーシャルメディア管理プラットフォームである Sprinklr を使用して、幅
広いソーシャルメディアチャネルのデータを収集して分析し、同社に対する顧客の意見や感
情を発見し、最終的に、顧客エンゲージメント向上のために分析を使用してソーシャルメデ
ィアコンテンツを設計し直しました。
データの取り込み
Talend Real-Time Big Data Platform は、適切な認証パラメーターを使用し、Sprinklr REST
API を介して JSON 形式の生データを取り込みます。続いて、データをフラットファイルに
変換し、必要な情報のみをフィルタリングします。
データの変換と分析
さらに Talend Real-Time Big Data Platform は、変換されたファイルを AWS S3 にバルク
ロードします。AWS S3 では、Talend のジョブサーバーは、指定されたバケット内のディレ
クトリーに基づいてデータをフィルタリングするための制御パラメータを作成します。Talend
プラットフォーム内には、特定のディレクトリー構造を処理するためのフレームワークが
SocialMediaand
MobileAppData
AvailabilityZone
AutoScalinggroup
EC2InstancewithTalend real-timeBig
DataPlatform
AmazonS3bucketwithobjects
TalendBulkloadData
AWSRegion
Business
Users
AmazonEMRresizingcluster
Talend
TransformData
AmazonRedshiftClusterwithstart/stopfunctionality
TalendTransform
Data DataStreamData
ソーシャルメディアと
モバイルアプリケーションデータ
ストリーム
データ
AWS リージョン
Talend Real-Time Big
Data Platformを含む
EC2インスタンス
Amazon S3 バケットと オブジェクト
Amazon EMR に
よるクラスターの
サイズ変更
起動/停止機能を持つ
Amazon Redshift クラスター
自動スケーリンググループ
Talend によるデータの バルクロード
Talend による
データ変換
Talend による
データ変換 データ
ビジネス ユーザー
アベイラビリティゾーン
11
お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月
構築されており、これによって AWS EMR へ、続いて Redshift へのデータのリプレイが可能
になります。
Talend は EMR と Redshift の自動クラスターサイズ変更をサポートしているので、ワークロ
ードに応じてノード数を動的に変更することで、コンピューティングとストレージのリソー
スを最適化できます。さらに、Talend はジョブの実行準備/完了時に Redshift クラスターを
自動的に起動/停止できるので、定期的に実行されるバルクロードプロセスに役立ちます。ま
た、Redshift クラスターを起動する見積スクリプトを作成する必要もありません。
AWS のセキュリティ
この小売業者にとってはセキュリティが最重要の懸念事項であったことから、AWS S3 サー
バーとクライアント側の両方の暗号化に対する Talend のサポートを活用しました。S3 サー
バー側の暗号化は保存データを保護し、クライアント側の暗号化は S3 の宛先に送信される前
のデータを確実に保護します。
______________________________________________________________________
このアーキテクチャーで使用されている製品
Talend Real-Time Big Data Integration
Talend Data Preparation
Amazon S3
AWS Redshift
AWS EMR
______________________________________________________________________