11
1 お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月 クラウドアーキテクトのためのハンドブック: リーディング企業のビジネス変革における Talend と AWS の活用

Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

1

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

クラウドアーキテクトのためのハンドブック:

リーディング企業のビジネス変革における

Talend と AWS の活用

Page 2: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

2

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

はじめに

Talend は、データ駆動型企業向けオープンソース統合ソフトウェアの大手プロバイダーとし

て、データ統合のあらゆるユースケースに対応するリアルタイムソリューションを提供しま

す。

Amazon Web Services Partner Network(APN)の先進テクノロジーパートナーである

Talend は、Amazon Web Services 上でビッグデータ、リアルタイム分析、ETL プロジェク

トの迅速な開発を可能にし、オンプレミスのシステム、クラウド、ソーシャル、モバイルア

プリケーションからのビジネスクリティカルなデータとアプリケーションを予測可能な価格

で接続することにより、今日の統合の課題を解決できるように支援します。

強力な機能を提供する Talend と AWS を組み合わせることにより、多くのお客様がビジネス

の変革を成功させています。本書では、製薬及び食品飲料業界でのユースケースについて説

明し、ソリューションで使用された IT アーキテクチャーを紹介します。

Page 3: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

3

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

目次

はじめに……………………………………………………………………………………………2

ユースケース 1 : ローバル製薬会社における運用報告システムの変革

……………………………………………………………………………………………………4

ユースケース 2: 床試験研究の公開データセットの分析による治療の改善

……………………………………………………………………………………………………7

ユースケース3: ソーシャル及びモバイル分析による食品飲料サービス小売業のマーケテ

ィングキャンペーンの改善………………………………………………………………………9

Page 4: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

4

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

ユースケース 1:グローバル製薬会社における運用報告システムの

変革

ある大手製薬企業では、長期的な成長戦略を立てるため、複数の運用システムを世界的に統

合し、正確な KPI データをタイムリーに提供して必要な知見を得ることが急務となっていま

した。

迅速で統合された拡張性の高いデータ統合サービスを実現するため、この企業は Talend と提

携しました。Talend Data Integration と Talend Application Integration を Amazon Web

Services(AWS)クラウド環境に配備することで、最小限のコストでより迅速なデータの知

見を得ることのできる最新のクラウドベースの運用報告インフラストラクチャを設計して構

築しました。

図 1: Talend と AWSによる運用報告インフラストラクチャ

運用報告インフラストラクチャ全体は、AWS Virtual Private Cloud(VPC)環境を使用して

設計されています。これは、データの取り込み、データ品質、ステージング、ETL、ESB 用

Externalreal-time

datafeeds

InternaldatafromERPand

othersystems

AvailabilityZone

VPCsubnet

AutoScalinggroup

AutoScalinggroup

Internetgateway

AWSDirectConnect

router

EC2InstancewithTalend DataIntegration

EC2InstancewithTalend ESB

AvailabilityZone

VPCsubnet

AutoScalinggroup

AutoScalinggroup

LargeETLInstanceswithTalend DataIntegration

BeanstalkInstanceswithTalend ESB

S3stagingarea

Data

AWSRegion

AmazonCloudWatch

EventNotification

EventNotification

AWSSQS:LargeDataLoadingQueue

AWSSQS:Real-timeDataLoadingQueue

Jobs

MasterAurorainstance

AuroraReadReplica

Real-timereplication

VPCsubnet

Queries

BusinessAnalysts

DataQualityandCleansing BatchandReal-TimeProcessing

アベイラビリティゾーン

AWS SQS:

大規模データロードキュー ジョブ

クエリー

ビジネス

アナリスト

バッチ処理とリアルタイム処理

Talend Data Integrationを含む

EC2インスタンス

イベント通知 自動スケーリンググループ

リアルタイム

レプリケーション

データ

S3ステージング

イベント通知

マスター

Aurora

インスタンス

Aurora

読み取り

レプリカ

VPCサブネット

Talend ESBを含む

EC2インスタンス

自動スケーリンググループ

VPCサブネット AWS SQS:

リアルタイムデータロー

ドキュー

Talend ESBを含む

Beanstalk インスタンス

自動スケーリンググループ

VPCサブネット アベイラビリティゾーン

Amazon

CloudWatch

インターネット

ゲートウェイ

ルーター

AWS Direct Connect

外部からの

リアルタイム

データフィード

ERP等のシ

ステムからの

内部データ

AWS リージョン

Talend Data Integrationを

含む大規模 ETL インスタンス

データ品質及びクレンジング

自動スケーリンググループ

Page 5: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

5

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

の個別の領域で構成され、最後にデータをターゲットのリレーショナルデータベースにプッ

シュします。

データの取り込み

SAP 等の ERP システムの内部データは、安全な VPN を使用して、この企業のデータレイク

にロードされます。VPN によって、AWS VPC が実質的に企業ネットワークの拡張となるの

で、インターネットトラフィックが減ってコストが抑制され、アプリケーションとデータ転

送の安全性とコスト効果が向上します。AWS VPC は、パブリック AWS クラウド環境内で割

り当てられたオンデマンドで構成可能な共有コンピューティングリソースのプールであり、

異なる組織間で高いレベルのセキュリティと制御を提供します。外部からのリアルタイムの

データフィードは、SFTP 等のインターネットゲートウェイや、クライアントのミドルウェア

サービスからのプッシュを介して送信されます。Talend ESB は、コーディングなしでサービ

スと API を統合するために使用されます。また、複雑なマッピングの問題を簡素化し、エン

タープライズクラスのセキュリティを提供します。

Talend によるデータのプロファイリングとクレンジング

データが全て AWS のデータレイクに取り込まれると、メッセージをキューに入れるイベント

通知が行われます。これらのキューにより、AWS EC2 インスタンスはデータパッケージを処

理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

AWS Elastic Beanstalk の一部であり、新しいリアルタイムデータフィードを自動的かつ弾

力的に処理するために使用されます。Talend Data Integration は、取り込まれたデータの

迅速な統合、クレンジング、プロファイリングに使用されます。また、メタデータを同期し、

セルフサービス型のデータ準備も提供します。Beanstalk の設定により、インスタンスは異

なるタスクを処理できます。1 つのインスタンスタイプはリアルタイムデータフィードを処理

し、もう 1 つのインスタンスタイプは大規模バッチデータを処理します。各インスタンスは 1

つの自動スケーリンググループです。自動スケーリンググループは、不健全なインスタンス

を検出し、必要に応じて容量を調整する機能を持ちます。したがって、これをインフラスト

ラクチャに追加することで、フォールトトレランス、可用性の向上、及びコスト管理の向上

を実現できます。

Page 6: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

6

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

バッチ処理とリアルタイム処理

クレンジングされたデータは、AWS のデータレイクに移されます。そこから、AWS Simple

Queue Services(Amazon SQS)の 2 つのセットを使用してデータのフィードが行われま

す。Amazon SQS は、システム内の他のコンポーネント間のメッセージやワークフローを処

理するメッセージングキューサービスです。異なるキューは、それぞれ異なるデータセット

を処理します。これにより、データロード時のパフォーマンスが向上します。これはまた、

バッチジョブがリアルタイムのトランザクションロードから分離されることを意味します。

ここでも、新しいリアルタイムデータフィードを自動的に、そして弾力性のある方法で処理

するために、AWS Elastic Beanstalk が使用されます。新しいデータフィードが到着すると、

Talend ESB Runtime が起動して処理します。同様に、バッチデータが到着すると、Talend

Data Integration が全て処理します。その後で、両方のデータセットは運用データウェアハ

ウス(ODS)に送信されます。ODS は、データに対する追加の操作のために複数のソースか

らのデータを統合するよう設計されたデータベースです。

ターゲット:リレーショナルデータベース

バッチ処理とリアルタイム処理が完了すると、データはデータターゲット領域(ODS)に送

信されます。この場合、この企業は複数の AWS Aurora インスタンスを使用しています。最

初のインスタンスはマスターインスタンスであり、その他のインスタンスは複製されたデー

タを継続的に読み取るために使用されるレプリケーションインスタンスです。レプリケーシ

ョンインスタンスでは、ビジネスユーザーが独自のBIツールまたは現在テスト段階のTalend

Data Preparationを使用して、日常業務でのニーズに応じてデータを抽出します。

このアーキテクチャーで使用されている製品

Talend Data Integration

Talend ESB

AWS Aurora

AWS Elastic Beanstalk

AWS S3

AWS CloudWatch

AWS VPC

Page 7: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

7

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

AWS Simple Queue Service (SQS)

AWS Auto Scaling Group

______________________________________________________________________

ユースケース 2:臨床試験研究の公開データセットの分析による治療

の改善

製薬会社にとって新薬の市場投入は、研究開発関連の費用から FDA(米国食品医薬品局)の

認可まで、広範にわたる課題に対応しなければならない大事業です。腫瘍やがん等の重篤な

疾患の治療においては、薬の効果を確実に上げるために非常に大きな努力が必要となります。

新薬の市場投入期間を短縮する方法の 1 つは、詳細な臨床研究情報を含む公開データセット

を利用することです。ただし、このようなデータセットは複雑で階層的な特性を持ち、非常

に大きな XML ファイルの形式をとることが多いという課題があります。

ある製薬会社は、Talend Big Data Platform と AWS を使用して、52,000 以上の XML ファ

イルの臨床研究データを合理化して変換するための、迅速な概念実証を構築できました。

図 2:Talendと AWSによる公開データセットを使用した治療の最適化

AutoScalinggroup

Internetgateway

EC2InstancewithFTP&Talend BigDataPlatform

BusinessAnalysts

AvailabilityZoneA

AWSRegion

AvailabilityZoneB

EC2InstancewithTalendBigDataPlatform

DataParallelbulkload

FlattenXMLfile

structure

AmazonS3Bucketwith

objects

AmazonRedshiftwith

densecomputemode

Downloadfiles

ファイルの

ダウンロード

XMLファ

イル構造

の平坦化

並行バルク

ロード データ

インターネット

ゲートウェイ FTP と Talend Big Data

Platformを含む EC2インスタンス

自動スケーリンググループ

Amazon S3

バケットと

オブジェクト

Amazon Redshift

と高密度コンピュー

トノード Talend Big Data Platformを含む

EC2インスタンス

アベイラビリティゾーン A

アベイラビリティゾーン B

AWS リージョン

ビジネス

アナリスト

ビジネス アナリスト

Page 8: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

8

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

米国全体のさまざまな診療所や病院で、3〜6 か月の期間をかけて、腫瘍及びがんの患者を対

象とする一連の偽薬を使用するランダム化比較試験のデータが収集されました。その後、デ

ータは治療センターの名前と住所等の複数のディメンションテーブルと、試験関連のファク

トデータに整理されました。

データの取り込み

Talend Big Data Platform は、臨床試験データをホストする外部サイトから AWS EC2 クラ

スター上で実行される FTP サーバーにファイルをダウンロードします。FTP サーバー上のフ

ァイルは、インターネットゲートウェイを介して AWS VPC(Virtual Private Cloud)環境に

送信されます。

XMLファイルの平坦化

Talend Big Data Platform は、階層構造の XML データを取得して平坦化し、プラットフォ

ーム内の Talend Data Mapper 機能を活用して 1 つのファクトテーブルと複数のディメンシ

ョンテーブルを生成し、マッピングを実行します。Talend Data Mapper は、複雑な階層デ

ータ(ネスト構造やループ構造等)を変換するために使用されます。これにより、XML、SWIFT、

COBOL、CSV、EDI、XLS 等のさまざまな形式のデータレコードまたはドキュメント間をマ

ッピングできます。

臨床関連の各 XML ファイルには、実施された研究に関する情報とともに臨床試験の場所や試

験対象の薬のタイプ等、さまざまなディメンション属性が含まれます。ここでの課題は、XML

ファイルごとに 1 対多のレコードを意味する場合が多い階層構造の XML ファイルから、必要

なディメンションデータとファクトデータを特定することでした。Talend Data Mapper を

活用することで、複雑な XML 構造を複数のファクトテーブルとディメンションテーブル

に効果的に平坦化できました。

Page 9: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

9

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

データのステージングとターゲットのデータウェアハウス

Talend Big Data Platform は、XML データを変換した後で、ステージングのために Amazon

S3 バケットにファイルをバルクロードします。さらに、報告と分析のために、再び Amazon

Redshift へ並行してバルクロードします。Amazon Redshift は、高速かつ強力で完全に管理

されたペタバイト規模のデータウェアハウスです。最後に、Talend は XML ファイルのバッ

チをファクトテーブル(最大 52,000 レコード)とディメンションテーブル(最大 200,000

レコード)に変換しました。

______________________________________________________________________

このアーキテクチャーで使用されている製品

Talend Big Data Platform

Amazon Virtual Private Cloud (VPC)

Amazon S3

Amazon Redshift

Amazon Auto-scaling Groups

______________________________________________________________________

ユースケース 3:ソーシャル及びモバイル分析による食品飲料サービ

ス小売業者のマーケティングキャンペーンの改善

ある大手食品飲料サービス小売業者は、ターゲットをより絞ったマーケティングキャンペー

ンを設計してブランド認知度を高めるために、店舗データだけでなくモバイルアプリケーシ

ョンやソーシャルメディアチャネルの情報から顧客に関する知見を獲得しようとしていまし

た。しかし、従来の ETL システムのために、ビジネスユーザーの能力が制限されていました。

速度、柔軟性、拡張性のためにクラウドのみのインフラストラクチャを実現することを優先

事項とし、安全な AWS クラウド環境で予測分析を実行する概念実証のために、Talend

Real-Time Big Data Platform が AWS S3、EMR、Redshift との組み合わせで使用されまし

Page 10: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

10

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

た。これにより、1,000 万人のアプリケーションユーザーのサンプルセットからソーシャル

データを分析できるようになりました。

図 3:Talendと AWSを組み合わせたソーシャル及びモバイルアプリケーションの

データ分析インフラストラクチャ

この小売業者は、ソーシャルメディア管理プラットフォームである Sprinklr を使用して、幅

広いソーシャルメディアチャネルのデータを収集して分析し、同社に対する顧客の意見や感

情を発見し、最終的に、顧客エンゲージメント向上のために分析を使用してソーシャルメデ

ィアコンテンツを設計し直しました。

データの取り込み

Talend Real-Time Big Data Platform は、適切な認証パラメーターを使用し、Sprinklr REST

API を介して JSON 形式の生データを取り込みます。続いて、データをフラットファイルに

変換し、必要な情報のみをフィルタリングします。

データの変換と分析

さらに Talend Real-Time Big Data Platform は、変換されたファイルを AWS S3 にバルク

ロードします。AWS S3 では、Talend のジョブサーバーは、指定されたバケット内のディレ

クトリーに基づいてデータをフィルタリングするための制御パラメータを作成します。Talend

プラットフォーム内には、特定のディレクトリー構造を処理するためのフレームワークが

SocialMediaand

MobileAppData

AvailabilityZone

AutoScalinggroup

EC2InstancewithTalend real-timeBig

DataPlatform

AmazonS3bucketwithobjects

TalendBulkloadData

AWSRegion

Business

Users

AmazonEMRresizingcluster

Talend

TransformData

AmazonRedshiftClusterwithstart/stopfunctionality

TalendTransform

Data DataStreamData

ソーシャルメディアと

モバイルアプリケーションデータ

ストリーム

データ

AWS リージョン

Talend Real-Time Big

Data Platformを含む

EC2インスタンス

Amazon S3 バケットと オブジェクト

Amazon EMR に

よるクラスターの

サイズ変更

起動/停止機能を持つ

Amazon Redshift クラスター

自動スケーリンググループ

Talend によるデータの バルクロード

Talend による

データ変換

Talend による

データ変換 データ

ビジネス ユーザー

アベイラビリティゾーン

Page 11: Talend とAWS の活用...通知が行われます。これらのキューにより、AWS EC2インスタンスはデータパッケージを処 理できます。インスタンスは、クラウドへの配備とプロビジョニングの無料サービスである

11

お問い合わせ:www.talend.com/contact Twitter: @Talend Facebook: www.facebook.com/talend 2016 年 12 月

構築されており、これによって AWS EMR へ、続いて Redshift へのデータのリプレイが可能

になります。

Talend は EMR と Redshift の自動クラスターサイズ変更をサポートしているので、ワークロ

ードに応じてノード数を動的に変更することで、コンピューティングとストレージのリソー

スを最適化できます。さらに、Talend はジョブの実行準備/完了時に Redshift クラスターを

自動的に起動/停止できるので、定期的に実行されるバルクロードプロセスに役立ちます。ま

た、Redshift クラスターを起動する見積スクリプトを作成する必要もありません。

AWS のセキュリティ

この小売業者にとってはセキュリティが最重要の懸念事項であったことから、AWS S3 サー

バーとクライアント側の両方の暗号化に対する Talend のサポートを活用しました。S3 サー

バー側の暗号化は保存データを保護し、クライアント側の暗号化は S3 の宛先に送信される前

のデータを確実に保護します。

______________________________________________________________________

このアーキテクチャーで使用されている製品

Talend Real-Time Big Data Integration

Talend Data Preparation

Amazon S3

AWS Redshift

AWS EMR

______________________________________________________________________

ctoumeyragues
Typewritten Text
WP229-JP