35
© Talend 2014 ビッグデータ統合でビジネスが変わる ~データ活用のオープンソース戦略~ Talend株式会社 マーケティングディレクター 寺澤慎祐

データマネジメント2014

Embed Size (px)

DESCRIPTION

2014年3月13日に開催された「データマネジメント2014」のセッションにて利用したスライドです。

Citation preview

Page 1: データマネジメント2014

1 © Talend 2014 © Talend 2014

ビッグデータ統合でビジネスが変わる~データ活用のオープンソース戦略~

Talend株式会社 マーケティングディレクター 寺澤慎祐

Page 2: データマネジメント2014

2 © Talend 2014

ビッグデータ インテグレーション によってビジネスは 変わるのか?

ビッグデータ インテグレーション は難しいのか?

マスターデータ マネジメントって どうやればいいの?

データクレンジングって 簡単じゃないの?

データ統合って これまでのツールで 十分じゃないの?

Page 3: データマネジメント2014

3 © Talend 2014

ビッグデータインテグレーションを得意とするTalend

オープン

!   オープンイノベーション n OSSを使ったオープンイノベーションで先進技術へ迅速に対応

n 45000人のコミュニティ n 1500名のテスター

!   オープンビジネス n 500以上のアダプター n 多くのベンダーと協業

豊富な実績

!   2000万ダウンロード !   100万人のユーザー数 !   4400社の導入

注目成長企業

!   年率128%成長 !   オープンソース企業で売上高が2位に

!   フォレスターリサーチにおいても有望企業に

I DATA�

Page 4: データマネジメント2014

4 © Talend 2014

Mission�

ビッグデータインテグレーションのリーダーであるTalendは、場所、時間、方法に関係なく、データに価値を与えユーザ企業の成長を支援します。

Page 5: データマネジメント2014

5 © Talend 2014

データで勝つ

!   ジェネラル・マネージャーであるビリー・ビーン率いるメジャーリーグ、オークランド・アスレチックスは、ヤンキーズやレッドソックスに比べて予算が少なく、有力選手を次々に引き抜かれる。

!   ビリー・ビーンは、後に「セイバー・メトリクス」として知られる、統計データに基づく意思決定である。

!   ビリー・ビーンは、経験あるスカウトの意見に耳を貸さずに、あくまでも客観的に「チームの勝ち数に貢献する選手は誰か」という観点から選手を起用

!   野球界であまり重視されていなかった出塁率などの統計値に基づいて選手を起用。

!   怪我その他の理由で他チームから重視されておらず年俸の低い選手でも、出塁率が高ければチームに招く

!   アスレチックスは少ない予算のまま、黄金時代を築く

Page 6: データマネジメント2014

6 © Talend 2014

データライブラリ(18-24PB)

気象データ衛星写真

森林伐採データ

分析システム

地球表面を1キロ毎

にメッシュに区分

メッシュごとに150のパラメータ設定

分析結果

発電量予測設置面積、環境配慮メンテナンス計画

出力のみならず様々な条件を満たす適な立地場所を抽出

•  本社:デンマーク、創業:1945年、 •  事業:風力発電機の設計・製造・販売で世界最大手 •  実績:67カ国、45000機 •  ビッグデータ活用:設置場所の提案 •  ビッグデータ分析技術:Hadoop •  Hadoop利用効果:3週間から15分へ •  ビジネス効果:タイムリーな提案による競争力の維持

ビッグデータを活用して、顧客である風力発電事業者の収益を極大化する目的から、顧客にとって 適な風力発電機の設置場所を提案

(出典)総務省「ICT分野の革新が我が国社会経済システムに及ぼすインパクトに係る調査研究」(平成25年)

ビッグデータで勝つ

Page 7: データマネジメント2014

7 © Talend 2014

(出典)総務省「ICT分野の革新が我が国社会経済システムに及ぼすインパクトに係る調査研究」(平成25年)

契約者全体の運転状況と事故

状況

契約者の運転状況

運転日時、場所、速度、急ブレーク頻度

リスク判定ロジック

契約者別リスク判定

リスクに応じた

保険料設定

■本社:米国 ■事業:自動車保険会社 ■サービス名:Snapshot(自動保険料算出設定サービス) ■ビジネス背景 •  インターネット上で販売される安価な保険により、各社一層の差別化が必要だった

■ビジネス効果 •  安全運転を行う利用者にとって非常に割安な自動車保険が適用 •  高リスク層も納得の保険料設定で、運転が変われば保険料も変わる •  数年間で全米の自動車保険業界で第3位に躍進 •  利用ベース自動車保険(UBI:Usage-based Insurance)の提供に際しては、競合他社の事業展開は遅れ気味

•  結果的に同社の「一人勝ち状態」

ビッグデータを活用して、顧客毎の 適な保険料を設定することで、顧客もROGRESSIVEもお得

データ蓄積 モデル構築

6ヶ月間のデータ

ビッグデータで勝つ

Page 8: データマネジメント2014

8 © Talend 2014

Talendを使ったデータドリブン経営の実践事例

!   データn  5年分の通話明細記録n  顧客データ

!   課題n  通話明細記録と顧客データを統合して様々なことを分析したい

n  分析インフラ(Oracle)の価格が高すぎる

!   解決した技術  n  Hadoop、Talend

!   ボーダフォンのチャレンジ  n  通話明細記録と顧客情報の統合によるシングルビューの実現

n  精緻なデータ分析によるトレンドの解析

高価で不能だった分析が安くなることで可能になった

Page 9: データマネジメント2014

9 © Talend 2014

Talendを使ったデータドリブン経営の実践事例

!   データn  融資企業のデータn  市場データ、社会リスクのデータ

!   課題n  金融当局指導により、融資を増やさなければならないが、銀行としてリスクのある先には貸せない・・・。

n  「要注意」「」破綻懸念」等に分類された融資先に本当は宝の山がないか

!   解決した技術  n  Hadoop、Talend

!   成果:ALM(Asset  Liability  Management)の 適化n  収益、信用リスク、コスト(人件費、IT費用、固定費など)をリアルタイムに把握し、営業などの効率化を図る

n  収益の計算n  信用リスク計算n  コスト計算

融資先をリスクではなく機会と捉えることで経営を 適化

Page 10: データマネジメント2014

10 © Talend 2014

citiのALMを使ったデータドリブン経営

利息による収益

信用リスク

コスト

意思決定

アクション

ITコスト

国際情勢

不動産コスト

人件費

景気指数

債権リスク

為替

株式市況

利息収入

シナリオ

ALM

Profit ALM

Time

Page 11: データマネジメント2014

11 © Talend 2014

ビッグデータって 

これまでは得られなかったデータで社内外の活動から発生

非構造化データ

動画データ音声データ

ドキュメントデータテキストデータSNSデータゲノムデータ

クリックストリーム行動データ

センサーデータGPSETC生体株価為替

これまでも得てきたデータで社内の活動から発生

構造化データ

販売データ会計データ顧客データ物流データプロモーションデータ

質の良い

質の良い

「量」もいいけど「質」もね

Page 12: データマネジメント2014

12 © Talend 2014

経営者が知りたい5つのこと

現在の実力

もっとも

売れている商品

将来性

今後、売り上げが

伸びる商品

確実性

何かがあると

必ず売れる商品

着実性、安定性

いつも一定して

売れる商品

一過性、断続性

ときどき

よく売れる商品

Page 13: データマネジメント2014

13 © Talend 2014

データ分析が経営にもたらすもの

!   起きることを想定し 適な打ち手をしたい(指示的データ分析) n  モデル化された事象に対してシミュレーション(仮説の導入)を実施して、売上に繋がる打ち手、顧客満足に繋がる打ち手、コスト削減につながる打ち手を実施する

!   何が起きるか知りたい(予測的データ分析) n  データマイニングは、過去データからの兆候を見つけ出し、データサイエンティストは、過去データからモデルを導かなければならない

n  統計解析手法を使って、起きることを予想する

!   何が起きたが知りたい(説明的データ分析) n  データマイニングは、データから何かの兆候を見つけられる。 n  自動化できにくい n  ストーリー、仮説、想像力が必要

Page 14: データマネジメント2014

14 © Talend 2014

ビッグデータインテグレーションが重要な理由

!   データ量が多ければ、良い情報と良いインテリジェンスが !   データの種類が多ければ、良い情報と良いインテリジェンスが !   データの品質がよければ、良い情報と良いインテリジェンスが

ヒト カネ 情報モノ

【データ】 細かく分かれた個々の現象や定量的な特性で、それだけではまだ何を意味するのか分からない種類の「情報」。 データが集まると、何らかの意味を持つようになる。

【インテリジェンス】 「情報」を分析、評価したもの。 情報に分析、評価して洞察しない限り、インテリジェンスではない。

【情報】 データの種類が数多くあるなかで、それらの種類ごとに集めて、いくつもの意味を持った「情報」を収集すると、次の段階となる分析、評価が行える。

!   データがうまく統合されると、より良い情報とより良いインテリジェンスが

Page 15: データマネジメント2014

15 © Talend 2014

データ 収集

データ 分析

意思 決定

アクション

データ 種類

データ 品質

データキュレーター多くのデータセットの中から、役に立つものを選び出し、必要ならば修復し、分析アルゴリズムにかける。データのフォーマットや単位系の変換、データ項目の意味の関連付けなど、目的に応じて、どのデータに、どのような前処理やクレンジングを施して使うかを決定して実施する

データサイエンティスト「統計学的要素」、「IT要素」、「業務要素」の全ての能力を備え、データを収集し、アクセスして、分析することでビジネスに活かせる知見を引き出す能力の持ち主。データ処理や統計に関する基本的な知識に加えて、データの裏にある真実を見抜く力、一見まったく関係のないデータを組み合わせるときに何かを発見する力、仮説やストーリーを想定できるスキルが欠かせない。

アルゴリズム

様々なデータを統合して経営をドライブする

Page 16: データマネジメント2014

16 © Talend 2014

インテリジェンスを得るのにはデータ

<

アルゴリズム・アプローチ データ・アプローチ

Page 17: データマネジメント2014

17 © Talend 2014

Business Intelligence

現在の(ビッグ)データ活用はというと?

購買行動に影響を与える外部データ

ETL

販売データ

商品データ

購買行動に影響を与える内部データ

各種データ

天候、景気イベント、競合商品

購買までの行動

クリックストリーム店内行動分析

DWH

データマート

Big

Dat

a

顧客データ

他システム、経営行動意思決定

SFACRM物流調達その他

新規顧客獲得

顧客満足度向上

仮説の検証、インサイトデータ分析、モデル作成、アルゴリズム作成、統計解析

売上アップ

コストダウン

Page 18: データマネジメント2014

18 © Talend 2014

MITスローンスクールAndrew  Mcafee

ビッグデータの時代における

経営者に求められる資質は、

正しい答えを考えることではなく、

正しい質問をすることだ

Page 19: データマネジメント2014

19 © Talend 2014

ビッグデータ統合によって インテリジェンスを得ることは重要ですが、 インテリジェンスを使うことも重要です。

Page 20: データマネジメント2014

20 © Talend 2014

Big Data

Talendが推奨するこれからのビッグデータ活用

購買行動に影響を与える外部データ

販売データ

商品データ

購買行動に影響を与える内部データ

各種データ

天候、景気イベント、競合商品

購買までの行動

クリックストリーム店内行動分析

顧客データ

他システム、経営行動

SFA/CRM

新規顧客獲得

顧客満足度向上

ビッグデータインテグレーション基盤

Business Intelligence

レポート

活動指示

データ分析結果、モデル、ルールアルゴリズム、統計解析結果

売上アップ コストダウン

Page 21: データマネジメント2014

21 © Talend 2014

データ分析はプロセスであり、データ統合はオートメーション技術

!   データ分析は、特定のイベントではない !   データ分析は、スナップショットにおける傾向分析ではない !   データ分析は、組織における意思決定の補助手段 !   データ分析は、定型的なモデル作りです !   データ分析は、データの収集から意思決定までのプロセスです

データ統合とは、データの収集から意思決定までのプロセスを、次の一手まで繋げて、オートメーション化する技術

Page 22: データマネジメント2014

22 © Talend 2014

ビッグデータインテグレーションのキーワード

プログラマブル

!   分析結果、ビジネスルール、モデル、アルゴリズムをプログラムする

Talend Studio

オートメーション

!   分析結果、ビジネスルール、モデル、アルゴリズムをプログラムし、次のシステムへデータを渡す

!   情報をインテリジェンスに変換して渡す

!   予め決められたアクションを適宜実行する

「スナップショット」に「リアルタイム」を追加

!   スナップショットデータだけではなく、ストリームされるリアルタイムなデータも対象にする

!   スナップショットデータとリアルタイムデータを適宜にデータ収集

Page 23: データマネジメント2014

23 © Talend 2014

Talendだから実現できる4つの要素

圧倒的なスピード

多様性への対応

ビッグデータプラットホームの対応

ビッグデータの取り扱い

スモール&クイック

Page 24: データマネジメント2014

24 © Talend 2014

Talendのデータインテグレーションを簡単に説明すると・・・

Talend Studio

稼働環境

DATA INPUT DATA OUTPUT

cloud

Page 25: データマネジメント2014

25 © Talend 2014

圧倒的なスピード: Hadoopネイティブ対応

!   Talend Studioで生成されたJARファイルがJRE、MapReduce、YARN上でネイティブに動作

!   DIエンジン、データクレンジングが圧倒的なパフォーマンスを発揮!   ビッグデータインテグレーションを分散環境のパフォーマンスで実施できる

jar File

Java SE

CPU

5.2

競合他社

プログラム

OS

CPU

YARN

jar File

Map Reduce

Java SE

分散環境 CPU

5.4 jar File jar

File jar File

Map Reduce

Java SE

分散環境

CPU

5.3 jar File

Page 26: データマネジメント2014

26 © Talend 2014

No SQL DB

Hadoop

分散処理における先進技術

API

API

API

開発者

ビッグデータ取り扱い:容易に取り扱えるツール

!   NO SQL DB、Hadoop、分散処理技術へのアクセスは簡単ではない !   Hadoop処理への期待は高まりつつあるが、Hadoop/MapReduceを使えるエンジニアが不足

!   Talendは先進技術へのAPIを用意することで、NO SQL DB、Hadoop、分散処理技術を容易に活用できる環境を提供

Page 27: データマネジメント2014

27 © Talend 2014

ビッグデータ取り扱い:容易に取り扱えるツール

Redshift

No SQL DB Hadoop Technology インメモリーDB、DWH

Page 28: データマネジメント2014

28 © Talend 2014

多様性への対応:500以上のコンポーネント

!   Talendとコミュニティで開発されたデータソースへのコンポーネントが500以上用意 !   対応していないデータソースへのコンポーネントはオープンソースで提供されている

SDKにて開発

稼働環境

DATA INPUT DATA OUTPUT

YARN Map Reduce Java SE

500

cloud

Page 29: データマネジメント2014

29 © Talend 2014

スモール&クイック:ライセンスモデル

Bertrand Diard Co-Founder and CSO

Fabrice Bonan Co-Founder and CPO

CPU、コア、インスタンス コネクター数 データ量

利用者数

エンジニア マーケッター 経営企画、MD

Page 30: データマネジメント2014

30 © Talend 2014

Talendだから実現できる4つの要素を支えるもの

Page 31: データマネジメント2014

31 © Talend 2014

4つの要素を支えるものはオープン

OSSであるが故に情報ソースへのコンポーネントが豊富(500以上)

オープンイノベーションによるコミュニティの支持によりコードの信頼性が高い  

コード生成型モデルであるためコードがオープンであり透明性がある

オープンイノベーションであり、ソースコード生成型であるため、先進技術(分散処理環境)への対応が早い

コミュニティメンバーに使って頂くことを第一にした利用者単位でのライセンス

利用者年間サブスクリプションライセンスモデルはクラウドモデルやOSSモデルに近い

コミュニティ ソースコード イノベーション ビジネス

オープン

コミュニティ

Talendの特長

Page 32: データマネジメント2014

32 © Talend 2014

Talendはテクノロジーベンダーです

Partner Product

SOLUTION

Page 33: データマネジメント2014

33 © Talend 2014

Talendはデータソースと等距離なベンダーです

SYSTEM

Page 34: データマネジメント2014

34 © Talend 2014

Talendは矢印ベンダー

日立ソリューションズ、IT LeadersのWebサイトより

矢印のご用命は、

Page 35: データマネジメント2014

35 © Talend 2014

Thankswww.jp.talend.com