64
Institute of Statistical Mathematics 大学共同利用機関法人 情報・システム研究機構 ビッグデータと統計学研究集会 統数研,2013/5/27 情報・システム研究機構 北川 源四郎 ビッグデータが拓く新しい科学研究の在り方 データ中心科学リサーチコモンズ

データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 1ビッグデータと統計学研究集会統数研,2013/5/27

情報・システム研究機構

北川 源四郎

ビッグデータが拓く新しい科学研究の在り方

データ中心科学リサーチコモンズ

Page 2: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 2

• 地震・津波・原発• ビッグデータ

二つの大波

Page 3: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 3

President Obama Big Data Initiative

Page 4: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 4

ビッグデータ

デジタル文書(ウェブ,ワード,表計算)

個人情報発信(ブログ,電子メールなど)

デジタルコンテンツ(画像,映像)

センサ情報(ICタグ,各種センサ情報)

トランザクションログ大規模モデル計算出力

情報爆発

2011年 1.6ZB 喜連川(情報研)

文部科学省公表資料「情報爆発時代に向けた新しいIT基盤技術の研究」より掲載

Page 5: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 5

Big Data

Researchers in a growing number of fields are generating extremely large and complicated data sets, commonly referred to as “big data.”

http://www.nsf.gov/news/news_images.jsp?cntn_id=123607&org=NSF

Source of Big-Data• Remote sensing, Sensor network• Sensors equipped with mobile devices• RFID readers• Camera, Microphone• Software log• Academic data (experiment, observation)

Page 6: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 6

アカデミック・ビッグデータ

情報通信技術の飛躍的発展

大量・大規模データの集積

情報通信技術

• 観測機器、センサー• インターネット、通信• データベース• 並列計算機

(TECHTIILIS Feb. 24, 2011)

Production

Storage

Processing

• 生命科学: DNA data, Micro-array data• マーケティング: POS data• ファイナンス: High frequency data• 環境科学

• 防災(地震学)

• 気象学

• 天文学(Whole-sky CCD camera)• 高エネルギー物理学(LHC)

Page 7: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 7

ソーシャル・ビッグデータ

データ取得

応用

• マーケティング(市場予測、顧客行動予測モデル)

• オンラインショッピングにおける推奨機能

• SNS上のテキスト分析

• センサーデータ活用(防犯,防災,故障検出)

• インターネット: Web, SNS, メール情報

• センサーデータ: POS, RFIDスマートフォン,家電,自動車

画像, 音声,変位センサー

•ソフトウェア・ログ,ライフログ

Page 8: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 8

アメリカの動き

Mathematics• Mathematical and Statistical Challenges Posed by Large Data Sets• Managing and Modeling Uncertainty• Modeling Complex Nonlinear Systems

Cyber-enabled Discovery and Innovation (CDI)• From Data to Knowledge: enhancing human cognition and generating new knowledge from

a wealth of heterogeneous digital data;

• Understanding Complexity in Natural, Built, and Social Systems: deriving fundamental insights on systems comprising multiple interacting elements;

• Building Virtual Organizations: enhancing discovery and innovation by bringing people and resources together across institutional, geographical and cultural boundaries.

Cyber-Physical Systems (CPS)• Cyber-physical systems (CPS) are engineered systems that are built from and

depend upon the synergy of computational and physical components. • Smart electric grid, smart transportation, smart buildings, smart medical

technologies, next-generation air traffic management, and advanced manufacturing.

Page 9: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 9

国内の動き

• 情報・システム研究機構 (2004)

• 情報爆発情報爆発時代に向けた新しいIT基盤技術の研究

2006-2010 科研費特定領域研究

• 情報大航海2007-2009 経済産業省

• さきがけ「知の創生と情報社会」2008-

• 平成25年度戦略目標

「分野を超えたビッグデータ利活用により新たな知識や洞察を得るための革新的な情報技術及びそれらを支える数理的手法の創出・高度化・体系化」

Page 10: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 10

データは多ければ良いのか?

1936年(大恐慌後)アメリカ大統領選挙Roosevelt 対 Landon

• The Literary Digest: 230万人調査 Landon 57% (370人:161人)

• The American Inst. of Public Opinion (Gallupの前身)サンプル数 3000 Roosevelt 54%

結果: Roosevelt 60%(46/48州, 8人: 523人)

原因: 調査の偏り

• Literary Digest 読者+自動車保有者+電話利用者 1000万人

• Gallup 層化抽出(割り当て法)

George H Gallup

Page 11: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 11

実世界

19世紀 20世紀 21世紀19世紀 20世紀 21世紀

Cyber-Physical 世界

進化世界

物理世界

進化世界

物理世界物理世界物理世界

確定的現象

Newtonパラダイム

確率的現象

システム

ゲーム論的

非線形現象

複雑システム

人工物

Darwinism

科学の対象の拡大・変化

ICT科学の文法

Page 12: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 12

ビッグデータの背景(1)

学術研究分野

・物理モデルだけでは解決できない対象・問題が主流に

物理科学 生命科学 人間・社会科学 CPS

・「認識の科学」から「設計の科学」へ

・「真理の探究」から「予測、シミュレーション、知識創造、意思決定(制御、管理)」へ

・「物理モデル」から「目的達成のためのモデリング」

CPS = Cyber Physical System

Page 13: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 13

ビッグデータの背景(2)

人間・社会

・グローバル化、社会の不確実性とリスクの増大

・災害の広域化、甚大化と社会の安全・安心

・根拠に基づく意思決定(政策決定EBP、医療 EBM)

産業分野

・「ものづくり」から「サービス」へ

・「大量生産・大量消費」から「個別ニーズ対応」へ

・「(普遍的)知識の応用」から「知識と個別情報の統合」へ

Page 14: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 14

歴史の転換点

歴史にも境界がある。

・・・数百年に一度、際立った転換が起こる。社会は数十年をかけて、次の新しい時代のために準備する。世界観を変え、価値観を変える。社会構造を変え、政治構造を変える。技術と芸術を変え、機関を変える。やがて50年後には、新しい世界が生まれる。

・・・この転換は2010年ないし20年まで続く。

P.E. Drucker (1993)『ポスト資本主義社会』

Page 15: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 15

社会における科学の役割

占星術,錬金術

工業生産過程(ものづくり)

天気予報,経済予測

マネジメント, マーケティング

リスク管理,ファイナンス

科学的発見(発見科学)

サービス

専門家の経験と勘

科学的方法

Page 16: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 16

歴史的瞬間

馬車 vs. 蒸気機関車

蒸気機関 => 工業化社会

経験と勘にもとづく専門技能 vs. データ分析

・棋士vs.コンピュータ将棋

ボルチモア・オハイオ鉄道1830年12月25日

1776年 ワット

Page 17: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 17

専門家 vs. データ分析

• ワインのヴィンテージ評価

• 野球のスカウティング

• 人事採用

• カジノの顧客対応

• 航空会社顧客サービス

• 保険料の層別

• ネット販売の個別価格設定

• EBM 医療診断支援

• 判決予測、取引業者評価

『その数学が戦略を決める』(イアン・エアーズ著、文春文庫)

Super Crunchers, Why thinking-by-numbers is the new way to be smart

Page 18: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 18

データ中心科学(第4の科学)

理論科学

Humaninspirationdependent

データ中心科学(第4の科学)

データ中心科学(第4の科学)

Cyber-enabled

計算科学(シミュレーション)

演繹的

(モデル駆動型)

帰納的

(データ駆動型)経験科学

Page 19: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 19

Fourth Paradigm

The Fourth Paradigm, Data-Intensive Scientific DiscoveryEdited by T. Hey, S. Tansley and K. TolleMicrosoft Research

© 2009 Microsoft Corporation

Page 20: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 20

必要な要素技術

• 高次元データ可視化

• 新NP問題への挑戦

• モデリング・情報統合技術

ベイズ統計, MCMC, MCFデータ同化機械学習、データマイニングメタアナリシス

Page 21: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 21

統計学の歴史

古典統計学以前(17世紀-18世紀)

・国勢学派: 国の実態を捉える (ドイツ、記録、表式化)

・政治算術学派:大量の事象を捉える(イギリス、Graunt, Petty, Halley)

数量的観察、大量観察、規則性の発見、推算

・古典確率論: 確率的事象を捉える(フランス、Pascal, Bernoulli, Laplace,…)古典的確率論、集団的規則性(大数の法則)

古典統計学(1830-1850)

Quetelet 官庁統計、国際統計協会

近代統計学

・記述統計学 (1892-)

Galton, Pearson 相関係数、回帰係数、生物測定学

・推測統計学 (20世紀)

Fisher, Gosset 小標本論、実験計画法、分散分析法、検定論

現代統計学

・モデル選択からベイズモデリングへ

Page 22: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 22

統計学のトレンド

大量データからの因果律の発見

小標本に基づく精密推論

ビッグデータに基づく意思決定

(大標本への回帰?)

Page 23: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 23

ベイズモデリング

フィッシャーの統計的推論

尤法は考えられたモデルのパラメータについて、先験分布の考えをかりることなく適用できる方法であり・・・ベイズ理論の難点を回避するという形で具体化されている

尤法は極めて実用上有効であったが、これを小サンプルの場合に適用しようとすると問題が生じる。

極めて多くのパラメータを持つ複雑な統計的モデルが実用されはじめると、これまでの常識では極めて大きなサンプルと考えられていたデータが実は小サンプルであることに気付く。

データが許す範囲で可能な限り複雑なモデルをあてはめようとするため、いわゆる大サンプルという場面が生じなくなった。

尤法の直接的利用によっては有効な結果は望まれなくなり、 尤法に代わって尤度関数の与える情報を極限まで利用する方法を発展させる必要性が生じる。

ベイズモデル

Specification

Test

Estimation

Data x

Output

Yes

No

∙ |

∙ |

赤池弘次 (1980) 統計的推論のパラダイムの変遷について、統計数理研究所彙報 第27巻第1号 5-12

Page 24: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 24

ビッグデータと次元の呪い

回帰モデル

離散的 適化

A =

p

n Axyn データ数p 説明変数の数

マイクロアレイ、マーケティング

p >> n 新 NP問題

),,()(max 1 pf

365

150

20

101010

,,1

囲碁

将棋

ルービックキューブ

pj kk

A =

p

n

Page 25: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 25

ベイズの定理 18世紀

事前分布の問題

哲学的論争

計算困難性

ベイズの定理 18世紀

事前分布の問題

哲学的論争

計算困難性

近年の発展(1)方法論上:事前分布,モデル評価

(2)計算上: 計算機の発達,アルゴリズム(MCMC, MCF)

(3)応用上: 統計数理,情報学,情報検索,人工知能,

地球物理,統計地震学,生物学,データ同化

季節調整,調査データ解析

例:Google

ベイズモデルの隆盛異種情報の統合情報抽出,情報検索

解決

ベイズモデリングの実用化

Thomas Bayes (1702-1761)

Page 26: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 26

ベイズモデリングによる異種情報の統合

1. 普遍的知識と個別的情報の統合個別化(Personalization)

2. シミュレーションモデルとデータの統合データ同化(Data assimilation)

3. 知識発展のスパイラル能動的モデリング(Active modeling)

4. 事前情報とデータ情報の統合ベイズ推論

5. 時間発展とデータ更新フィルタリング(Sequential filtering)

鍵はBayes modeling

Page 27: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 27

1.個別化:統計的ものの見方の変化

帰納:個々の具体的事実から一般的知識へ

集団として捉える 本質を捉える

大量生産・大量消費を目指した20世紀

個人に焦点をあてた科学技術へ

背景

資源の有効利用のための選択と集中

価値観の多様化(個人,個性,個別,固有の尊重)

平均を見る 個を捉える

Page 28: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 28

個別化(Personalization,平均から個へ)

平均から個性へ

分布 粒子(個)平均と分散

本質は究極の条件付け

X =

p

n

新NP問題 ( n << p )

• マイクロアレイ

• マーケティング

サービスの個別化・テーラーメード医療・オーダーメード創薬・マイクロ・マーケティング・テーラーメード教育・ロジスティックス・情報提供

Page 29: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 29

2.データ同化:モデルとデータの統合

気象学・海洋学の分野で開発

数値シミュレーションと観測データを統合

– シミュレーションモデル

複雑な現象を完全には表現できない

•厳密な初期条件

•モデル不確実性(境界条件, パラメータ, 構造)

– 観測データ は有限 (スパース)• 物理的または予算上の条件

データを使ってシミュレーションモデルの改良

= データ同化

統数研: データ同化研究開発センター

Page 30: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 30

3.モデリングと知識発展

対象に関するあらゆる取得可能な情報 (対象に関する理論,経験的知識,観測データ) およびモデリングの目的

事前情報とデータの持つ情報の統合 ベイズモデリング

モデルを通して知識が得られる.知識はモデルを改良する

知識発展のスパイラル

データ

経験的知識

理論

データデータ

経験的知識経験的知識

理論理論

統計的モデル

-情報・知識獲得の「道具」-

統計的モデル

-情報・知識獲得の「道具」-

情報抽出知識発見

予測シミュレーション

意思決定制御・管理

統計的モデル

-情報・知識獲得の「道具」-

情報抽出知識発見情報抽出知識発見

予測シミュレーション

予測シミュレーション

意思決定制御・管理意思決定

制御・管理

Page 31: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 31

ベイズの定理と知識発展

ベイズの定理

逐次フィルタリング

Prediction

Filtering

nnnnn

nnnnnn

nnnnnnn

dxYxpxypYxpxypYxp

dxYxpxxpYxp

)|()|( )|()|( )|(

)|()|( )|(

1

1

11111

dxxpxypxpxypyxp)()|()()|()|(

データ

Page 32: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 32

データ中心科学: 期待される効果

• データ集約型の研究方法論の確立

• 個別的ニーズの把握、一般的知識との情報統合

• 人間・社会における新しい調査法の確立

複雑な現象に対する研究の飛躍的発展

サービス産業など日本の基幹産業強化

根拠に基づく政策決定の方法確立

危機に強い社会システム

Page 33: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 33

情報・システム研究機構

大学共同利用機関大学共同利用機関

国立情報学研究所

統計数理研究所

国立遺伝学研究所

国立極地研究所

大学共同利用機関法人

情報・システム研究機構

2004年

法人化・機構化

Page 34: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 34

情報・システム研究機構

現象の解明

意思決定

予測・制御

モデリング

実験・観測・調査

大規模データベース

生命,地球,環境,社会などの複雑な問題を,物質とエネルギーの観点に替って情報とシステムという立場から捉えるための,方法の研究,研究基盤の整備および実践を行う.

人間・社会

地球・環境

生命

Page 35: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 35

- 情報・システム研究機構の挑戦 -

目的: データ中心科学の確立

取組: データ中心科学研究基盤の構築

融合研究の推進

データ中心科学リサーチコモンズ

Page 36: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 36

Page 37: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 37

Page 38: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 38

データ中心科学研究基盤

データ基盤

モデリング・解析基盤

人材育成

生命科学データ

地球科学データ

人間・社会データ

その他の科学データ

Page 39: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 39

データ基盤: データベース構築

生命科学データDatabase Center for Life Science (DBCLS)

地球科学データPansy Data Analysis Center(Program of the Antarctic Syowa MTS/IS Radar)

人間・社会科学データDIFI (Data Driven Information Flow Infrastructure)

他のアカデミックデータ天文学, 言語学等

Page 40: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 40

ライフサイエンス・データベースの統合化を実現するための研究開発を推進

ライフサイエンス統合データベースセンター(DBCLS)

2006年設立教員 13, 技官 16, RA 23, 合計 52予算規模 0.5億円 + 4~8億円270 のデータベースを統合済み

事業内容:• 現存するデータベースの統合• データベース統合化のための技術開発• 日本のライフサイエンス・データベースの保存• アノテーション• ライフサイエンス・DBポータル サイト• ライフサイエンス分野の出版情報• キュレーターおよびアノテーターの育成• BioHackathon: 開発者向けの国際ワークショップ

DB保管

DB統合化

Annotation

技術開発

出版情報

ポータルサイト

人材育成

DBCLS

遺伝研遺伝研 情報研情報研

九大九大

産総研産総研

長浜バイオ大

長浜バイオ大

お茶大お茶大

東大東大

京大京大

かずさDNA研究所

かずさDNA研究所

JSTJST

九工大九工大

理研理研

Page 41: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 41

Pansy データ解析センター

研究業務内容• レーダー操作• データベース構築• データ同化とモデリング• 先端技術開発• 国際協力

世界初の南極大型大気レーダー

• 1045基のレーダーアレイ• 対流圏・成層圏・中間層の風、電離圏のプラズマ精密観測• 気候変動の検出・温暖化の将来予測• グローバルなエネルギー収支の定量化• グローバルな大気結合

PANSY

極地研:PANSYデータ解析センター

Page 42: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 42

DIFI (Data Driven Information Flow Infrastructure)

曽根原(情報研)

Page 43: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 43

データ中心科学研究基盤

データ基盤

モデリング・解析基盤

人材育成

生命科学データ

地球科学データ

人間・社会データ

その他の科学データ

Page 44: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 44

モデリング・データ解析基盤

データ解析の方法開発・ツール提供• 可視化と構造探索• モデリングと知識発展,ベイズ推論• 機械学習,計算アルゴリズム• シミュレーション・データ同化・意思決定

Visualization of high-dimensional data and analysis results

1500

1600

1700

1800

1900

2000

2100

1 6 11 16 21 26

Ensemble simulationSpiral of knowledge development

Page 45: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 45

データ同化研究開発センター RDCDA

シミュレーションモデル

観測データ

データ同化+ 現実に対応したシミュレーション

研究開発内容:

アンサンブル・カルマンフィルタ、粒子フィルタ等のデータ同化の基本技術の研究開発

データ同化手法の応用

• 大洋‐大気系連成モデル• 津波モデル、• 惑星磁気圏3D構造• バイオインフォーマティクス、生物学• 化学プラント

Page 46: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 46

細胞質分裂時の細胞表層の硬さの推定• 細胞質分裂は、分裂溝をくびれさせることによって細胞を二つに分割する

• このとき、分裂溝から細胞の極側に至る細胞表層の硬さが重要と考えられるが、硬さを直接測定するのは困難

細胞質分裂の模式図(左)と、実際の線虫胚における細胞質分裂の様子(右)

• 実験的に観測された細胞形状と、硬さを考慮した数理モデルを組み合わせ、細胞表層の硬さの時空間的な変化をデータ同化の考え方で予測する方法を構築

• 線虫初期胚の細胞質分裂に適用したところ、細胞表層の硬さの指標である曲げ弾性係数が、細胞の極側に対して分裂溝近傍で相対的に低下することが推定された

細胞分裂中の細胞表層の硬さの推定結果。Rは分裂前と比較した分裂溝の相対半径で、分裂の進行に伴い減少する。硬さは青色の濃さで表す(濃い方が硬い)

データ同化

大地震に伴う大気変動のデータ同化

• 大地震の発生時には地面の振動や津波により音波が励起される

• これは、高感度微気圧センサーによって観測できる

• 2008年岩手・宮城内陸地震に伴う大気変動をデータ同化によって解析したところ、震源の深さはこれまで考えられていた6Kmよりも4kmとするほうがデータによく合致することなどがわかった

データ同化の結果から再現した、2008年岩手・宮城内陸地震の(上)発生直後の地震音波の空間分布(中)発生から70秒後(下)発生から1000秒後

現在、同様の解析が2011年東北地方太平洋沖地震に伴う大気変動に関しても進んでおり、微気圧観測による「津波早期警戒システム」の構築が期待されている

Page 47: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 47

オープン・ソーシャル・セマンティックWeb基盤

博物館標本DB

種情報DB

TaxonName DB

GBIF BioSci.DB

研究DB個別

研究DB

名前数: 113118トリプル数:14,532,449

検索拡張アプリ

e-サイエンス基盤構築

情報推薦の基盤技術

22万人の研究者が参加する

サイエンス3.0基盤Resarchmap上で統合

連想情報処理基盤

論文の意味解析技術

論文の役割解析に基づく推薦指標判定技術

情報資源の同定・検索基盤技術

情報推薦の数学的モデル

新井(情報研)

Page 48: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 48

準備中(Feasibility Study)

イメージデータ解析

自然言語処理

Page 49: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 49

データ中心科学研究基盤

データ基盤

モデリング・解析基盤

人材育成

生命科学データ

地球科学データ

人間・社会データ

その他の科学データ

Page 50: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 50

Current Vogue-Words

Data Scientist,統計学

ビッグデータ時代に必要な人材

• Statistician (IBM Almden研究所講演)”the sexy job in the next 10 years”• Data Scientist (Harvard Business Review)

• Deep Analytical Talent (McKensey Global Institute Report)• Super Crunchers(Why thinking-by-number is the new way to be smart)

McKinsey Global Institute Super Crunchers

Page 51: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 51

データ中心科学のための人材育成

T-型,-型研究者

データ中心科学と融合研究の推進に必要な人材• データ解析、ビッグデータ処理、計算法• モデリング、知識発展の方法• 領域科学の深い知識

領域研究

方法論

領域研究

領域研究

方法論

Page 52: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 52

Insight Initiative: Data science fellows program

“The Insight Data Science Fellows Program takes scientists from academic and in six weeks prepare them to succeed as data scientists. The program combines mentoring by data experts from local with exposure to actual big data challenges.”

Who makes the best data scientists?“Hard scientists, particularly physicists, rather than computer science majors”

• Strong mathematical background• Computing skills• Survival depends on getting most from data• Think about the big picture, the big problem

http://insightdatascience.com/apply.html

Page 53: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 53

我が国の現状(日本の特殊事情)

統計学科,統計学専攻を設置せず,応用分野(医学,工学,農学,数学,経済学,心理学,社会学など)で専門的人材を育成している

○ 現実の問題に根差した研究・教育の実現(先人の工夫)

● 当該分野の課題に特化した方法論になりがち.抽象化の不足

● 新分野開拓,他分野への転向の困難

● コミュニティ形成不足:日本統計学会 1500人,統計関連学会連合 3000人?

(米ASA 18000人,英RSS 7200人)

日本学術会議勧告(1983/11/18)

「統計学の大学院研究教育体制の改善について(勧告)」

・大学院専攻(教員定員18名,学生定員30+6名程度)の複数設置

・実現は総合研究大学院大学(統数研,1988年)のみ

Page 54: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 54

海外の統計学科

アメリカ 主要大学に統計学科,生物統計学科

Ivy League:8大学中6大学(Yale, Harvard, Brown, Penn., Columbia, Cornel)Univ. California (8/10) (UCB, UCD, UCI, UCLA, UCR, UCSF, UCSB, UCSC)有名校:Johns Hopkins, Duke, Puredue, Carnegie Mellon, Rice, Washington,

Texas A&M, Georgia Tech, Temple2004年PhD PureMath 562, Applied Math & OR 287, Math. Stat. 226, Stat 149

欧米イギリス:Cambridge, Oxford, Edinburgh, Glasgow, Warwick, West of Scotland

アジア中国: 161学科(2005年)8000人,職業学校300校 10000人

大学院 数理統計学(135+31), 医学統計学(79+22), 経済統計学(115+24)

韓国: 58学科(2005年)75学科(2011年)

UCSCはDepartment of Applied Math & Statistics日本学術会議報告「数理科学分野における統計科学教育・研究の今日的役割とその推進の必要性(2008)Stat = Biostat + Econometrics + Stat in Social Science

Page 55: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 55

統計思考院

統計思考院は、共同研究の現場にさまざまな人が集い切磋琢磨しながら「統計思考」の訓練や研究をする、いわば「道場」の気風を持つ場となることを目指す。

育成する人材像・T型・Π型人材・データを活用したモデラーや研究コーディネーター

統計思考力育成事業・共同研究スタートアップ・研究者交流促進プログラム・統計数理セミナー・公開講座、公開講演会・連携大学院、夏季大学院・特別共同利用研究員制度・統計教員研修・統計数理の成果公開普及活動

Page 56: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 56

データ中心科学リサーチコモンズの事業

データ中心科学研究基盤

• データ基盤• モデリング・解析基盤• 人材育成

新領域融合研究センター• 生命システム• 地球・環境システム• 人間・社会システム• システムズ・レジリエンス

研究者交流促進プログラム

国際ワークショップ開催 共

同利用

共同研究

Page 57: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 57

新領域融合研究センター

設置目的

極地研,遺伝研において得られる多種大量の地球科学・生命科学のデータ及び知見を統数研で開発されるモデリング・計算技術および情報研において開発される情報技術・情報基盤と結合させ,データとモデルに基づく真理の発見と予測の独創的な手法を生み出し,地球,生命,人間・社会システムの各研究分野において,新しいパラダイムを創造することを目指す。

統計数理研究所

国立情報学研究所

国立極地研究所

国立遺伝学研究所

新領域融合研究センター

新パラダイム創成への挑戦

生命、環境、社会、経済などを対象とした「データに基づく合理的

推論の仕組み」の研究推進

遺伝学の中核拠点として遺伝子、ゲノムデータ、生命システムの解明を目指した先端的研究

南極・北極での観測を基礎に、地球、環境、宇宙、生物など

先進的総合地球システム科学の巨大データ

わが国唯一の「情報学」の中核的研究機関として、

すべての学問分野の学術・研究活動を支える

学術情報基盤の構築

運営概念図

システムの科学情報の科学

Page 58: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 58

新領域融合研究センターのプロジェクト

• 地球環境システム

• 生命システム

• 人間・社会科学システム

• システムズ・レジリエンス

Page 59: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 59

地球生命システム学

地球環境変動と微生物の進化・多様性の相互作用を解明する。

環境変動下での生命の適応戦略のメカニズムを明らかにする。

地球生命システム学の構築

Estimation of global environmental change from ice-core data

Ice core obtained at Dome-Fuji (3000m depth, 0.72M years old)

Moss pillar ecosystem: A miniature of global biosphereMoss pillar ecosystem: A miniature of global biosphere

CO2N2

interaction between global environmental change and evolution/diversity of microorganisms in ice core

Discovery of new micro-organisms from the bottom of the ice sheet

Whole genome analysis of antarctic bacteria

PD: 本山秀明教授(極地研)

Page 60: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 60

(1)次世代シーケンサによるゲノム関連情報の大規模生産とその情報解析手法の開発(2)大量ゲノム関連データと多元的な生物表現型多様性データの統合による遺伝的相関構造

描出のための統計手法の開発と 適化(3)大量で多元的なデータの情報・統計手法を適用したゲノム機能と遺伝的ネットワーク抽出

遺伝機能システム学

人工的に作成したネオセントロメア位置および領域の構造上の特徴をゲノム科学と情報学の融合研究で明らかにした。

Neoセントロメアをもつ多数の染色体でChip-seqにより配列

を特定した。(Fukagawa group; in preparation)

野生イネ446系統と栽培イネ1083系統のゲノム情報を用いて、栽培化の道筋と栽培化遺伝子の選抜がもたらしたゲノム構造変化を明らかにした。

X Huang, N Kurata, X Wei, Z-X Wang et al, Nature490 (2012)

PD: 倉田のり教授(遺伝研)

Page 61: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 61

データ中心人間・社会科学の創成

ネットワーク型の人間・社会データ共同利用・共同研究基盤の構築を通じて、人間・社会を適切なデータに基づいて設計可能とする新たな融合的研究パラダイムとして、人やその集合体としての社会の相互情報コミュニケーションを理解・設計する新たな情報科学を創成します。

Security, anonymity,Leakage measures

Life-log data

Improve human relations, tourism prediction, evacuation guidance, safety confirmation, etc.

SNS, E-mailAcademic cloud(Super computer, storage)

Infrastructure to collect, analyze and utilize human and social data

• Official statistics• Life-log data• Mobile statistics data• Economic-financial data

PD: 曽根原登教授(情報研)

Page 62: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 62

研究目的:「想定外」の障害から柔軟に回復するレジリエントなシステムを設計•運用するための知識体系(Body of Knowledge, BOK)の構築

システムズ・レジリエンス

堅牢なシステムからレジリエントなシステムへ

人工物 生態系

PD: 丸山 宏教授(統数研)

研究内容:(1) 想定外の事象のリスクマネジメント(2) 生態系におけるレジリエンス機構(3) 社会システムにおける秩序形成(4) システムのレジリエンス性評価のための計算モデル

Page 63: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 63

まとめ

ビッグデータの出現により学術研究も社会も大きく変わりつつある。

第4の科学(データ中心科学)の確立が必要である

情報・システム研究機構は、今年度データ中心科学リサーチコモンズを設置

• データ中心科学研究基盤整備

データ基盤、モデリング・解析基盤、人材育成

• 新領域融合研究センター

生命システム、地球システム、人間・社会システム、レジリエンス

• 国際ワークショップ、研究者交流促進事業

Page 64: データ中心科学リサーチコモンズnobuo/BIGDATA/20130527-Kitagawa.pdf · • マーケティング(市場予測、顧客行動予測モデル) • オンラインショッピングにおける推奨機能

Institute of Statistical Mathematics大学共同利用機関法人

情報・システム研究機構 64

ビッグデータ時代を勝ち抜くために

日本の悪習

•「ものづくり」への過度の傾斜

• ハード偏重、ソフト軽視

• サービス = 無料

ITシステム自体に価値はない。データが資産

しかし、アカデミック・データは公開へ

データ解析が勝負

残念ながら、データサイエンティストが決定的に不足