41

Open campus-130730 normal

Embed Size (px)

Citation preview

Page 1: Open campus-130730 normal
Page 2: Open campus-130730 normal
Page 3: Open campus-130730 normal
Page 4: Open campus-130730 normal
Page 5: Open campus-130730 normal

情報理工学系研究科 数理情報学専攻のホームページより抜粋

工学:

→ モノをつくるイメージ

情報学:

→ どういうイメージ?

数理情報学??

→ 前半ではここを説明

Page 6: Open campus-130730 normal
Page 7: Open campus-130730 normal

1. TVのショーで参加者に3つのドアから1つを選んでもらう.

正解のドアが1つだけあり, ドアの向こうには豪華賞品.

2. 参加者が1つ選んだあとで, 司会者は残り2つのうちハズレのドアを開けて見せる. (もし2つともハズレならランダムに1つ選ぶ)

Page 8: Open campus-130730 normal

ハズレ

3. 司会者は参加者にドアを選び直してもよいという

もともと選んだドアをそのまま選ぶか

それとも, 残っているもう一つのドアを選ぶか

豪華賞品が当たる確率が高いのはどっち?

Page 9: Open campus-130730 normal

答え

もうひとつのドアを選ぶ方がよい

豪華賞品を得る確率は

2/3(約66.7パーセント)

Page 10: Open campus-130730 normal

1. TVのショーで参加者に 3000のドアから1つを選んでもらう.

正解のドアが1つだけあり, ドアの向こうには豪華賞品.

2. 参加者が1つ選んだあとで, 司会者は残り 2999のうちハズレのドア(2998個)を開けて見せる.

・・・・

Page 11: Open campus-130730 normal

・・・・ ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

ハズレ

3. 司会者は参加者にドアを選び直してもよいという

もともと選んだドアをそのまま選ぶか

それとも, 残っているもう一つのドアを選ぶか

豪華賞品が当たる確率が高いのはどっち?

Page 12: Open campus-130730 normal

答え

もうひとつのドアを選ぶ方がよい

豪華賞品を得る確率は

2999/3000

(約99.97パーセント)

Page 13: Open campus-130730 normal

ドアをあけてもらった

→ 2998個のドアは「ハズレ」という情報が手に入った

→ アタリ(豪華賞品)が2つのドアのどちらにあるかは依然として不明だが付加的な情報を利用できる

数理情報学

このような情報を数値化してとり扱う方法論を探究する学問

次に直観がきかない問題を紹介

Page 14: Open campus-130730 normal
Page 15: Open campus-130730 normal

(以下は架空のものです)

がんの有無を95%の確率で判別できる診断法があります

検査を受ける人の中でがんである割合は年間 0.5%

Aさんの診断結果は陽性でした

→ Aさんががんの確率は?

Page 16: Open campus-130730 normal

1.95%でがんだから, 家族と今後について話し合う

2.所詮は半分半分

3.統計的にはがんの人は0.5%程度だろ?

予想される選択肢

Page 17: Open campus-130730 normal

Aさんががんである確率は

約9パーセント

Page 18: Open campus-130730 normal

(以下は架空のものです) 問

がんの有無を95%の確率で判別できる診断法が2つあります

それらは互いに独立な診断法です

検査を受ける人の中でがんである割合は年間 0.5%

Aさんの診断結果は両方とも陽性でした

→ Aさんががんの確率は?

Page 19: Open campus-130730 normal

1.95%でがんだから, 家族と今後について話し合う

2.先の結果よりちょっと高い10%程度

3.統計的にはがんの人は0.5%程度だろ?

予想される選択肢

Page 20: Open campus-130730 normal

Aさんががんである確率は

約64パーセント

Page 21: Open campus-130730 normal

がん診断の例

→ 数値データはあるが, 下手な直観は危険!

→ 数学(確率・統計)をうまく使うことが重要

数理情報学

数理情報学とはこのような方法論を探究する学問

Page 22: Open campus-130730 normal

診断方法の精度

自分たちに

必要な情報

(がんの確率)

ココ

今回は後半で統計モデルとベイズ予測の理論について紹介

がんの割合

実際の診断結果

がん診断の例

Page 23: Open campus-130730 normal
Page 24: Open campus-130730 normal

危険な食べ物

出典: 西内啓

「統計学が最強の学問である」, ダイヤモンド社, 2013年

・心筋梗塞で死亡した日本人の95%以上が生前ずっとこの食べ物を食べていた

・強盗や殺人などの凶悪犯の70%以上が犯行前24時間以内にこの食べ物を口にしている

→ この食べ物は禁止すべきでしょうか?

Page 25: Open campus-130730 normal

この食べ物は

ごはん

Page 26: Open campus-130730 normal

・心筋梗塞で死亡した日本人の95%以上が生前ずっとこの食べ物を食べていた

・強盗や殺人などの凶悪犯の70%以上が犯行前24時間以内にこの食べ物を口にしている

・通常の日本人でずっとこの食べ物を食べている割合は?

・通常の日本人が24時間以内にこの食べ物を口にしている割合は?

数値データに対して適切な問いかけをすることが大切

Page 27: Open campus-130730 normal

URL: http://www.toukei-kentei.jp/

Page 28: Open campus-130730 normal
Page 29: Open campus-130730 normal

統計モデル

将来に関する情報

(予測分布)

ココ

専門家の知識・経験則など

理論自体はすべて数式で記述(数学!)

事前の情報

実データ

Page 30: Open campus-130730 normal

ココ

専門家の知識・経験則など

ギリシャ文字と記号がごちゃごちゃしてて見づらい

d),,|()|(:)( 1 nxxypyp

d)()|,,(

)()|,,(),,|(

1

11

n

nn

xxp

xxpxx

104.2355

56.004

453012

x

|~ ii xpx

1)d(

0)d(

)d(~

1d| xxp

0| xp

})(:{: kypyEk

kEkk Pr:inf:)(*

dyypyY mm )(][E

nnb

n

a

nab xxxxp

xxpxxp

ng dd|,,

|,,|,,1: 11

11

Page 31: Open campus-130730 normal

統計モデル

将来に関する情報

(予測分布)

ココ

専門家の知識・経験則など

以下では, 数式は出さずに活用イメージを紹介

事前の情報

実データ

Page 32: Open campus-130730 normal
Page 33: Open campus-130730 normal

板中橋区ではここ2週間で3件の放火事件が発生している

想定シチュエーション

放火犯は単独であり, ランダムに3ヵ所で放火を起こしている

さいしょに

以下では放火事件を題材に, ベイズ予測の理論の活用方法を紹介

(「板中橋区」など, すべて架空の設定)

Page 34: Open campus-130730 normal

実データ

-4 -2 0 2 4 6

-4-2

02

46

Crime Location Data

X

Y

これまでの火災現場(3件)

板中橋区の火災現場は3件

2次元データで地図と合わせたのが以下の図

一方, 放火犯の傾向や犯罪心理などから次のような結果(次スライド)が知られている

Page 35: Open campus-130730 normal

現場の経験

犯人は自分の住居から

1~ 5kmはなれた所

のうち, 適当な場所で犯行に及んでいる

ここでは犯行場所の確率分布として

ドーナツモデル(統計モデル)を採用 x

y

Crim

e d

istribution

板中橋区警察署の経験則として, 放火犯には以下の傾向があることが知られている。

統計モデルの設定

Page 36: Open campus-130730 normal

もし, 10件くらい犯行があると

犯行場所が円状にちらばる

→ ドーナツモデルから犯人の住居(ダイヤ印)がある程度推定できる

1.10件も待ってられない! 放火犯を早く見つけたい

2.(1が難しくても)次にどこが狙われそうか知りたい

しかし, 実際には…

-4 -2 0 2 4

-4-2

02

4Crime Location Data

X

Y +

Page 37: Open campus-130730 normal

点推定の問題 → データが少ないと難しい

-4 -2 0 2 4 6

-4-2

02

46

Crime Location Data

X

Y

犯人の住居の推定

予測分布の問題 → ベイズ予測分布が有効

次に狙われそうな地域をある程度絞り込む

x

y

Baye

sian p

redictive

distrib

ution

ベイズ予測分布 (ドーナツが少しひしゃげた形)

Page 38: Open campus-130730 normal

-4 -2 0 2 4 6

-4-2

02

46

Crime Location Data

X

Y

・3件では犯人の住居を特定するには不十分;

・しかし、4件目の犯行の可能性が高い場所はベイズ予測分布から計算できる!

・右下図の赤が犯行可能性が高い地域

ベイズ予測分布の活用

-4 -2 0 2 4 6

-4-2

02

46

Highly Probable Area of Next Crime

X

Y

+

+ +

以上は, ベイズ予測の活用の一例

Page 39: Open campus-130730 normal

統計モデル

将来に関する情報

(予測分布)

ココ

専門家の知識・経験則など

事前の情報

実データ

後半のまとめ

ベイズ予測に限らず, 統計理論には技術的・専門的な課題も多い

→ 大学院生のみなさんの活躍にも期待!!

Page 40: Open campus-130730 normal
Page 41: Open campus-130730 normal