Upload
tanafuyu
View
45
Download
0
Embed Size (px)
Citation preview
情報理工学系研究科 数理情報学専攻のホームページより抜粋
工学:
→ モノをつくるイメージ
情報学:
→ どういうイメージ?
数理情報学??
→ 前半ではここを説明
1. TVのショーで参加者に3つのドアから1つを選んでもらう.
正解のドアが1つだけあり, ドアの向こうには豪華賞品.
2. 参加者が1つ選んだあとで, 司会者は残り2つのうちハズレのドアを開けて見せる. (もし2つともハズレならランダムに1つ選ぶ)
ハズレ
3. 司会者は参加者にドアを選び直してもよいという
もともと選んだドアをそのまま選ぶか
それとも, 残っているもう一つのドアを選ぶか
豪華賞品が当たる確率が高いのはどっち?
答え
もうひとつのドアを選ぶ方がよい
豪華賞品を得る確率は
2/3(約66.7パーセント)
1. TVのショーで参加者に 3000のドアから1つを選んでもらう.
正解のドアが1つだけあり, ドアの向こうには豪華賞品.
2. 参加者が1つ選んだあとで, 司会者は残り 2999のうちハズレのドア(2998個)を開けて見せる.
・・・・
・・・・ ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
ハズレ
3. 司会者は参加者にドアを選び直してもよいという
もともと選んだドアをそのまま選ぶか
それとも, 残っているもう一つのドアを選ぶか
豪華賞品が当たる確率が高いのはどっち?
答え
もうひとつのドアを選ぶ方がよい
豪華賞品を得る確率は
2999/3000
(約99.97パーセント)
ドアをあけてもらった
→ 2998個のドアは「ハズレ」という情報が手に入った
→ アタリ(豪華賞品)が2つのドアのどちらにあるかは依然として不明だが付加的な情報を利用できる
数理情報学
このような情報を数値化してとり扱う方法論を探究する学問
次に直観がきかない問題を紹介
(以下は架空のものです)
問
がんの有無を95%の確率で判別できる診断法があります
検査を受ける人の中でがんである割合は年間 0.5%
Aさんの診断結果は陽性でした
→ Aさんががんの確率は?
1.95%でがんだから, 家族と今後について話し合う
2.所詮は半分半分
3.統計的にはがんの人は0.5%程度だろ?
予想される選択肢
Aさんががんである確率は
約9パーセント
(以下は架空のものです) 問
がんの有無を95%の確率で判別できる診断法が2つあります
それらは互いに独立な診断法です
検査を受ける人の中でがんである割合は年間 0.5%
Aさんの診断結果は両方とも陽性でした
→ Aさんががんの確率は?
1.95%でがんだから, 家族と今後について話し合う
2.先の結果よりちょっと高い10%程度
3.統計的にはがんの人は0.5%程度だろ?
予想される選択肢
Aさんががんである確率は
約64パーセント
がん診断の例
→ 数値データはあるが, 下手な直観は危険!
→ 数学(確率・統計)をうまく使うことが重要
数理情報学
数理情報学とはこのような方法論を探究する学問
診断方法の精度
自分たちに
必要な情報
(がんの確率)
ココ
今回は後半で統計モデルとベイズ予測の理論について紹介
がんの割合
実際の診断結果
がん診断の例
危険な食べ物
出典: 西内啓
「統計学が最強の学問である」, ダイヤモンド社, 2013年
・心筋梗塞で死亡した日本人の95%以上が生前ずっとこの食べ物を食べていた
・強盗や殺人などの凶悪犯の70%以上が犯行前24時間以内にこの食べ物を口にしている
→ この食べ物は禁止すべきでしょうか?
この食べ物は
ごはん
・心筋梗塞で死亡した日本人の95%以上が生前ずっとこの食べ物を食べていた
・強盗や殺人などの凶悪犯の70%以上が犯行前24時間以内にこの食べ物を口にしている
・通常の日本人でずっとこの食べ物を食べている割合は?
・通常の日本人が24時間以内にこの食べ物を口にしている割合は?
数値データに対して適切な問いかけをすることが大切
URL: http://www.toukei-kentei.jp/
統計モデル
将来に関する情報
(予測分布)
ココ
専門家の知識・経験則など
理論自体はすべて数式で記述(数学!)
事前の情報
実データ
ココ
専門家の知識・経験則など
ギリシャ文字と記号がごちゃごちゃしてて見づらい
d),,|()|(:)( 1 nxxypyp
d)()|,,(
)()|,,(),,|(
1
11
n
nn
xxp
xxpxx
104.2355
56.004
453012
x
|~ ii xpx
1)d(
0)d(
)d(~
1d| xxp
0| xp
})(:{: kypyEk
kEkk Pr:inf:)(*
dyypyY mm )(][E
nnb
n
a
nab xxxxp
xxpxxp
ng dd|,,
|,,|,,1: 11
11
統計モデル
将来に関する情報
(予測分布)
ココ
専門家の知識・経験則など
以下では, 数式は出さずに活用イメージを紹介
事前の情報
実データ
板中橋区ではここ2週間で3件の放火事件が発生している
想定シチュエーション
放火犯は単独であり, ランダムに3ヵ所で放火を起こしている
さいしょに
以下では放火事件を題材に, ベイズ予測の理論の活用方法を紹介
(「板中橋区」など, すべて架空の設定)
実データ
-4 -2 0 2 4 6
-4-2
02
46
Crime Location Data
X
Y
これまでの火災現場(3件)
板中橋区の火災現場は3件
2次元データで地図と合わせたのが以下の図
一方, 放火犯の傾向や犯罪心理などから次のような結果(次スライド)が知られている
現場の経験
犯人は自分の住居から
1~ 5kmはなれた所
のうち, 適当な場所で犯行に及んでいる
ここでは犯行場所の確率分布として
ドーナツモデル(統計モデル)を採用 x
y
Crim
e d
istribution
板中橋区警察署の経験則として, 放火犯には以下の傾向があることが知られている。
統計モデルの設定
もし, 10件くらい犯行があると
犯行場所が円状にちらばる
→ ドーナツモデルから犯人の住居(ダイヤ印)がある程度推定できる
1.10件も待ってられない! 放火犯を早く見つけたい
2.(1が難しくても)次にどこが狙われそうか知りたい
しかし, 実際には…
-4 -2 0 2 4
-4-2
02
4Crime Location Data
X
Y +
点推定の問題 → データが少ないと難しい
-4 -2 0 2 4 6
-4-2
02
46
Crime Location Data
X
Y
犯人の住居の推定
予測分布の問題 → ベイズ予測分布が有効
次に狙われそうな地域をある程度絞り込む
x
y
Baye
sian p
redictive
distrib
ution
ベイズ予測分布 (ドーナツが少しひしゃげた形)
-4 -2 0 2 4 6
-4-2
02
46
Crime Location Data
X
Y
・3件では犯人の住居を特定するには不十分;
・しかし、4件目の犯行の可能性が高い場所はベイズ予測分布から計算できる!
・右下図の赤が犯行可能性が高い地域
ベイズ予測分布の活用
-4 -2 0 2 4 6
-4-2
02
46
Highly Probable Area of Next Crime
X
Y
+
+ +
以上は, ベイズ予測の活用の一例
統計モデル
将来に関する情報
(予測分布)
ココ
専門家の知識・経験則など
事前の情報
実データ
後半のまとめ
ベイズ予測に限らず, 統計理論には技術的・専門的な課題も多い
→ 大学院生のみなさんの活躍にも期待!!