Upload
takuto-kimura
View
2.001
Download
1
Embed Size (px)
Citation preview
@americiumian 2012.9.24
PRML輪読会 2. 確率分布
発表概要
2
2.1 二値変数
2.2 多値変数
2.3 ガウス分布
2.4 指数型分布族
2.5 ノンパラメトリック法
この章の目的
3
密度推定 観測値の有限集合𝑥1, … , 𝑥𝑁が与えられた時,確率変数𝑥の確率分布𝑝(𝑥)をモデル化すること
このような確率分布は無限に存在しうる
パラメトリック法
分布の形を仮定し,観測値に合わせてパラメータを調整する 手法
ノンパラメトリック法
分布の形を仮定せず,観測値によって分布を決める手法
• ベルヌーイ分布
• 二項分布
• ベータ分布
2.1 二値変数 4
ベルヌーイ分布 – 記号の定義
5
二値確率変数 x ∈ {0,1}
ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0
パラメータ μ
𝑥 = 1となる確率
0 ≦ 𝜇 ≦ 1
𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0 𝜇 = 1 − 𝜇
計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時,
𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7 𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3
ベルヌーイ分布
6
ベルヌーイ分布 Bern x 𝜇) = 𝜇𝑥(1 − 𝜇)1−𝑥
確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率
特徴 𝐸[𝑥] = 𝜇
𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇)
計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, 𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71(1 − 0.7)0= 0.7 𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70(1 − 0.7)1= 0.3
(2.2)
(2.3)
(2.4)
複数回観測した時の尤度関数
7
設定
D = 𝑥1, … , 𝑥𝑁
𝑥𝑖は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定
尤度関数
𝑝 𝐷 𝜇) = 𝑝 𝑥𝑛 𝜇)𝑁𝑛=1 = 𝜇𝑥𝑛(1 − 𝜇)1−𝑥𝑛𝑁
𝑛=1
𝜇が与えられた時,どのくらい,観測したデータが生起 しやすいかを表す
(2.5)
パラメータ𝜇の値を最尤推定
8
対数尤度
この式は, 𝑥𝑛𝑁𝑛=1 のみに依存しているため,この式は,
この分布の下,このデータに対する十分統計量の例
ln 𝑝(𝐷 | 𝜇) = ln𝑝 𝑥𝑛 𝜇)
𝑁
𝑛=1
= { 𝑥𝑛 ln 𝜇 + 1 − 𝑥𝑛 ln 1 − 𝜇
𝑁
𝑛=1
}
= ln 𝜇 − ln 1 − 𝜇 𝑥𝑛
𝑁
𝑛=1
+𝑁 ln(1 − 𝜇)
(2.6)
パラメータ𝜇の値を最尤推定
9
最尤推定 ln 𝑝 𝐷 𝜇) を𝜇で偏微分して0とおいて解く
𝜇𝑀𝐿 =1
𝑁 𝑥𝑛𝑁𝑛=1
サンプル平均と呼ばれる
結果の違った見方 データ集合中で,𝑥 = 1になる回数を𝑚とすると,
𝜇𝑀𝐿 =𝑚
𝑁 データ集合中での表の観測値の割合が
表が出る確率となる
(2.7)
(2.8)
二項分布
10
記号の定義 𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値mの数
二項分布
𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑁𝑚 𝜇𝑚(1 − 𝜇)𝑁−𝑚
𝑁𝑚=
𝑁!
𝑁−𝑚 !𝑚!
確率𝜇で表が出るコインを𝑁回投げた時, 表が出る回数𝑚の確率分布
特徴 𝐸[𝑚] = 𝑁𝜇
𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇)
(2.9)
(2.10)
(2.11)
(2.12)
二項分布
11
ベータ分布
12
ベルヌーイ分布のパラメータ𝜇の最尤推定 3回表が出ると,以降ずっと表が出る?
過学習の問題
ベイズ主義的に扱う 事前分布𝑝(𝜇)を導入する必要性
事後分布が事前分布と同様の 形式となる事前分布を選びたい 共役性
𝜇と(1 − 𝜇) のべきに比例する事前分布を導入
𝜇𝑀𝐿 =1
𝑁 𝑥𝑛
𝑁
𝑛=1
𝑝 𝐷 𝜇) = 𝜇𝑥𝑛(1 − 𝜇)1−𝑥𝑛
𝑁
𝑛=1
ベータ分布
13
特徴
𝐸[𝜇] =𝑎
𝑎+𝑏
𝑣𝑎𝑟[𝜇] =𝑎𝑏
𝑎+𝑏 2(𝑎+𝑏+1)
𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと 呼ばれる
𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) =Γ(a + b)
Γ a Γ(b)𝜇𝑎−1(1 − 𝜇)𝑏−1 (2.13)
(2.15)
(2.16)
ベータ分布
14
事後分布を求める
15
事前分布
尤度関数
事後分布
𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時, 事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい
𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる
𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑁
𝑚 𝜇𝑚(1 − 𝜇)𝑙
𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) =Γ(a + b)
Γ a Γ(b)𝜇𝑎−1(1 − 𝜇)𝑏−1
𝑝 𝜇 𝑚, 𝑙, 𝑎, 𝑏) =Γ(m + a + b + l)
Γ m + a Γ(b + l)𝜇𝑚+𝑎−1(1 − 𝜇)𝑙+𝑏−1
(𝑙 = 𝑁 −𝑚)
(2.18)
逐次学習
16
事後分布の特徴
事後分布は,事前分布と形式が同じなので, 事後分布を新たな事前分布として扱える
逐次学習
データがひとつづつ与えられ,データが与えられる度にパラメータを更新していく学習法
𝑝(𝜇) 𝑝(𝜇|𝑥1) 𝑝(𝜇|𝑥1,2)
𝑥1 𝑥2
逐次学習の例
17
𝑎 = 2 𝑏 = 2 β分布
𝑎 = 3 𝑏 = 2 β分布
x=1を1つ 観測した時の 尤度関数 (N=m=1の 二項分布)
逐次学習の長所・短所
18
長所
実時間での学習に利用できる
毎観測値ごとに事後確率を算出するので,全てのデータが なくともよい
大規模データ集合に有用
観測値の処理が終わった後,そのデータはもう捨ててよい
短所
学習の早さと,正しい解への収束性のトレードオフ
𝑥の予測分布
19
これまでの議論 𝑝(𝜇 | 𝐷)の推定
観測データ集合𝐷から,パラメータ𝜇の確率分布を推定
ここからの議論 𝑝(𝑥 = 1 | 𝐷)の推定
観測データ集合𝐷から,𝑥 = 1となる確率を推定
𝑥の予測分布
20
𝑝(𝑥 = 1 | 𝐷) = 𝑝 𝑥 = 1 𝜇)𝑝 𝜇 𝐷) 𝑑𝜇1
0
= 𝜇𝑝 𝜇 𝐷) 𝑑𝜇1
0
= 𝑬 𝜇 𝐷]
= 𝑚 + 𝑎
𝑚 + 𝑎 + 𝑙 + 𝑏
観測値のうち,𝑥 = 1に相当するものの割合
𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する このような特性は,多くの例で見られる
有限のデータ集合では,
事前平均 ≦ 事後平均 ≦ 𝜇の最尤推定量 →演習2.7
(2.19)
(2.20)
事後分布の特性
21
事後分布(ベータ分布)の分散
𝑣𝑎𝑟 𝜇 =𝑎𝑏
𝑎+𝑏 2 𝑎+𝑏+1
𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく
多くのデータを学習すればするほど,一般的に 事後分布の不確実性は減少する?
平均・分散の不確実性
22
事前平均と事後平均
𝜽の事後平均を,データを生成する分布上で平均すると,𝜽の事前平均に等しい
事前分散と事後分散
平均的には 事前分散 > 事後分散 成り立たないデータセットもある
𝐸𝜽 𝜽 = 𝐸𝐷[𝐸𝜽 𝜽 | 𝐷 ]
𝑣𝑎𝑟𝜃 𝜃 = 𝐸𝐷[𝑣𝑎𝑟𝜃 𝜃 𝐷]] + 𝑣𝑎𝑟𝐷[𝐸𝐷 𝜃 𝐷]] 事前分散 の平均
事後分散の平均 事後平均の分散
(2.21)
(2.24)
• 多項分布
• ディリクレ分布
2.2 多値変数 23
例えば
24
サイコロを投げる 6通りの状態がありうる
1-of-K 符号化法 K個の状態を取りうる離散変数を扱う際に用いられる
要素の一つ𝑥𝑘のみが1で他が0
𝑥𝑘 = 1𝐾𝑘=1 を満たす
ex. サイコロの目を観測値𝑥として,3が出た時
𝑥 = (0,0,1,0,0,0)𝑇
歪んだサイコロ
25
記号の定義 𝜇𝑘 ∶ 𝑥𝑘 = 1となる確率
正確なサイコロの場合
𝝁 = (1
6,1
6,1
6,1
6,1
6,1
6)
シゴロ賽の場合
𝝁 = (0,0,0,1
3,1
3,1
3)
ピンゾロ賽の場合
𝝁 = (1,0,0,0,0,0)
多項分布
26
𝑥の分布
観測値が複数あった場合 𝑁個の独立な観測値𝑥1…𝑥𝑁
尤度関数
𝑝 𝑥 𝜇) = 𝜇𝑘𝑥𝑘
𝐾
𝑘=1
𝑝 𝐷 𝜇) = 𝜇𝑘𝑥𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
= 𝜇𝑘( 𝑥𝑛𝑘𝑛 )
𝐾
𝑘=1
= 𝜇𝑘𝑚𝑘
𝐾
𝑘=1
𝑚𝑘 = 𝑥𝑛𝑘𝑛
: この分布の十分統計量
ベルヌーイ分布を2種類以上の 出力に一般化したもの
(2.26)
(2.29)
𝝁の最尤推定
27
制約付き対数尤度最大化
ラグランジュの未定乗数法を用いる
𝑓 = 𝑚𝑘 ln 𝜇𝑘
𝐾
𝑘=1
+ 𝜆 𝜇𝑘 − 1
𝐾
𝑘=1
𝜕𝑓
𝜕𝜇𝑘=𝑚𝑘𝜇𝑘+ 𝜆
𝜕𝑓
𝜕𝜇𝑘= 0 より,
𝜇𝑘 = −𝑚𝑘𝜆
𝜇𝑘 = 1
𝑘
に代入して,
−𝑚𝑘𝜆= 1
𝑘
− 𝑚𝑘 = 𝜆
𝑘
𝜆 = −𝑁
𝜇𝑘𝑀𝐿 =𝑚𝑘𝑁
多項分布
28
パラメータ𝜇と観測値の総数𝑁が与えられた条件の下,𝑚1…𝑚𝐾の同時確率
𝑀𝑢𝑙𝑡 𝑚1, …𝑚𝐾 𝝁, 𝑁) =𝑁
𝑚1𝑚2…𝑚𝐾 𝜇𝑘
𝑚𝑘
𝐾
𝑘=1
ただし,𝑁
𝑚1𝑚2…𝑚𝐾=
𝑁!
𝑚1!𝑚2! …𝑚𝐾!
𝑚𝑘
𝐾
𝑘=1
= 𝑁
(2.34)
ディリクレ分布
29
多項分布の𝜇𝑘についての事前分布
共役分布の形は以下の通り
ディリクレ分布
𝑝 𝝁 𝜶) ∝ 𝜇𝑘𝛼𝑘−1
𝐾
𝑘=1
ただし,0 ≦ 𝜇𝑘 ≦ 1, 𝜇𝑘𝑘 = 1 ハイパーパラメータ 𝜶 = (𝛼1, … , 𝛼𝐾)
𝑇
𝐷𝑖𝑟 𝝁 𝜶) =Γ(𝛼0)
Γ 𝛼1 …Γ(𝛼𝐾) 𝜇𝑘
𝛼𝑘−1
𝐾
𝑘=1
ただし,𝛼0= 𝛼𝑘𝑘
(2.37)
(2.38)
共役性の確認
30
事前分布
尤度関数
事後分布
𝑝 𝝁 𝜶) =Γ(𝛼0)
Γ 𝛼1 …Γ(𝛼𝐾) 𝜇𝑘
𝛼𝑘−1
𝐾
𝑘=1
𝑝 𝐷 𝝁) =𝑁
𝑚1𝑚2…𝑚𝐾 𝜇𝑘
𝑚𝑘
𝐾
𝑘=1
𝑝 𝝁 𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁 𝜶 +𝒎)
=Γ(𝛼0 + 𝑁)
Γ 𝛼1 +𝑚1 …Γ(𝛼𝐾 +𝑚𝐾) 𝜇𝑘
𝛼𝑘+𝑚𝑘−1
𝐾
𝑘=1
(2.38)
(2.34)
(2.41)
参考サイト
31
朱鷺の杜Wiki
http://ibisforest.org/index.php?FrontPage
Bishopさんのサイト
http://research.microsoft.com/en-us/um/people/cmbishop/PRML/
prml_note@wiki
http://www43.atwiki.jp/prml_note/pages/1.html
十分統計量について
http://www012.upp.so-net.ne.jp/doi/math/anova/sufficientstatistic.pdf