PRML2.1 2.2

@americiumian 2012.9.24

PRML輪読会 2. 確率分布

発表概要

2

2.1 二値変数

2.2 多値変数

2.3 ガウス分布

2.4 指数型分布族

2.5 ノンパラメトリック法

この章の目的

3

密度推定観測値の有限集合𝑥1, … , 𝑥𝑁が与えられた時，確率変数𝑥の確率分布𝑝(𝑥)をモデル化すること

このような確率分布は無限に存在しうる

パラメトリック法

分布の形を仮定し，観測値に合わせてパラメータを調整する手法

ノンパラメトリック法

分布の形を仮定せず，観測値によって分布を決める手法

• ベルヌーイ分布

• 二項分布

• ベータ分布

2.1 二値変数 4

ベルヌーイ分布 – 記号の定義

5

二値確率変数 x ∈ {0,1}

ex. コインを投げて，表なら 𝑥 = 1 裏なら 𝑥 = 0

パラメータ μ

𝑥 = 1となる確率

0 ≦ 𝜇 ≦ 1

𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0 𝜇 = 1 − 𝜇

計算例：𝜇 = 0.7の時歪んだコインがある．このコインが表となる確率は0.7, 裏となる確率は0.3である．この時，

𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7 𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3

ベルヌーイ分布

6

ベルヌーイ分布 Bern x 𝜇) = 𝜇𝑥(1 − 𝜇)1−𝑥

確率𝜇で表が出るコインを一回投げ，表(裏)が出る確率

特徴 𝐸[𝑥] = 𝜇

𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇)

計算例：𝜇 = 0.7の時歪んだコインがある．このコインが表となる確率は0.7, 裏となる確率は0.3である．この時， 𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71(1 − 0.7)0= 0.7 𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70(1 − 0.7)1= 0.3

(2.2)

(2.3)

(2.4)

複数回観測した時の尤度関数

7

設定

D = 𝑥1, … , 𝑥𝑁

𝑥𝑖は，𝑝(𝑥 | 𝜇)から独立に得られたと仮定

尤度関数

𝑝 𝐷 𝜇) = 𝑝 𝑥𝑛 𝜇)𝑁𝑛=1 = 𝜇𝑥𝑛(1 − 𝜇)1−𝑥𝑛𝑁

𝑛=1

𝜇が与えられた時，どのくらい，観測したデータが生起しやすいかを表す

(2.5)

パラメータ𝜇の値を最尤推定

8

対数尤度

この式は， 𝑥𝑛𝑁𝑛=1 のみに依存しているため，この式は，

この分布の下，このデータに対する十分統計量の例

ln 𝑝(𝐷 | 𝜇) = ln𝑝 𝑥𝑛 𝜇)

𝑁

𝑛=1

= { 𝑥𝑛 ln 𝜇 + 1 − 𝑥𝑛 ln 1 − 𝜇

𝑁

𝑛=1

}

= ln 𝜇 − ln 1 − 𝜇 𝑥𝑛

𝑁

𝑛=1

+𝑁 ln(1 − 𝜇)

(2.6)

パラメータ𝜇の値を最尤推定

9

最尤推定 ln 𝑝 𝐷 𝜇) を𝜇で偏微分して0とおいて解く

𝜇𝑀𝐿 =1

𝑁 𝑥𝑛𝑁𝑛=1

サンプル平均と呼ばれる

結果の違った見方データ集合中で，𝑥 = 1になる回数を𝑚とすると，

𝜇𝑀𝐿 =𝑚

𝑁 データ集合中での表の観測値の割合が

表が出る確率となる

(2.7)

(2.8)

二項分布

10

記号の定義 𝑚 : 大きさ𝑁のデータ集合のうち，𝑥 = 1となる観測値mの数

二項分布

𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑁𝑚 𝜇𝑚(1 − 𝜇)𝑁−𝑚

𝑁𝑚=

𝑁!

𝑁−𝑚 !𝑚!

確率𝜇で表が出るコインを𝑁回投げた時，表が出る回数𝑚の確率分布

特徴 𝐸[𝑚] = 𝑁𝜇

𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇)

(2.9)

(2.10)

(2.11)

(2.12)

二項分布

11

ベータ分布

12

ベルヌーイ分布のパラメータ𝜇の最尤推定 3回表が出ると，以降ずっと表が出る？

過学習の問題

ベイズ主義的に扱う事前分布𝑝(𝜇)を導入する必要性

事後分布が事前分布と同様の形式となる事前分布を選びたい共役性

𝜇と(1 − 𝜇) のべきに比例する事前分布を導入

𝜇𝑀𝐿 =1

𝑁 𝑥𝑛

𝑁

𝑛=1

𝑝 𝐷 𝜇) = 𝜇𝑥𝑛(1 − 𝜇)1−𝑥𝑛

𝑁

𝑛=1

ベータ分布

13

特徴

𝐸[𝜇] =𝑎

𝑎+𝑏

𝑣𝑎𝑟[𝜇] =𝑎𝑏

𝑎+𝑏 2(𝑎+𝑏+1)

𝑎, 𝑏は，𝜇の分布を決めるので，ハイパーパラメータと呼ばれる

𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) =Γ(a + b)

Γ a Γ(b)𝜇𝑎−1(1 − 𝜇)𝑏−1 (2.13)

(2.15)

(2.16)

ベータ分布

14

事後分布を求める

15

事前分布

尤度関数

事後分布

𝑥 = 1の観測値が𝑚個，𝑥 = 0の観測値が𝑙個あった時，事後分布を求めるには，𝑎を𝑚, 𝑏を𝑙だけ増やせばよい

𝑎, 𝑏はそれぞれ，𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる

𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑁

𝑚 𝜇𝑚(1 − 𝜇)𝑙

𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) =Γ(a + b)

Γ a Γ(b)𝜇𝑎−1(1 − 𝜇)𝑏−1

𝑝 𝜇 𝑚, 𝑙, 𝑎, 𝑏) =Γ(m + a + b + l)

Γ m + a Γ(b + l)𝜇𝑚+𝑎−1(1 − 𝜇)𝑙+𝑏−1

(𝑙 = 𝑁 −𝑚)

(2.18)

逐次学習

16

事後分布の特徴

事後分布は，事前分布と形式が同じなので，事後分布を新たな事前分布として扱える

逐次学習

データがひとつづつ与えられ，データが与えられる度にパラメータを更新していく学習法

𝑝(𝜇) 𝑝(𝜇|𝑥1) 𝑝(𝜇|𝑥1,2)

𝑥1 𝑥2

逐次学習の例

17

𝑎 = 2 𝑏 = 2 β分布

𝑎 = 3 𝑏 = 2 β分布

x=1を1つ観測した時の尤度関数 (N=m=1の二項分布)

逐次学習の長所・短所

18

長所

実時間での学習に利用できる

毎観測値ごとに事後確率を算出するので，全てのデータがなくともよい

大規模データ集合に有用

観測値の処理が終わった後，そのデータはもう捨ててよい

短所

学習の早さと，正しい解への収束性のトレードオフ

𝑥の予測分布

19

これまでの議論 𝑝(𝜇 | 𝐷)の推定

観測データ集合𝐷から，パラメータ𝜇の確率分布を推定

ここからの議論 𝑝(𝑥 = 1 | 𝐷)の推定

観測データ集合𝐷から，𝑥 = 1となる確率を推定

𝑥の予測分布

20

𝑝(𝑥 = 1 | 𝐷) = 𝑝 𝑥 = 1 𝜇)𝑝 𝜇 𝐷) 𝑑𝜇1

0

= 𝜇𝑝 𝜇 𝐷) 𝑑𝜇1

0

= 𝑬 𝜇 𝐷]

= 𝑚 + 𝑎

𝑚 + 𝑎 + 𝑙 + 𝑏

観測値のうち，𝑥 = 1に相当するものの割合

𝑚, 𝑙がとても大きい時，最尤推定の結果と一致するこのような特性は，多くの例で見られる

有限のデータ集合では，

事前平均 ≦ 事後平均 ≦ 𝜇の最尤推定量 →演習2.7

(2.19)

(2.20)

事後分布の特性

21

事後分布(ベータ分布)の分散

𝑣𝑎𝑟 𝜇 =𝑎𝑏

𝑎+𝑏 2 𝑎+𝑏+1

𝑎 → ∞や𝑏 → ∞の時，分散は0に近づく

多くのデータを学習すればするほど，一般的に事後分布の不確実性は減少する？

平均・分散の不確実性

22

事前平均と事後平均

𝜽の事後平均を，データを生成する分布上で平均すると，𝜽の事前平均に等しい

事前分散と事後分散

平均的には事前分散 > 事後分散成り立たないデータセットもある

𝐸𝜽 𝜽 = 𝐸𝐷[𝐸𝜽 𝜽 | 𝐷 ]

𝑣𝑎𝑟𝜃 𝜃 = 𝐸𝐷[𝑣𝑎𝑟𝜃 𝜃 𝐷]] + 𝑣𝑎𝑟𝐷[𝐸𝐷 𝜃 𝐷]] 事前分散の平均

事後分散の平均事後平均の分散

(2.21)

(2.24)

• 多項分布

• ディリクレ分布

2.2 多値変数 23

例えば

24

サイコロを投げる 6通りの状態がありうる

1-of-K 符号化法 K個の状態を取りうる離散変数を扱う際に用いられる

要素の一つ𝑥𝑘のみが1で他が0

𝑥𝑘 = 1𝐾𝑘=1 を満たす

ex. サイコロの目を観測値𝑥として，3が出た時

𝑥 = (0,0,1,0,0,0)𝑇

歪んだサイコロ

25

記号の定義 𝜇𝑘 ∶ 𝑥𝑘 = 1となる確率

正確なサイコロの場合

𝝁 = (1

6,1

6,1

6,1

6,1

6,1

6)

シゴロ賽の場合

𝝁 = (0,0,0,1

3,1

3,1

3)

ピンゾロ賽の場合

𝝁 = (1,0,0,0,0,0)

多項分布

26

𝑥の分布

観測値が複数あった場合 𝑁個の独立な観測値𝑥1…𝑥𝑁

尤度関数

𝑝 𝑥 𝜇) = 𝜇𝑘𝑥𝑘

𝐾

𝑘=1

𝑝 𝐷 𝜇) = 𝜇𝑘𝑥𝑛𝑘

𝐾

𝑘=1

𝑁

𝑛=1

= 𝜇𝑘( 𝑥𝑛𝑘𝑛 )

𝐾

𝑘=1

= 𝜇𝑘𝑚𝑘

𝐾

𝑘=1

𝑚𝑘 = 𝑥𝑛𝑘𝑛

　：　この分布の十分統計量

ベルヌーイ分布を2種類以上の出力に一般化したもの

(2.26)

(2.29)

𝝁の最尤推定

27

制約付き対数尤度最大化

ラグランジュの未定乗数法を用いる

𝑓 = 𝑚𝑘 ln 𝜇𝑘

𝐾

𝑘=1

+ 𝜆 𝜇𝑘 − 1

𝐾

𝑘=1

𝜕𝑓

𝜕𝜇𝑘=𝑚𝑘𝜇𝑘+ 𝜆

𝜕𝑓

𝜕𝜇𝑘= 0 より，

𝜇𝑘 = −𝑚𝑘𝜆

𝜇𝑘 = 1

𝑘

に代入して，

−𝑚𝑘𝜆= 1

𝑘

− 𝑚𝑘 = 𝜆

𝑘

𝜆 = −𝑁

𝜇𝑘𝑀𝐿 =𝑚𝑘𝑁

多項分布

28

パラメータ𝜇と観測値の総数𝑁が与えられた条件の下，𝑚1…𝑚𝐾の同時確率

𝑀𝑢𝑙𝑡 𝑚1, …𝑚𝐾 𝝁, 𝑁) =𝑁

𝑚1𝑚2…𝑚𝐾 𝜇𝑘

𝑚𝑘

𝐾

𝑘=1

ただし，𝑁

𝑚1𝑚2…𝑚𝐾=

𝑁!

𝑚1!𝑚2! …𝑚𝐾!

𝑚𝑘

𝐾

𝑘=1

= 𝑁

(2.34)

ディリクレ分布

29

多項分布の𝜇𝑘についての事前分布

共役分布の形は以下の通り

ディリクレ分布

𝑝 𝝁 𝜶) ∝ 𝜇𝑘𝛼𝑘−1

𝐾

𝑘=1

ただし，0 ≦ 𝜇𝑘 ≦ 1, 𝜇𝑘𝑘 = 1 ハイパーパラメータ 𝜶 = (𝛼1, … , 𝛼𝐾)

𝑇

𝐷𝑖𝑟 𝝁 𝜶) =Γ(𝛼0)

Γ 𝛼1 …Γ(𝛼𝐾) 𝜇𝑘

𝛼𝑘−1

𝐾

𝑘=1

ただし，𝛼0= 𝛼𝑘𝑘

(2.37)

(2.38)

共役性の確認

30

事前分布

尤度関数

事後分布

𝑝 𝝁 𝜶) =Γ(𝛼0)

Γ 𝛼1 …Γ(𝛼𝐾) 𝜇𝑘

𝛼𝑘−1

𝐾

𝑘=1

𝑝 𝐷 𝝁) =𝑁

𝑚1𝑚2…𝑚𝐾 𝜇𝑘

𝑚𝑘

𝐾

𝑘=1

𝑝 𝝁 𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁 𝜶 +𝒎)

=Γ(𝛼0 + 𝑁)

Γ 𝛼1 +𝑚1 …Γ(𝛼𝐾 +𝑚𝐾) 𝜇𝑘

𝛼𝑘+𝑚𝑘−1

𝐾

𝑘=1

(2.38)

(2.34)

(2.41)

参考サイト

31

朱鷺の杜Wiki

http://ibisforest.org/index.php?FrontPage

Bishopさんのサイト

http://research.microsoft.com/en-us/um/people/cmbishop/PRML/

prml_note@wiki

http://www43.atwiki.jp/prml_note/pages/1.html

十分統計量について

http://www012.upp.so-net.ne.jp/doi/math/anova/sufficientstatistic.pdf












Technology

PRML2.1 2.2