31
@americiumian 2012.9.24 PRML輪読会 2. 確率分布

PRML2.1 2.2

Embed Size (px)

Citation preview

Page 1: PRML2.1 2.2

@americiumian 2012.9.24

PRML輪読会 2. 確率分布

Page 2: PRML2.1 2.2

発表概要

2

2.1 二値変数

2.2 多値変数

2.3 ガウス分布

2.4 指数型分布族

2.5 ノンパラメトリック法

Page 3: PRML2.1 2.2

この章の目的

3

密度推定 観測値の有限集合𝑥1, … , 𝑥𝑁が与えられた時,確率変数𝑥の確率分布𝑝(𝑥)をモデル化すること

このような確率分布は無限に存在しうる

パラメトリック法

分布の形を仮定し,観測値に合わせてパラメータを調整する 手法

ノンパラメトリック法

分布の形を仮定せず,観測値によって分布を決める手法

Page 4: PRML2.1 2.2

• ベルヌーイ分布

• 二項分布

• ベータ分布

2.1 二値変数 4

Page 5: PRML2.1 2.2

ベルヌーイ分布 – 記号の定義

5

二値確率変数 x ∈ {0,1}

ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0

パラメータ μ

𝑥 = 1となる確率

0 ≦ 𝜇 ≦ 1

𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0 𝜇 = 1 − 𝜇

計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時,

𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7 𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3

Page 6: PRML2.1 2.2

ベルヌーイ分布

6

ベルヌーイ分布 Bern x 𝜇) = 𝜇𝑥(1 − 𝜇)1−𝑥

確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率

特徴 𝐸[𝑥] = 𝜇

𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇)

計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, 𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71(1 − 0.7)0= 0.7 𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70(1 − 0.7)1= 0.3

(2.2)

(2.3)

(2.4)

Page 7: PRML2.1 2.2

複数回観測した時の尤度関数

7

設定

D = 𝑥1, … , 𝑥𝑁

𝑥𝑖は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定

尤度関数

𝑝 𝐷 𝜇) = 𝑝 𝑥𝑛 𝜇)𝑁𝑛=1 = 𝜇𝑥𝑛(1 − 𝜇)1−𝑥𝑛𝑁

𝑛=1

𝜇が与えられた時,どのくらい,観測したデータが生起 しやすいかを表す

(2.5)

Page 8: PRML2.1 2.2

パラメータ𝜇の値を最尤推定

8

対数尤度

この式は, 𝑥𝑛𝑁𝑛=1 のみに依存しているため,この式は,

この分布の下,このデータに対する十分統計量の例

ln 𝑝(𝐷 | 𝜇) = ln𝑝 𝑥𝑛 𝜇)

𝑁

𝑛=1

= { 𝑥𝑛 ln 𝜇 + 1 − 𝑥𝑛 ln 1 − 𝜇

𝑁

𝑛=1

}

= ln 𝜇 − ln 1 − 𝜇 𝑥𝑛

𝑁

𝑛=1

+𝑁 ln(1 − 𝜇)

(2.6)

Page 9: PRML2.1 2.2

パラメータ𝜇の値を最尤推定

9

最尤推定 ln 𝑝 𝐷 𝜇) を𝜇で偏微分して0とおいて解く

𝜇𝑀𝐿 =1

𝑁 𝑥𝑛𝑁𝑛=1

サンプル平均と呼ばれる

結果の違った見方 データ集合中で,𝑥 = 1になる回数を𝑚とすると,

𝜇𝑀𝐿 =𝑚

𝑁 データ集合中での表の観測値の割合が

表が出る確率となる

(2.7)

(2.8)

Page 10: PRML2.1 2.2

二項分布

10

記号の定義 𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値mの数

二項分布

𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑁𝑚 𝜇𝑚(1 − 𝜇)𝑁−𝑚

𝑁𝑚=

𝑁!

𝑁−𝑚 !𝑚!

確率𝜇で表が出るコインを𝑁回投げた時, 表が出る回数𝑚の確率分布

特徴 𝐸[𝑚] = 𝑁𝜇

𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇)

(2.9)

(2.10)

(2.11)

(2.12)

Page 11: PRML2.1 2.2

二項分布

11

Page 12: PRML2.1 2.2

ベータ分布

12

ベルヌーイ分布のパラメータ𝜇の最尤推定 3回表が出ると,以降ずっと表が出る?

過学習の問題

ベイズ主義的に扱う 事前分布𝑝(𝜇)を導入する必要性

事後分布が事前分布と同様の 形式となる事前分布を選びたい 共役性

𝜇と(1 − 𝜇) のべきに比例する事前分布を導入

𝜇𝑀𝐿 =1

𝑁 𝑥𝑛

𝑁

𝑛=1

𝑝 𝐷 𝜇) = 𝜇𝑥𝑛(1 − 𝜇)1−𝑥𝑛

𝑁

𝑛=1

Page 13: PRML2.1 2.2

ベータ分布

13

特徴

𝐸[𝜇] =𝑎

𝑎+𝑏

𝑣𝑎𝑟[𝜇] =𝑎𝑏

𝑎+𝑏 2(𝑎+𝑏+1)

𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと 呼ばれる

𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) =Γ(a + b)

Γ a Γ(b)𝜇𝑎−1(1 − 𝜇)𝑏−1 (2.13)

(2.15)

(2.16)

Page 14: PRML2.1 2.2

ベータ分布

14

Page 15: PRML2.1 2.2

事後分布を求める

15

事前分布

尤度関数

事後分布

𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時, 事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい

𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる

𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑁

𝑚 𝜇𝑚(1 − 𝜇)𝑙

𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) =Γ(a + b)

Γ a Γ(b)𝜇𝑎−1(1 − 𝜇)𝑏−1

𝑝 𝜇 𝑚, 𝑙, 𝑎, 𝑏) =Γ(m + a + b + l)

Γ m + a Γ(b + l)𝜇𝑚+𝑎−1(1 − 𝜇)𝑙+𝑏−1

(𝑙 = 𝑁 −𝑚)

(2.18)

Page 16: PRML2.1 2.2

逐次学習

16

事後分布の特徴

事後分布は,事前分布と形式が同じなので, 事後分布を新たな事前分布として扱える

逐次学習

データがひとつづつ与えられ,データが与えられる度にパラメータを更新していく学習法

𝑝(𝜇) 𝑝(𝜇|𝑥1) 𝑝(𝜇|𝑥1,2)

𝑥1 𝑥2

Page 17: PRML2.1 2.2

逐次学習の例

17

𝑎 = 2 𝑏 = 2 β分布

𝑎 = 3 𝑏 = 2 β分布

x=1を1つ 観測した時の 尤度関数 (N=m=1の 二項分布)

Page 18: PRML2.1 2.2

逐次学習の長所・短所

18

長所

実時間での学習に利用できる

毎観測値ごとに事後確率を算出するので,全てのデータが なくともよい

大規模データ集合に有用

観測値の処理が終わった後,そのデータはもう捨ててよい

短所

学習の早さと,正しい解への収束性のトレードオフ

Page 19: PRML2.1 2.2

𝑥の予測分布

19

これまでの議論 𝑝(𝜇 | 𝐷)の推定

観測データ集合𝐷から,パラメータ𝜇の確率分布を推定

ここからの議論 𝑝(𝑥 = 1 | 𝐷)の推定

観測データ集合𝐷から,𝑥 = 1となる確率を推定

Page 20: PRML2.1 2.2

𝑥の予測分布

20

𝑝(𝑥 = 1 | 𝐷) = 𝑝 𝑥 = 1 𝜇)𝑝 𝜇 𝐷) 𝑑𝜇1

0

= 𝜇𝑝 𝜇 𝐷) 𝑑𝜇1

0

= 𝑬 𝜇 𝐷]

= 𝑚 + 𝑎

𝑚 + 𝑎 + 𝑙 + 𝑏

観測値のうち,𝑥 = 1に相当するものの割合

𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する このような特性は,多くの例で見られる

有限のデータ集合では,

事前平均 ≦ 事後平均 ≦ 𝜇の最尤推定量 →演習2.7

(2.19)

(2.20)

Page 21: PRML2.1 2.2

事後分布の特性

21

事後分布(ベータ分布)の分散

𝑣𝑎𝑟 𝜇 =𝑎𝑏

𝑎+𝑏 2 𝑎+𝑏+1

𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく

多くのデータを学習すればするほど,一般的に 事後分布の不確実性は減少する?

Page 22: PRML2.1 2.2

平均・分散の不確実性

22

事前平均と事後平均

𝜽の事後平均を,データを生成する分布上で平均すると,𝜽の事前平均に等しい

事前分散と事後分散

平均的には 事前分散 > 事後分散 成り立たないデータセットもある

𝐸𝜽 𝜽 = 𝐸𝐷[𝐸𝜽 𝜽 | 𝐷 ]

𝑣𝑎𝑟𝜃 𝜃 = 𝐸𝐷[𝑣𝑎𝑟𝜃 𝜃 𝐷]] + 𝑣𝑎𝑟𝐷[𝐸𝐷 𝜃 𝐷]] 事前分散 の平均

事後分散の平均 事後平均の分散

(2.21)

(2.24)

Page 23: PRML2.1 2.2

• 多項分布

• ディリクレ分布

2.2 多値変数 23

Page 24: PRML2.1 2.2

例えば

24

サイコロを投げる 6通りの状態がありうる

1-of-K 符号化法 K個の状態を取りうる離散変数を扱う際に用いられる

要素の一つ𝑥𝑘のみが1で他が0

𝑥𝑘 = 1𝐾𝑘=1 を満たす

ex. サイコロの目を観測値𝑥として,3が出た時

𝑥 = (0,0,1,0,0,0)𝑇

Page 25: PRML2.1 2.2

歪んだサイコロ

25

記号の定義 𝜇𝑘 ∶ 𝑥𝑘 = 1となる確率

正確なサイコロの場合

𝝁 = (1

6,1

6,1

6,1

6,1

6,1

6)

シゴロ賽の場合

𝝁 = (0,0,0,1

3,1

3,1

3)

ピンゾロ賽の場合

𝝁 = (1,0,0,0,0,0)

Page 26: PRML2.1 2.2

多項分布

26

𝑥の分布

観測値が複数あった場合 𝑁個の独立な観測値𝑥1…𝑥𝑁

尤度関数

𝑝 𝑥 𝜇) = 𝜇𝑘𝑥𝑘

𝐾

𝑘=1

𝑝 𝐷 𝜇) = 𝜇𝑘𝑥𝑛𝑘

𝐾

𝑘=1

𝑁

𝑛=1

= 𝜇𝑘( 𝑥𝑛𝑘𝑛 )

𝐾

𝑘=1

= 𝜇𝑘𝑚𝑘

𝐾

𝑘=1

𝑚𝑘 = 𝑥𝑛𝑘𝑛

 : この分布の十分統計量

ベルヌーイ分布を2種類以上の 出力に一般化したもの

(2.26)

(2.29)

Page 27: PRML2.1 2.2

𝝁の最尤推定

27

制約付き対数尤度最大化

ラグランジュの未定乗数法を用いる

𝑓 = 𝑚𝑘 ln 𝜇𝑘

𝐾

𝑘=1

+ 𝜆 𝜇𝑘 − 1

𝐾

𝑘=1

𝜕𝑓

𝜕𝜇𝑘=𝑚𝑘𝜇𝑘+ 𝜆

𝜕𝑓

𝜕𝜇𝑘= 0 より,

𝜇𝑘 = −𝑚𝑘𝜆

𝜇𝑘 = 1

𝑘

に代入して,

−𝑚𝑘𝜆= 1

𝑘

− 𝑚𝑘 = 𝜆

𝑘

𝜆 = −𝑁

𝜇𝑘𝑀𝐿 =𝑚𝑘𝑁

Page 28: PRML2.1 2.2

多項分布

28

パラメータ𝜇と観測値の総数𝑁が与えられた条件の下,𝑚1…𝑚𝐾の同時確率

𝑀𝑢𝑙𝑡 𝑚1, …𝑚𝐾 𝝁, 𝑁) =𝑁

𝑚1𝑚2…𝑚𝐾 𝜇𝑘

𝑚𝑘

𝐾

𝑘=1

ただし,𝑁

𝑚1𝑚2…𝑚𝐾=

𝑁!

𝑚1!𝑚2! …𝑚𝐾!

𝑚𝑘

𝐾

𝑘=1

= 𝑁

(2.34)

Page 29: PRML2.1 2.2

ディリクレ分布

29

多項分布の𝜇𝑘についての事前分布

共役分布の形は以下の通り

ディリクレ分布

𝑝 𝝁 𝜶) ∝ 𝜇𝑘𝛼𝑘−1

𝐾

𝑘=1

ただし,0 ≦ 𝜇𝑘 ≦ 1, 𝜇𝑘𝑘 = 1 ハイパーパラメータ 𝜶 = (𝛼1, … , 𝛼𝐾)

𝑇

𝐷𝑖𝑟 𝝁 𝜶) =Γ(𝛼0)

Γ 𝛼1 …Γ(𝛼𝐾) 𝜇𝑘

𝛼𝑘−1

𝐾

𝑘=1

ただし,𝛼0= 𝛼𝑘𝑘

(2.37)

(2.38)

Page 30: PRML2.1 2.2

共役性の確認

30

事前分布

尤度関数

事後分布

𝑝 𝝁 𝜶) =Γ(𝛼0)

Γ 𝛼1 …Γ(𝛼𝐾) 𝜇𝑘

𝛼𝑘−1

𝐾

𝑘=1

𝑝 𝐷 𝝁) =𝑁

𝑚1𝑚2…𝑚𝐾 𝜇𝑘

𝑚𝑘

𝐾

𝑘=1

𝑝 𝝁 𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁 𝜶 +𝒎)

=Γ(𝛼0 + 𝑁)

Γ 𝛼1 +𝑚1 …Γ(𝛼𝐾 +𝑚𝐾) 𝜇𝑘

𝛼𝑘+𝑚𝑘−1

𝐾

𝑘=1

(2.38)

(2.34)

(2.41)