34
PRML 上巻勉強会 第三回 2.3.3 - 2.5.2 株式会社ネットプライスドットコム Beenos Future Center 技術戦略室 室長 加藤寛之

PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

Embed Size (px)

Citation preview

Page 1: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

PRML 上巻勉強会 第三回

2.3.3 - 2.5.2

株式会社ネットプライスドットコム Beenos Future Center

技術戦略室 室長 加藤寛之

Page 2: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 3: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

式変形・・・1変数のガウス分布について、ガンマ分布を精度の事前分布とし、そこから精度を 積分消去して        の変数変換を行うとzの周辺分布は次式になる。

ここで         と置くと、上式の分布は以下のスチューデントのt分布になる

スチューデントのt分布は平均が等しく精度が異なるガウス分布を無限個足しあわせた ものになる。ガウス分布より一般に分布の「すそ」が長いので頑健性がある。 (外れ値のデータ点に対して影響されにくい)

Page 4: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

多変量化と、分布の性質パラメータを以下のように置き換えるとt分布は次式のようになる。

これは多変量のガウス分布の場合に一般化することができ、計算すると次式を得る。

この分布は、1変数の結果に対応した以下の性質を持つ

Page 5: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

まとめ・平均は同じだが精度が異なるガウス分布を無限に足しあわせたもの。  「すそ」がガウス分布よりも長い。 => ガウス分布よりも外れ値に強い。 !・最尤推定解を求めるにはEMアルゴリズムによる計算が必要。

Page 6: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 7: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

周期変数の置換周期変数の場合は既存の分布をうまく適用できない(原点の取り方で変わってしまう)ので、観測値を単位円上に置かれるようなベクトルにして、その平均等を使えばうまくいく。

とおけば、

となるから

これから、以下が導き出せる

Page 8: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

フォン・ミーゼス分布、 であるような2変数 上のガウス分布は

ここで、極座標に変換( )して

計算を進めていくと、次式のフォン・ミーゼス分布を得る。

ただし、

Page 9: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

フォン・ミーゼス分布の最尤推定

最尤推定量 を、対数尤度関数からθの微分を0として求めると

これは前々ページの平均 に等しい。同様に を求めると とすれば

対数尤度関数 :

Page 10: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 11: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

ただし、混合係数  は前式の両辺の積分結果とガウス分布の満たす条件により       を満たす。

多峰性のあるデータを扱う

次式のガウス分布をK個、線形結合して作る重ね合わせ(混合ガウス分布)を考える。 各要素は混合要素といい、各平均と共分散は異なるパラメータとして与えられる。

これまでのガウス分布では、多峰性のあるデータ(山が複数あるデータ)を扱えない

Page 12: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

負担率前ページより、混合係数  は確率の条件を満たしているので      をk番目の 混合要素を選択する事前確率、           をkが与えられたときの xの条件付き密度とすると、xの周辺密度は次式で得られる。

このときの事後確率    を負担率という。

Page 13: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 14: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

指数型分布族の一般形これまでみてきた に関する分布はパラメータ を使って次式で表される。

ただし、分布を正規化するために以下の性質がある。

ベルヌーイ分布では         となり、 について解くと

            となり、ロジスティックシグモイド関数となる。すると

Page 15: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

式変形から となり、μについて解くと を得る

これは、 と置けば と書ける。

多項分布の場合p73の(2.26)より、M種類の状態を取る多項分布は次式で表せる。

と照らし合わせれば、以下の関係を得る。

もともと は となる確率を表すので、 及び が成り立つ。

よって、同様に元の式と照らし合わせれば、次式の対応関係になっていることが分かる

Page 16: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 17: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

指数型分布の一般形と最尤推定

 について、両辺の勾配を求めて式変形していくと、次式を得る。

独立なデータ集合        に対する尤度関数は、これまで見てきた通り次式

これに前式を代入して、 についての勾配を0とすると最尤推定量   は以下を満たす

Page 18: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 19: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

これまでの対応関係

ベルヌーイ分布

ガウス分布

分布 共役事前分布

平均: ガウス分布 精度 : ウィシャード分布

ある確率分布 に対して、事後分布が事前分布と同じ関数形になるような 尤度関数と共役事前分布 を求めることが可能で、指数型分布族の任意の分布に対し

を満たす共役事前分布が存在する。

Page 20: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 21: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

確率密度を が定数だとしても、例えば としたときの の確率密度は

・ が有界でない場合、積分が発散してしまう。

事後分布 に対して影響を小さくするために としても

確率分布に関する情報が少ない時事後分布への影響がなるべく少なくなるようにした事前分布(= 無情報事前分布) を求める。

・非線形な確率密度の変化がある場合、定数にならない。

以下のようになり、定数とならない。

Page 22: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

平行移動不変性 が成り立つとき、 が成り立つ

2種類の無情報事前分布=> は定数になる。例としてはガウス分布の平均。

尺度不変性 が成り立つとき、 が成り立つので

だから、この場合は変則事前分布になる。例としてはガウス分布の標準偏差

Page 23: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 24: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

ノンパラメトリックアプローチこれまでの観測値から値が決定される少数のパラメータで確率密度の関数形が決まる=パラメトリックなアプローチ !

選んだ確率密度が生成した分布を表現するのに貧弱な場合予想性能が悪くなる可能性がある。 !

ノンパラメトリックな確率密度推定のアプローチを 考えていく。

Page 25: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

ヒストグラム密度推定法     : 区間幅      : 番目の区間に入った観測値の数 !

     : 各区間 の確率密度 !

【欠点】  が大きすぎると過剰に平滑化。  が小さすぎるとばらけてしまう。 次元が大きくなると不連続性が生じ、 次元の呪いにかかってしまう。。。

Page 26: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 27: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

R内の点の総数Kは二項分布に従うので

確率密度の推測xを含むある小さな領域Rに割り当てられた確率は以下になる

「大きなNについて分布が平均の周囲で鋭く尖っている」 「R内の確率密度が領域内でほぼ一定」 と(相反するが)仮定すると、以下の式を得る。 KかVの片方を固定してもう片方を推測する方法(二つ)が考えられる。

Page 28: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

カーネル密度推定法(Vを固定)原点を中心とした単位立方体を表す関数(カーネル関数の一例)を定義すると

1辺がhの立方体の内部に存在する場合は1、そうでない場合は0となるので、立方体内部の 総点数は以下の式で表される。

これより、以下の推定密度関数を得る。

Page 29: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

Page 30: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

最近傍法(Kを固定)それぞれの領域の体積を、ちょうどK個の点を含むようにする = K近傍法 カーネル密度推定法ではh(単位立方体の一辺の大きさ)が精度に関連していたが、 K近傍法ではKが精度に関連してくる。 !生成されるモデルは空間全体上での積分が発散するため正規化された密度モデルではない。

Page 31: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

K近傍法とクラス分類問題新たな点xを分類するとき、xを中心としたK個の点を含む新しい領域を作ったときに クラスCkの点をそれぞれKkずつ含んでいるとすると

Page 32: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

おまけ : Japanese Ninja Engineer

8月の一ヶ月間、アメリカに行ってきました !

プログラミングやデザインは世界共通言語 クリエイターはどんどん世界へ羽ばたこう!

Page 33: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

おまけ2 : 一昨日記事になりました

http://beenos.com/2013/09/specialist_hiroyuki_kato/

Page 34: PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

インターンとかされたい方、大歓迎です! 実稼働中のサービスから得られたデータを 提供しますので、煮るなり焼くなり!

!

[email protected]