PRML上巻勉強会 at 東京大学資料第2章2.3.3 〜 2.5.2

PRML 上巻勉強会第三回

2.3.3 - 2.5.2

株式会社ネットプライスドットコム Beenos Future Center

技術戦略室室長加藤寛之

目次

•2.3. ガウス分布 •3. ガウス変数に対するベイズの定理 •4. ガウス分布の最尤推定 •5. 逐次推定 •6. ガウス分布に対するベイズ推論 •7. スチューデントのt分布 •8. 周期変数 •9. 混合ガウス分布

•2.4. 指数型分布族 •1. 最尤推定と十分統計量 •2. 共役事前分布 •3. 無情報事前分布

•2.5. ノンパラメトリック法 •1. カーネル密度推定法 •2. 最近傍法

式変形・・・1変数のガウス分布について、ガンマ分布を精度の事前分布とし、そこから精度を積分消去して　　　　　　　　の変数変換を行うとzの周辺分布は次式になる。

ここで　　　　　　　　　と置くと、上式の分布は以下のスチューデントのt分布になる

スチューデントのt分布は平均が等しく精度が異なるガウス分布を無限個足しあわせたものになる。ガウス分布より一般に分布の「すそ」が長いので頑健性がある。（外れ値のデータ点に対して影響されにくい）

多変量化と、分布の性質パラメータを以下のように置き換えるとt分布は次式のようになる。

これは多変量のガウス分布の場合に一般化することができ、計算すると次式を得る。

この分布は、1変数の結果に対応した以下の性質を持つ

まとめ・平均は同じだが精度が異なるガウス分布を無限に足しあわせたもの。　「すそ」がガウス分布よりも長い。 => ガウス分布よりも外れ値に強い。 !・最尤推定解を求めるにはEMアルゴリズムによる計算が必要。

目次




周期変数の置換周期変数の場合は既存の分布をうまく適用できない（原点の取り方で変わってしまう）ので、観測値を単位円上に置かれるようなベクトルにして、その平均等を使えばうまくいく。

とおけば、

となるから

これから、以下が導き出せる

フォン・ミーゼス分布、であるような2変数上のガウス分布は

ここで、極座標に変換（）して

計算を進めていくと、次式のフォン・ミーゼス分布を得る。

ただし、

フォン・ミーゼス分布の最尤推定

最尤推定量を、対数尤度関数からθの微分を0として求めると

これは前々ページの平均に等しい。同様にを求めるととすれば

対数尤度関数 :

目次




ただし、混合係数　　は前式の両辺の積分結果とガウス分布の満たす条件により　　　　　　を満たす。

多峰性のあるデータを扱う

次式のガウス分布をK個、線形結合して作る重ね合わせ（混合ガウス分布）を考える。各要素は混合要素といい、各平均と共分散は異なるパラメータとして与えられる。

これまでのガウス分布では、多峰性のあるデータ（山が複数あるデータ）を扱えない

負担率前ページより、混合係数　　は確率の条件を満たしているので　　　　　　をk番目の混合要素を選択する事前確率、　　　　　　　　　　　をkが与えられたときの xの条件付き密度とすると、xの周辺密度は次式で得られる。

このときの事後確率　　　　を負担率という。

目次




指数型分布族の一般形これまでみてきた　に関する分布はパラメータ　を使って次式で表される。

ただし、分布を正規化するために以下の性質がある。

ベルヌーイ分布では　　　　　　　　　となり、　について解くと

　　　　　　　　　　　　となり、ロジスティックシグモイド関数となる。すると

式変形からとなり、μについて解くとを得る

これは、と置けばと書ける。

多項分布の場合p73の(2.26)より、M種類の状態を取る多項分布は次式で表せる。

と照らし合わせれば、以下の関係を得る。

もともとはとなる確率を表すので、及びが成り立つ。

よって、同様に元の式と照らし合わせれば、次式の対応関係になっていることが分かる

目次




指数型分布の一般形と最尤推定

　について、両辺の勾配を求めて式変形していくと、次式を得る。

独立なデータ集合　　　　　　　　に対する尤度関数は、これまで見てきた通り次式

これに前式を代入して、　についての勾配を0とすると最尤推定量　　　は以下を満たす

目次




これまでの対応関係

ベルヌーイ分布

ガウス分布

分布共役事前分布

平均: ガウス分布精度 : ウィシャード分布

ある確率分布に対して、事後分布が事前分布と同じ関数形になるような尤度関数と共役事前分布を求めることが可能で、指数型分布族の任意の分布に対し

を満たす共役事前分布が存在する。

目次




確率密度をが定数だとしても、例えばとしたときのの確率密度は

・が有界でない場合、積分が発散してしまう。

事後分布に対して影響を小さくするためにとしても

確率分布に関する情報が少ない時事後分布への影響がなるべく少なくなるようにした事前分布（= 無情報事前分布）を求める。

・非線形な確率密度の変化がある場合、定数にならない。

以下のようになり、定数とならない。

平行移動不変性が成り立つとき、が成り立つ

2種類の無情報事前分布=> は定数になる。例としてはガウス分布の平均。

尺度不変性が成り立つとき、が成り立つので

だから、この場合は変則事前分布になる。例としてはガウス分布の標準偏差

目次




ノンパラメトリックアプローチこれまでの観測値から値が決定される少数のパラメータで確率密度の関数形が決まる=パラメトリックなアプローチ !

選んだ確率密度が生成した分布を表現するのに貧弱な場合予想性能が悪くなる可能性がある。 !

ノンパラメトリックな確率密度推定のアプローチを考えていく。

ヒストグラム密度推定法　　　　　: 区間幅　　　　　: 番目の区間に入った観測値の数 !

　　　　　: 各区間　の確率密度 !

【欠点】　が大きすぎると過剰に平滑化。　が小さすぎるとばらけてしまう。次元が大きくなると不連続性が生じ、次元の呪いにかかってしまう。。。

目次




R内の点の総数Kは二項分布に従うので

確率密度の推測xを含むある小さな領域Rに割り当てられた確率は以下になる

「大きなNについて分布が平均の周囲で鋭く尖っている」「R内の確率密度が領域内でほぼ一定」と（相反するが）仮定すると、以下の式を得る。 KかVの片方を固定してもう片方を推測する方法（二つ）が考えられる。

カーネル密度推定法（Vを固定）原点を中心とした単位立方体を表す関数（カーネル関数の一例）を定義すると

1辺がhの立方体の内部に存在する場合は1、そうでない場合は0となるので、立方体内部の総点数は以下の式で表される。

これより、以下の推定密度関数を得る。

目次




最近傍法（Kを固定）それぞれの領域の体積を、ちょうどK個の点を含むようにする = K近傍法カーネル密度推定法ではh（単位立方体の一辺の大きさ）が精度に関連していたが、 K近傍法ではKが精度に関連してくる。 !生成されるモデルは空間全体上での積分が発散するため正規化された密度モデルではない。

K近傍法とクラス分類問題新たな点xを分類するとき、xを中心としたK個の点を含む新しい領域を作ったときにクラスCkの点をそれぞれKkずつ含んでいるとすると

おまけ : Japanese Ninja Engineer

8月の一ヶ月間、アメリカに行ってきました !

プログラミングやデザインは世界共通言語クリエイターはどんどん世界へ羽ばたこう！

おまけ2 : 一昨日記事になりました

http://beenos.com/2013/09/specialist_hiroyuki_kato/

インターンとかされたい方、大歓迎です！実稼働中のサービスから得られたデータを提供しますので、煮るなり焼くなり！

!

[email protected]

Documents

PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2

PRML上巻勉強会 at 東京大学資料第2章2.3.3 〜 2.5.2