35
「高次元母数の推定はベイズ法がよい …… これは認めざるをえな い」 「縮小推定量は意味がとりにくい」 「頻度論にもとづく仮説検 定はですね, (強い) 尤度原理を認めてないんですよ!」 「MCMC は Bayesian ではない, 単なる積分だ」 「MCMC が Bayesian を普 及させた」 「あのヒトは真正 Bayesian ではない …… Bayesian をわかってないんだから」 「頻度論的な統計学を正しく使いこなせ るのは (Fisher のような) 天才だけ」 「Bayesian は理解できてない バカが使っても間違いがない …… それが Bayesian の良いところで す」 「(Fisher 流の) 有意差検定と (Neyman 流の) 仮説検定はまっ たく別モノ」 「Bayes と Fisher は意外と似ている …… 違いは事 前分布の有無だけ」 「Neyman は違う, 確率の考えかたがぜんぜ ん異なる」 「無情報事前分布? そりゃー臆病だよ, あんたは臆病だ!」 データ解析のための 統計モデリング入門 株式会社サイバーエージェント AdTechStudio 社内勉強会 みずかみ ひろき  @ Scientific Advertising Team

[読] データ解析のための統計モデリング 1−2章

Embed Size (px)

Citation preview

「高次元母数の推定はベイズ法がよい …… これは認めざるをえない」 「縮小推定量は意味がとりにくい」 「頻度論にもとづく仮説検定はですね, (強い) 尤度原理を認めてないんですよ!」 「MCMC は Bayesian ではない, 単なる積分だ」 「MCMC が Bayesian を普及させた」 「あのヒトは真正 Bayesian ではない …… Bayesian をわかってないんだから」 「頻度論的な統計学を正しく使いこなせるのは (Fisher のような) 天才だけ」 「Bayesian は理解できてないバカが使っても間違いがない …… それが Bayesian の良いところです」 「(Fisher 流の) 有意差検定と (Neyman 流の) 仮説検定はまったく別モノ」 「Bayes と Fisher は意外と似ている …… 違いは事前分布の有無だけ」 「Neyman は違う, 確率の考えかたがぜんぜん異なる」

「無情報事前分布? そりゃー臆病だよ, あんたは臆病だ!」

データ解析のための 統計モデリング入門

株式会社サイバーエージェント AdTechStudio 社内勉強会

みずかみ ひろき  @ Scientific Advertising Team

自己紹介

• 水上 ひろき (みずかみ ひろき)

• Scientific Advertising Team

• 火・金,勉強会の世話人やってます.

• 数学の畑で育った雑草. 

• ダーツ挑戦者募集中.

デモ環境

• RStudioServer 立ててます

• http://54.65.254.48:8787

• kubobook/kubobook社内向けm(_o_)m

0. 目次

• 1章 データを理解するために統計モデルを作る

• 1.1 統計モデル:なぜ「統計」な「モデル」

• 1.2 「ブラックボックスな統計解析」の悪夢

• 1.3 この本の内容:一般化線形モデルの導入とベイズ的な拡張

0. 目次

• 2章 確率分布と統計モデルの最尤推定

• 2.1 例題:種子数の統計モデリング

• 2.2 データと確率分布の対応関係をながめる

• 2.3 ポアソン分布とは何か?

• 2.4 ポアソン分布のパラメータの最尤推定

• 2.5 統計モデルの要点:乱数発生・推定・予測

• 2.6 確率分布の選び方

• 2.7 この章のまとめと参考文献

1.1 統計モデル:なぜ「統計」な「モデル」

• 統計モデリングの目的は「観測されたデータの背後にある『しくみ』を理解すること」

自然・オーディエンス が持つ情報

1.1 統計モデル:なぜ「統計」な「モデル」

• 統計モデリングの目的は「観測されたデータの背後にある『しくみ』を理解すること」

自然・オーディエンス が持つ情報

観測データ

欠損

観測

1.1 統計モデル:なぜ「統計」な「モデル」

• 統計モデリングの目的は「観測されたデータの背後にある『しくみ』を理解すること」

自然・オーディエンス が持つ情報

観測データ

推定結果

欠損

欠損

観測 モデリング

1.1 統計モデル:なぜ「統計」な「モデル」

• 統計モデリングの目的は「観測されたデータの背後にある『しくみ』を理解すること」

自然・オーディエンス が持つ情報

観測データ

推定結果

欠損

欠損

観測 モデリング

 この書籍の範囲

1.1 統計モデル:なぜ「統計」な「モデル」

• 数理モデル:現象を数学的な言葉で記述した系・模型

• 統計モデル : 確率分布を基本的な部品とする数理モデル

• 確率分布を使うと様々なばらつき・欠損などをうまく表現出来る.

• あるデータに基づいて,何を主張して良いのかを限定する.

F = m

d

2

dt

2x(t)

Y ⇠ N (µ,�)

1.2 「ブラックボックスな統計解析」の悪夢

• 何をやってるかよくわからない統計ソフトウェアでもデータを放り込めばそれらしい結果がでる.

• よくわからないと手法の誤用が避けられない

• 「ゆーい差」が出るまで検定手法をひたすらとりかえる

• データ中の観測値どうしの割算によって新しい「指標」をでっち上げる

• R^2 は説明力なのでひたすら1に近づければ良い.

1.2 「ブラックボックスな統計解析」の悪夢

• 何をやってるかよくわからない統計ソフトウェアでもデータを放り込めばそれらしい結果がでる.

• よくわからないと手法の誤用が避けられない

• 「ゆーい差」が出るまで検定手法をひたすらとりかえる

• データ中の観測値どうしの割算によって新しい「指標」をでっち上げる

• R^2 は説明力なのでひたすら1に近づければ良い.

その分析無意味じゃないですか?

ブラックボックスは怖い

1.3 この本の内容

Y ⇠ N (µ,�) パラメトリック!

1.3 この本の内容

Y ⇠ N (µ,�) パラメトリック!

f(µ) = wx+ b GLM!

1.3 この本の内容

Y ⇠ N (µ,�) パラメトリック!

µ ⇠ D(✓2) 階層モデル!

f(µ) = wx+ b GLM!

1.3 この本の内容

Y ⇠ N (µ,�) パラメトリック!

f(Y |✓) 尤度!観測されやすさ!

µ ⇠ D(✓2) 階層モデル!

f(µ) = wx+ b GLM!

1.3 この本の内容

Y ⇠ N (µ,�) パラメトリック!

f(Y |✓) 尤度!観測されやすさ!

µ ⇠ D(✓2) 階層モデル!

f(µ) = wx+ b GLM!

f(✓|Y ) =f(Y |✓)f(✓)Rf(Y |✓)f(✓)d✓ ベイズ統計!

1.3 この本の内容

Y ⇠ N (µ,�) パラメトリック!

f(Y |✓) 尤度!観測されやすさ!

µ ⇠ D(✓2) 階層モデル!

f(µ) = wx+ b GLM!

f(✓|Y ) =f(Y |✓)f(✓)Rf(Y |✓)f(✓)d✓

p(x, y)p(x) = p(y, x)p(y)

ベイズ統計!

MCMC!

2.1 例題:種子数のモデリング

x 50

個体 から採取された種子の数 → yii

2,2,4,6,4,5,2,3,1,2, 0,4,3,3,3,3,4,2,7,2, 4,3,3,3,4,3,7,5,3,1, 7,6,4,6,5,2,4,7,2,2, 6,2,4,5,4,5,1,3,2,3

データ列 = 

• データを要約してみる

2.1 例題:種子数のモデリング

x 50

個体 から採取された種子の数 → yii

2,2,4,6,4,5,2,3,1,2, 0,4,3,3,3,3,4,2,7,2, 4,3,3,3,4,3,7,5,3,1, 7,6,4,6,5,2,4,7,2,2, 6,2,4,5,4,5,1,3,2,3

データ列 = 

• データを要約してみる

2.1 例題:種子数のモデリング

x 50

個体 から採取された種子の数 → yii

2,2,4,6,4,5,2,3,1,2, 0,4,3,3,3,3,4,2,7,2, 4,3,3,3,4,3,7,5,3,1, 7,6,4,6,5,2,4,7,2,2, 6,2,4,5,4,5,1,3,2,3

データ列 = 

• データを要約してみる

2.1 例題:種子数のモデリング

x 50

個体 から採取された種子の数 → yii

2,2,4,6,4,5,2,3,1,2, 0,4,3,3,3,3,4,2,7,2, 4,3,3,3,4,3,7,5,3,1, 7,6,4,6,5,2,4,7,2,2, 6,2,4,5,4,5,1,3,2,3

データ列 = 

• データを要約してみる

2.1 例題:種子数のモデリング• データを要約してみる

y :=1

n

X

i

yi

var(y) :=1

n

X

i

(yi � y)

標本平均

標本分散

2.2 データと確率分布の対応関係をながめる• わかったこと

• 1個,2個と数えられるカウントデータ

• 1個体の種子数の標本平均は3.56

• 個体ごとの種子数にばらつきがあり,ヒストグラムはひと山の分布

2.2 データと確率分布の対応関係をながめる• わかったこと

• 1個,2個と数えられるカウントデータ

• 1個体の種子数の標本平均は3.56

• 個体ごとの種子数にばらつきがあり,ヒストグラムはひと山の分布

▶「ポアソン分布」が便利だ!ということにする.

2.3 データと確率分布の対応関係をながめる• ポアソン分布とは...

• を確率関数に持つ離散分布

• 平均 = 分散 =

• 単位時間に起こる交通事故の回数

P (X = k) =�ke��

k!

2.2 データと確率分布の対応関係をながめる• 平均3.56のポアソン分布と,観測データ

2.2 データと確率分布の対応関係をながめる• 平均3.56のポアソン分布と,観測データ

似てる,つまり 「背後にある仕組み」= ポアソン

2.4 ポアソン分布のパラメータの最尤推定

P (Y1 = y1|�) =�y1e��

y1!

P (Y1 = y1, Y2 = y2|�) =�y1e��

y1!

�y2e��

y2!

p(Y |�) =Y

i

�yie��

yi!

を最大にするλが一番尤もらしい

• 尤度 = データの観測されやすさ

◀尤度

の解 ▶最尤推定値(量)@

@�log p(Y |�) = 0

2.4 ポアソン分布のパラメータの最尤推定• 標準誤差 = 推定値のばらつき

� =1

n

X

i

yi

これは確率変数. 観測するたびに変わりますね. そのバラつきを標準誤差といいます.

2.4 ポアソン分布のパラメータの最尤推定• 標準誤差 = 推定値のばらつき

� =1

n

X

i

yi

これは確率変数. 観測するたびに変わりますね. そのバラつきを標準誤差といいます.

データが少ないと ↑ が観測されることもしばしば

2.4 ポアソン分布のパラメータの最尤推定• 標準誤差 = 推定値のばらつき

� =1

n

X

i

yi

これは確率変数. 観測するたびに変わりますね. そのバラつきを標準誤差といいます.

データが増えると標準誤差は小さくなる

2.5統計モデルの要点 乱数発生・推定・予測• モデルの当てはまり = 予測力か?

• 一般的に説明変数が増えると,データへの当てはまりは良くなる(MAPE・対数尤度)

• でも無駄なデータを学習すると予測力が低下する.(学習損失,情報量基準 information criterion)

2.6 確率分布の選び方

• 例えば,離散+非有界+「平均=分散」ならポアソン分布

• 離散か?連続か?

• 有界か?値の範囲は?

• 分散と平均の関係は?

• 他にもいろんな分布があります.

まとめ

• 統計ツールは便利.

• ブラックボックス怖い

• 尤度とは大体パラメータが観測される確率

• 知りたいのは多分尤度を最大にするソレかその付近の値

• 統計モデリング =「データの背後にあるしくみ」を知ること