47
1 2010104石川康太 (ISHIKAWA Kohta) Twitter: @_kohta quantumcorgi_at_gmail.com 統計学入門 全体像のイメージ的な理解を目指して

Introduction to statistics

Embed Size (px)

DESCRIPTION

計算手法の詳細を割愛し、統計学の目的や考え方のイメージを理解することに重点を置いた、統計学初級者向け資料

Citation preview

Page 1: Introduction to statistics

1

2010年10月4日石川康太 (ISHIKAWA Kohta)

Twitter: @_kohta

quantumcorgi_at_gmail.com

統計学入門

全体像のイメージ的な理解を目指して

Page 2: Introduction to statistics

2

ご注意

• この資料は個人的な知識をまとめたものです。作成者の所属する組織とは一切関わりの無いものです。

• 内容は正確なものとなるよう努力していますが、作成者の不勉強が無いとは言い切れません。不正確な内容の発生、および本資料の内容を用いたことによるいかなる損害についても、作成者はその責任を負いません。

• おかしな点や、改善点など、お気づきの際にはご指摘いただけると幸いです。

Page 3: Introduction to statistics

3

この資料の目的と前提

前提•平均や分散などの確率的計算を知っている

•正規分布なども知っている

•統計学についてとても詳しいというわけではない

•統計学についてきちんと勉強するのが面倒臭い

…という方

目的•仕事上の問題解決を考えるときに統計学のことも頭に浮かぶようになる

•統計学の全体像をイメージできるようになる

•必要な個別トピックの調査検討にすんなり入れるようになる

…となれたらお得ですね

Page 4: Introduction to statistics

4

概要

• 統計学とは何か?– 統計学が扱う問題とその目的

• 確率モデルとパラメータ– 統計学の基本的な道具とその使い方

• 回帰分析– よく用いられるモデルとしての実例

• 検定– 統計的検定の考え方

• モデル選択– より進んだトピックとして

• ベイズ統計学の初歩– 頻度主義統計学とは異なる世界を覗く

Page 5: Introduction to statistics

5

• 統計学とは何か?

• 確率モデルとパラメータ

• 回帰分析

• 検定

• モデル選択

• ベイズ統計学の初歩

Page 6: Introduction to statistics

6

統計学とは何か?

• データの中にある構造を見つける

構造? データ

データ

データ

観測

真の構造

実現

構造 確率モデル

データ 確率変数

Page 7: Introduction to statistics

7

統計学とは何か?

• ランダムな現象をモデル化

– ノイズがある

– 非決定論的な現象

– 現象の背景がよくわからない

不確実性のモデル化

真の構造に近いと思われる確率モデルを想定してデータに合わせ込む

統計学がやっているのはほとんどこれだけ(だと思います)

Page 8: Introduction to statistics

8

• 統計学とは何か?

• 確率モデルとパラメータ

– 確率モデル

– 具体例 ~歪んだコイン投げ

– パラメータの推定量とその性質

– 最尤法(推定量の構成)

– 歪んだコイン投げの最尤推定

• 回帰分析

• 検定

• モデル選択

• ベイズ統計学の初歩

Page 9: Introduction to statistics

9

確率モデルとパラメータ(母数)

• 確率モデル=確率分布の想定

確率モデル

パラメータ確率変数(データ)

データ が生起する確率 = 想定した確率分布

確率分布のパラメータをデータに合わせ込めばモデルが完成する

Page 10: Introduction to statistics

10

確率モデルとパラメータ(母数)

• 具体例 歪んだコイン投げ

– 歪んでいて、表・裏の出る確率がよくわからないコイン

確率モデル

表が出る確率は裏が出る確率は

パラメータ

:表が出る確率

データ

(H,H,T,H,T,H,T,T,…)

N回コイン投げをしたらHがn回出た

H・・・n回 T・・・N-n回

合わせ込んだパラメータ

なぜこの合わせ込みが良いと言えるのか?どうやって合わせ込むとこうなるのか?

Page 11: Introduction to statistics

11

確率モデルとパラメータ(母数)

• 推定量とその性質

推定量

データXを使って真のパラメータ値θを推定したもの

はデータXの関数

になったら嬉しいデータの具体的な値によるデータは確率変数

も確率変数!

確率変数としての の性質を調べる必要がある の平均や分散を知りたい

Page 12: Introduction to statistics

12

確率モデルとパラメータ(母数)

• 具体例 歪んだコイン投げの推定量

:明らかにnの確率分布を考えれば良い

平均平均が真のパラメータ値に一致

平均が真のパラメータ値に等しくなる推定量不偏推定量(unbiased estimator)

推定したい各パラメータについて、不偏推定量を見つけることができれば、データから偏りの無い推定ができる

・実際に不偏推定量を見つけるのは簡単ではない。・近似的不偏性で我慢することも多い。

Page 13: Introduction to statistics

13

確率モデルとパラメータ(母数)

• 分散はどうなっているか?

分散

平均値のまわりでバラツキがある

ならバラツキはゼロとなる

無限にデータを集めれば推定量は確率1で決まった値をとる

一致推定量(consistent estimator)

推定量が一致性を持っているなら、安心して大量のデータを集めてくればよい

・不偏性と一致性を兹ね備えた推定量を見つけることが目標となる・一致性は大抵の場合満たされる(大数の法則、中心極限定理)

Page 14: Introduction to statistics

14

確率モデルとパラメータ(母数)

• 不偏性と一致性

バイアス

不偏性のある推定量 不偏性のない(偏った)推定量

N大

N小

一致性

Page 15: Introduction to statistics

15

確率モデルとパラメータ(母数)

• 不偏推定量の分散の性質

– 一般に、推定量の分散は小さければ小さいほど良い

• 分散が小さいなら真のパラメータからのズレが小さい

– ところが、一般に不偏推定量の分散は一定の下限値より小さくすることができない(データ数固定の場合)

クラメール・ラオの下限データXが与えられたとき、不偏推定量の分散について次の不等式が成り立つ

不偏推定量の中で最も分散が小さいもの 最小分散不偏推定量

Page 16: Introduction to statistics

16

確率モデルとパラメータ(母数)

• 最尤法

推定量 はデータのどんな関数にすればいいのか?

今得られているデータXは、最も得られる確率の高いデータが実現したもの

だと考える。

今得られているデータXが実現する確率 を最大化するようなパラメータを推定量とする。

最尤法

Page 17: Introduction to statistics

17

確率モデルとパラメータ(母数)

• 最尤法と最尤推定量

最尤推定量

はデータXを固定して

を の関数と見たもの

尤度関数

推定量を構成する方法は最尤法以外にも色々ある

最小二乗法、MAP推定、ベイズ推定、…

尤度関数はとても重要な量で、様々な場面で顔を出す

フィッシャー情報量、AIC(赤池情報量規準)、ベイズ統計…

Page 18: Introduction to statistics

18

確率モデルとパラメータ(母数)

• 具体例 歪んだコイン投げの最尤推定量

データ X=(H,H,T,H,T,H,T,T,…) が起こる確率

これを で微分してゼロと置くと…

最尤推定量

直観的な推定量と同じものが得られる

(Hがn回出た場合)

Page 19: Introduction to statistics

19

確率モデルとパラメータ(母数)

• 最尤法についての注意

– 最尤推定量は必ずしも不偏性、一致性を満たさない

• むしろバイアスが掛かりやすい性質がある

• AICなどによる推定量を用いて補正したりする

有名な例:正規分布モデルの分散の最尤推定量

は不偏推定量ではない!

分散の不偏推定量は

Page 20: Introduction to statistics

20

• 統計学とは何か?

• 確率モデルとパラメータ

• 回帰分析

– 回帰分析と線形モデル

– 最小二乗法について

• 検定

• モデル選択

• ベイズ統計学の初歩

Page 21: Introduction to statistics

21

回帰と線形モデル

• 回帰 -よく用いる確率モデルとして

– 回帰は確率モデルの枠組みから見ると少々特殊

回帰モデル

xが与えられたときのyの条件付き分布を平均 、分散 の正規分布と想定

確率の乗法定理 パラメータ の合わせ込みにxの分布の形は影響しない

xの分布は考えなくてよい(適当に想定したことにする)

Page 22: Introduction to statistics

22

回帰と線形モデル

• 何が線形?

– パラメータについて線形

• xについては線形でなくてもよい

全て線形モデル!

これを一般化するとカーネル法と呼ばれる一連の手法に繋がる

データについて非線形な構造を処理する一般的な方法

カーネル多変量解析、非線形SVM(カーネルマシン)、etc…

Page 23: Introduction to statistics

23

回帰と線形モデル

• 最小二乗法と最小二乗推定量

– 最小二乗推定量は線形モデルなら最尤推定量に一致

– 最小分散不偏推定量になっている

– パラメータの任意の線形結合 について、

は最小分散不偏推定量(ガウス・マルコフの定理)

最小二乗法

について非線形な場合はの関数 となる。

Page 24: Introduction to statistics

24

• 統計学とは何か?

• 確率モデルとパラメータ

• 回帰分析

• 検定

– 検定とは何か?(推定と検定の違い)

– 帰無仮説と対立仮説

– 検定のイメージ

– 検定統計量の構成

• モデル選択

• ベイズ統計学の初歩

Page 25: Introduction to statistics

25

検定

• 検定は何をするのか?

推定

モデル

データ

推定量を計算

確率モデルを想定し、データを使って推定量を求める

検定

モデル

帰無仮説

検定統計量の分布関数

データ 検定統計量

仮説の棄却判定

パラメータ値に対する仮説

Page 26: Introduction to statistics

26

検定

• 検定における帰無仮説と対立仮説

帰無仮説

正しいのかどうかを確かめたい仮説

対立仮説

帰無仮説が正しくない時に成り立つ仮説

パラメータの1点を定める仮説:単純仮説パラメータの範囲を定める仮説:複合仮説

一般の複合仮説では、検定が複雑になったり発見的な手段を用いる必要があったりする。

・帰無仮説が正しいときに対立仮説を採択する誤り・対立仮説が正しいときに帰無仮説を採択する誤り

第1種の誤り第2種の誤り

第1種の誤りの確率を一定以下に抑えつつ、第2種の誤りの確率を最小化したい

Page 27: Introduction to statistics

27

検定

• 検定のイメージ

t

適当な統計量(例えばt統計量)

帰無仮説が正しい時のtの分布関数

対立仮説が正しい時のtの分布関数

tの実現値 がこの範囲に入っていたら帰無仮説を棄却 棄却域

棄却域は普通、帰無仮説が正しいときの統計量の分布関数に対して裾側5%(有意水準5%)となるように定める。

仮説が正しいとするとまず起こらないはずのこと(棄却域)が起こるのは、仮説が間違っているからだ! と考える

Page 28: Introduction to statistics

28

検定

• 検定統計量の構成

– 検定統計量の構成方法は無数にある

– どの統計量を使うかで検定の良さ(検出力)が変わる

検定統計量の例:t統計量分散未知の正規分布における平均値パラメータの検定(μ0は平均パラメータの帰無仮説)

tは自由度(N-1)のt分布に従うことが分かっている

t分布に基づく検定を構成することができる

Page 29: Introduction to statistics

29

検定

• 最強力検定とネイマン・ピアソンの補題

最強力検定

対立仮説が成り立つとき、帰無仮説を棄却する確率が最大となる検定方式

•単純帰無仮説を単純対立仮説に対して検定する問題の場合は、ネイマン・ピアソンの補題により最強力検定を明示的に構成できる。

•一般の複合仮説の場合は、最強力検定を構成することは難しい。尤度比検定などの(最強力検定とは限らないが)一般的に適用できる手法を使う。

Page 30: Introduction to statistics

30

• 統計学とは何か?

• 確率モデルとパラメータ

• 回帰分析

• 検定

• モデル選択

– 回帰モデルの例

– 最尤法の限界

– AIC(赤池情報量規準)

• ベイズ統計学の初歩

Page 31: Introduction to statistics

31

モデル選択

• 色々なモデルの中でどれが一番良いのか判定したい

0

0.5

1

1.5

2

2.5

3

0 0.2 0.4 0.6 0.8 1

6次回帰モデル

線形回帰モデル例:回帰モデルの次数

いったい何次のモデルが一番妥当なのか?

素直な発想:最尤法の拡張

尤度が一番高いモデルを選べばいいのでは?

常に最高次のモデルが選ばれてしまう

オーバーフィッティング、過学習

Page 32: Introduction to statistics

32

モデル選択

• 最尤法の限界

モデル データ実現

データ別の可能性

データ別の可能性

尤度関数計算に使用

×

×最尤法は実現データのみに着目してモデルを作る

モデルが吐く別のデータ(可能性)に対応できない

別のデータでは全く的外れでも、実現データに合ってさえいれば(尤度が高く)採用される。 汎化性能が低い

Page 33: Introduction to statistics

33

モデル選択

• 期待平均対数尤度 ーデータの「別の可能性」を考慮

期待平均対数尤度

真の分布でデータ

Xについて平均最大対数尤度(パラメータ値を

最尤推定量としたときの対数尤度)

最大尤度をデータについて平均することで『別の可能性』を考慮に入れる

でも実際はデータの真の分布がわからないので平均を計算できない

期待平均対数尤度の不偏推定量を考えたい!

Page 34: Introduction to statistics

34

モデル選択

• AIC(赤池情報量規準) -最尤法のバイアス補正

実データを用いた最大対数尤度と期待平均対数尤度の間のバイアスを近似的に計算することができる

最大対数尤度のバイアス補正

最大対数尤度 バイアス補正項

AIC(赤池情報量規準)

パラメータが多すぎることによるペナルティ

ダミー変数(平均されて消える)

データ

Page 35: Introduction to statistics

35

モデル選択

• バイアス補正の効果

– 尤度最大で選んだ場合は、モデルの次数が大きいほど良いとみなされる

– AIC最小(符号に注意!)で選んだ場合は、モデルの複雑さが適度に補正される

– 情報量基準

(Information Criterion)は

確率モデルの構成法により

AIC,TIC,BICなど様々ある

AIC最小モデル

尤度最大モデル(6次まで)

Page 36: Introduction to statistics

36

• 統計学とは何か?

• 確率モデルとパラメータ

• 回帰分析

• 検定

• モデル選択

• ベイズ統計学の初歩

– ベイズ統計学とは?

– ベイズの定理と事前分布

– ベイズ推定

作成者の力量不足により、ベイズの項目については表面的な色彩がより強いものとなっています。至らない点など、ご指摘頂ければ幸いです。

Page 37: Introduction to statistics

37

ベイズ統計学の初歩

• ベイズ統計学とは?

– 新しい!…わけではない(Thomas Bayes,1763)

– 「物事が起こる確率」だけではなく、「物事が起こったとき、その原因の確率」を考える。

風邪を引いた

原因

咳をした

結果風邪を引いた人は確率0.9で咳をする

頻度主義的考え方

ベイズ的考え方

風邪のせい 咳をした

咳をした人が風邪を引いている確率は0.8である

原因と結果の因果関係を逆転して考える

Page 38: Introduction to statistics

38

ベイズ統計学の初歩

• 典型的な疑問点

– 風邪かどうかはもう決まっているので、確率も何もないんじゃないか?

• (確率1で断定できるような)十分な情報があればその通りです。

• 不確実性(確率)と不完全情報(情報が足りない)を同じに扱うという考え方です。(主観確率)

– 最尤法と同じじゃない?(「結果データが起こる確率」に着目)

• 適当な前提の下で同じです。(事前分布が定数)

Page 39: Introduction to statistics

39

ベイズ統計学の初歩

• ベイズの定理と事前分布

ベイズの定理

Aが起こったという条件の下でBが起こる条件付き確率

原因(A)と結果(B)を入れ換えることができる

ただし、原因Aの確率分布 を知らなければならない

事前分布

事前分布は観察前に持っている経験や情報、信念を反映・「経験的に、この人は0.3の確率で風邪を引いていそうだ」・「情報が無いのでこのメールがSPAMかどうかは五分五分だ」

Page 40: Introduction to statistics

40

ベイズ統計学の初歩

• ベイズ推定

– パラメータ推定の場合、原因がパラメータで結果がデータに対応する

尤度関数

データXが得られたとき、パラメータ値がθである確率

Page 41: Introduction to statistics

41

ベイズ統計学の初歩

• ベイズ推定

– 色々な方法がある。

– 基本的には、ベイズ統計学で現れるのは推定量の単一の値ではなく推定量の確率分布

頻度主義的 ベイズ的

単一の推定値が欲しい場合は何らかの縮約をする必要がある

Page 42: Introduction to statistics

42

ベイズ統計学の初歩

• ベイズ推定

MAP推定

事後分布を最大化

事後分布の期待値

事後分布におけるパラメータの期待値

その他にも、期待損失最小化などの方法がある

Page 43: Introduction to statistics

43

ベイズ統計学の初歩

• ベイズ的な考え方は何が嬉しいのか?– モデルの不確実性を直接扱うことができる

• パラメータの(事前、事後)分布が不確実性を表現

– 柔軟なモデリングが可能

• 階層ベイズモデルなどを用いることで、より直観をストレートにモデル化することができる(参考文献を参照)

• ベイズ的な考え方の問題点

– どこかで必ず事前分布を恣意的に決めなければならない(無情報量事前分布とかもあるが…)

– 計算が難しくなりがち

• ベイズの定理を用いる際に本質的に高次元の多重積分が必要になる

…その他にも諸説があります

Page 44: Introduction to statistics

44

まとめ

• 統計学の基本的な考え方と、少しアドバンストなトピックを眺めました。

• 実際は個々の項目について非常に複雑な発展的内容があるものの、基本を押さえておけば何とか追える…んじゃないかと思います。

• 確率過程や時系列解析、学習理論、情報理論との関連など、ここでは全く触れなかった分野もたくさんあります。

– でも基本は同じです!

確率モデルを考えて、データに合わせ込む

Page 45: Introduction to statistics

45

参考文献

• 統計学全般

– 入門統計学/共立出版• 学部1年の講義で買わされたもの。改めて読むと意外とわかりやす

い。初心者向け。ネイマン・ピアソン流の古典統計学で、ベイズ的なトピックはない。

– キーポイント確率・統計/岩波書店

• わかりやすいが範囲は基本的な内容のみで広くない。その割に中心極限定理の証明が載っていたりする。

– 自然科学の統計学/東京大学出版会

• 記述は難しめだが、広範で深い記述。実験データ分析のトピックもあり実戦的(たぶん)。

– 入門数理統計学/培風館

• 統計学の理論的な背景をきちんと書いている割に、同様の他書に比べわかりやすい。部分的にしか読んでいない。

Page 46: Introduction to statistics

46

参考文献

• モデル選択

– 統計科学のフロンティア3「モデル選択」/岩波書店

• 情報量規準に基づくモデル選択がわかりやすい。後半はより情報理論的な話が書いてある(と思われる)。

– 情報量統計学/共立出版

• モデル選択とその周辺。古い本だが、普通の本にはあまり載っていないことが書いてあって面白い(と思う)。

– Model Selection and Multi-Model Inference/Springer

• 情報量規準と尤度比検定など、どういう状況で何を使うべきか、実践的な基礎が書いてある(らしい)。

• 多変量解析

– 統計科学のフロンティア1「統計学の基礎」

• 多変量解析が簡潔にまとまっている。「統計学の基礎」とは言い難いが…。

Page 47: Introduction to statistics

47

参考文献

– カーネル多変量解析/岩波書店

• カーネル法を用いて非線形系に拡張された多変量解析の本。わかりやすいらしい。

• ベイズ統計学

– 統計科学のフロンティア4「階層ベイズモデルとその周辺」• ベイズモデルの便利さがわかりやすく理解できる。

• 数値計算

– 統計科学のフロンティア12「計算統計2 マルコフ連鎖モンテカルロ法とその周辺」

• サンプリングなどの数値的な手法が詳しく載っている。語り口が面白い。