Introduction to statistics

1

2010年10月4日石川康太 (ISHIKAWA Kohta)

Twitter: @_kohta

quantumcorgi_at_gmail.com

統計学入門

全体像のイメージ的な理解を目指して

2

ご注意

• この資料は個人的な知識をまとめたものです。作成者の所属する組織とは一切関わりの無いものです。

• 内容は正確なものとなるよう努力していますが、作成者の不勉強が無いとは言い切れません。不正確な内容の発生、および本資料の内容を用いたことによるいかなる損害についても、作成者はその責任を負いません。

• おかしな点や、改善点など、お気づきの際にはご指摘いただけると幸いです。

3

この資料の目的と前提

前提•平均や分散などの確率的計算を知っている

•正規分布なども知っている

•統計学についてとても詳しいというわけではない

•統計学についてきちんと勉強するのが面倒臭い

…という方

目的•仕事上の問題解決を考えるときに統計学のことも頭に浮かぶようになる

•統計学の全体像をイメージできるようになる

•必要な個別トピックの調査検討にすんなり入れるようになる

…となれたらお得ですね

4

概要

• 統計学とは何か？– 統計学が扱う問題とその目的

• 確率モデルとパラメータ– 統計学の基本的な道具とその使い方

• 回帰分析– よく用いられるモデルとしての実例

• 検定– 統計的検定の考え方

• モデル選択– より進んだトピックとして

• ベイズ統計学の初歩– 頻度主義統計学とは異なる世界を覗く

5

• 統計学とは何か？

• 確率モデルとパラメータ

• 回帰分析

• 検定

• モデル選択

• ベイズ統計学の初歩

6

統計学とは何か？

• データの中にある構造を見つける

構造？データ

データ

データ

観測

真の構造

実現

構造確率モデル

データ確率変数

7

統計学とは何か？

• ランダムな現象をモデル化

– ノイズがある

– 非決定論的な現象

– 現象の背景がよくわからない

不確実性のモデル化

真の構造に近いと思われる確率モデルを想定してデータに合わせ込む

統計学がやっているのはほとんどこれだけ（だと思います）

8



– 確率モデル

– 具体例～歪んだコイン投げ

– パラメータの推定量とその性質

– 最尤法（推定量の構成）

– 歪んだコイン投げの最尤推定

• 回帰分析

• 検定

• モデル選択


9

確率モデルとパラメータ(母数)

• 確率モデル＝確率分布の想定

確率モデル

パラメータ確率変数（データ）

データが生起する確率＝想定した確率分布

確率分布のパラメータをデータに合わせ込めばモデルが完成する

10


• 具体例歪んだコイン投げ

– 歪んでいて、表・裏の出る確率がよくわからないコイン

確率モデル

表が出る確率は裏が出る確率は

パラメータ

：表が出る確率

データ

（H,H,T,H,T,H,T,T,…）

N回コイン投げをしたらHがn回出た

H・・・n回 T・・・N-n回

合わせ込んだパラメータ

なぜこの合わせ込みが良いと言えるのか？どうやって合わせ込むとこうなるのか？

11


• 推定量とその性質

推定量

データXを使って真のパラメータ値θを推定したもの

はデータXの関数

になったら嬉しいデータの具体的な値によるデータは確率変数

も確率変数！

確率変数としてのの性質を調べる必要があるの平均や分散を知りたい

12


• 具体例歪んだコイン投げの推定量

：明らかにnの確率分布を考えれば良い

平均平均が真のパラメータ値に一致

平均が真のパラメータ値に等しくなる推定量不偏推定量(unbiased estimator)

推定したい各パラメータについて、不偏推定量を見つけることができれば、データから偏りの無い推定ができる

・実際に不偏推定量を見つけるのは簡単ではない。・近似的不偏性で我慢することも多い。

13


• 分散はどうなっているか？

分散

平均値のまわりでバラツキがある

ならバラツキはゼロとなる

無限にデータを集めれば推定量は確率1で決まった値をとる

一致推定量(consistent estimator)

推定量が一致性を持っているなら、安心して大量のデータを集めてくればよい

・不偏性と一致性を兹ね備えた推定量を見つけることが目標となる・一致性は大抵の場合満たされる（大数の法則、中心極限定理）

14


• 不偏性と一致性

バイアス

不偏性のある推定量不偏性のない（偏った）推定量

N大

N小

一致性

15


• 不偏推定量の分散の性質

– 一般に、推定量の分散は小さければ小さいほど良い

• 分散が小さいなら真のパラメータからのズレが小さい

– ところが、一般に不偏推定量の分散は一定の下限値より小さくすることができない（データ数固定の場合）

クラメール・ラオの下限データXが与えられたとき、不偏推定量の分散について次の不等式が成り立つ

不偏推定量の中で最も分散が小さいもの最小分散不偏推定量

16


• 最尤法

推定量はデータのどんな関数にすればいいのか？

今得られているデータXは、最も得られる確率の高いデータが実現したもの

だと考える。

今得られているデータXが実現する確率を最大化するようなパラメータを推定量とする。

最尤法

17


• 最尤法と最尤推定量

最尤推定量

はデータXを固定して

をの関数と見たもの

尤度関数

推定量を構成する方法は最尤法以外にも色々ある

最小二乗法、MAP推定、ベイズ推定、…

尤度関数はとても重要な量で、様々な場面で顔を出す

フィッシャー情報量、AIC(赤池情報量規準)、ベイズ統計…

18


• 具体例歪んだコイン投げの最尤推定量

データ X=（H,H,T,H,T,H,T,T,…）が起こる確率

これをで微分してゼロと置くと…

最尤推定量

直観的な推定量と同じものが得られる

（Hがn回出た場合）

19


• 最尤法についての注意

– 最尤推定量は必ずしも不偏性、一致性を満たさない

• むしろバイアスが掛かりやすい性質がある

• AICなどによる推定量を用いて補正したりする

有名な例：正規分布モデルの分散の最尤推定量

は不偏推定量ではない！

分散の不偏推定量は

20



• 回帰分析

– 回帰分析と線形モデル

– 最小二乗法について

• 検定

• モデル選択


21

回帰と線形モデル

• 回帰－よく用いる確率モデルとして

– 回帰は確率モデルの枠組みから見ると少々特殊

回帰モデル

xが与えられたときのyの条件付き分布を平均、分散の正規分布と想定

確率の乗法定理パラメータの合わせ込みにxの分布の形は影響しない

xの分布は考えなくてよい（適当に想定したことにする）

22


• 何が線形？

– パラメータについて線形

• xについては線形でなくてもよい

全て線形モデル！

これを一般化するとカーネル法と呼ばれる一連の手法に繋がる

データについて非線形な構造を処理する一般的な方法

カーネル多変量解析、非線形SVM(カーネルマシン)、etc…

23


• 最小二乗法と最小二乗推定量

– 最小二乗推定量は線形モデルなら最尤推定量に一致

– 最小分散不偏推定量になっている

– パラメータの任意の線形結合について、

は最小分散不偏推定量(ガウス・マルコフの定理)

最小二乗法

について非線形な場合はの関数となる。

24



• 回帰分析

• 検定

– 検定とは何か？（推定と検定の違い）

– 帰無仮説と対立仮説

– 検定のイメージ

– 検定統計量の構成

• モデル選択


25

検定

• 検定は何をするのか？

推定

モデル

データ

推定量を計算

確率モデルを想定し、データを使って推定量を求める

検定

モデル

帰無仮説

検定統計量の分布関数

データ検定統計量

仮説の棄却判定

パラメータ値に対する仮説

26

検定

• 検定における帰無仮説と対立仮説

帰無仮説

正しいのかどうかを確かめたい仮説

対立仮説

帰無仮説が正しくない時に成り立つ仮説

パラメータの1点を定める仮説：単純仮説パラメータの範囲を定める仮説：複合仮説

一般の複合仮説では、検定が複雑になったり発見的な手段を用いる必要があったりする。

・帰無仮説が正しいときに対立仮説を採択する誤り・対立仮説が正しいときに帰無仮説を採択する誤り

第1種の誤り第2種の誤り

第1種の誤りの確率を一定以下に抑えつつ、第2種の誤りの確率を最小化したい

27

検定

• 検定のイメージ

t

適当な統計量（例えばt統計量）

帰無仮説が正しい時のtの分布関数

対立仮説が正しい時のtの分布関数

tの実現値がこの範囲に入っていたら帰無仮説を棄却棄却域

棄却域は普通、帰無仮説が正しいときの統計量の分布関数に対して裾側5%（有意水準5%）となるように定める。

仮説が正しいとするとまず起こらないはずのこと(棄却域)が起こるのは、仮説が間違っているからだ！と考える

28

検定

• 検定統計量の構成

– 検定統計量の構成方法は無数にある

– どの統計量を使うかで検定の良さ（検出力）が変わる

検定統計量の例：t統計量分散未知の正規分布における平均値パラメータの検定（μ0は平均パラメータの帰無仮説）

tは自由度(N-1)のt分布に従うことが分かっている

t分布に基づく検定を構成することができる

29

検定

• 最強力検定とネイマン・ピアソンの補題

最強力検定

対立仮説が成り立つとき、帰無仮説を棄却する確率が最大となる検定方式

•単純帰無仮説を単純対立仮説に対して検定する問題の場合は、ネイマン・ピアソンの補題により最強力検定を明示的に構成できる。

•一般の複合仮説の場合は、最強力検定を構成することは難しい。尤度比検定などの（最強力検定とは限らないが）一般的に適用できる手法を使う。

30



• 回帰分析

• 検定

• モデル選択

– 回帰モデルの例

– 最尤法の限界

– AIC(赤池情報量規準)


31

モデル選択

• 色々なモデルの中でどれが一番良いのか判定したい

0

0.5

1

1.5

2

2.5

3

0 0.2 0.4 0.6 0.8 1

6次回帰モデル

線形回帰モデル例：回帰モデルの次数

いったい何次のモデルが一番妥当なのか？

素直な発想：最尤法の拡張

尤度が一番高いモデルを選べばいいのでは？

常に最高次のモデルが選ばれてしまう

オーバーフィッティング、過学習

32

モデル選択

• 最尤法の限界

モデルデータ実現

データ別の可能性

データ別の可能性

尤度関数計算に使用

×

×最尤法は実現データのみに着目してモデルを作る

モデルが吐く別のデータ（可能性）に対応できない

別のデータでは全く的外れでも、実現データに合ってさえいれば(尤度が高く)採用される。汎化性能が低い

33

モデル選択

• 期待平均対数尤度ーデータの「別の可能性」を考慮

期待平均対数尤度

真の分布でデータ

Xについて平均最大対数尤度（パラメータ値を

最尤推定量としたときの対数尤度）

最大尤度をデータについて平均することで『別の可能性』を考慮に入れる

でも実際はデータの真の分布がわからないので平均を計算できない

期待平均対数尤度の不偏推定量を考えたい！

34

モデル選択

• AIC(赤池情報量規準) －最尤法のバイアス補正

実データを用いた最大対数尤度と期待平均対数尤度の間のバイアスを近似的に計算することができる

最大対数尤度のバイアス補正

最大対数尤度バイアス補正項

AIC(赤池情報量規準)

パラメータが多すぎることによるペナルティ

ダミー変数（平均されて消える）

データ

35

モデル選択

• バイアス補正の効果

– 尤度最大で選んだ場合は、モデルの次数が大きいほど良いとみなされる

– AIC最小(符号に注意！)で選んだ場合は、モデルの複雑さが適度に補正される

– 情報量基準

(Information Criterion)は

確率モデルの構成法により

AIC,TIC,BICなど様々ある

AIC最小モデル

尤度最大モデル(6次まで)

36



• 回帰分析

• 検定

• モデル選択


– ベイズ統計学とは？

– ベイズの定理と事前分布

– ベイズ推定

作成者の力量不足により、ベイズの項目については表面的な色彩がより強いものとなっています。至らない点など、ご指摘頂ければ幸いです。

37

ベイズ統計学の初歩

• ベイズ統計学とは？

– 新しい！…わけではない(Thomas Bayes,1763)

– 「物事が起こる確率」だけではなく、「物事が起こったとき、その原因の確率」を考える。

風邪を引いた

原因

咳をした

結果風邪を引いた人は確率0.9で咳をする

頻度主義的考え方

ベイズ的考え方

風邪のせい咳をした

咳をした人が風邪を引いている確率は0.8である

原因と結果の因果関係を逆転して考える

38


• 典型的な疑問点

– 風邪かどうかはもう決まっているので、確率も何もないんじゃないか？

• (確率1で断定できるような)十分な情報があればその通りです。

• 不確実性（確率）と不完全情報（情報が足りない）を同じに扱うという考え方です。（主観確率）

– 最尤法と同じじゃない？（「結果データが起こる確率」に着目）

• 適当な前提の下で同じです。（事前分布が定数）

39


• ベイズの定理と事前分布

ベイズの定理

Aが起こったという条件の下でBが起こる条件付き確率

：

原因（A）と結果（B）を入れ換えることができる

ただし、原因Aの確率分布を知らなければならない

事前分布

事前分布は観察前に持っている経験や情報、信念を反映・「経験的に、この人は0.3の確率で風邪を引いていそうだ」・「情報が無いのでこのメールがSPAMかどうかは五分五分だ」

40


• ベイズ推定

– パラメータ推定の場合、原因がパラメータで結果がデータに対応する

尤度関数

データXが得られたとき、パラメータ値がθである確率

41


• ベイズ推定

– 色々な方法がある。

– 基本的には、ベイズ統計学で現れるのは推定量の単一の値ではなく推定量の確率分布

頻度主義的ベイズ的

単一の推定値が欲しい場合は何らかの縮約をする必要がある

42


• ベイズ推定

MAP推定

事後分布を最大化

事後分布の期待値

事後分布におけるパラメータの期待値

その他にも、期待損失最小化などの方法がある

43


• ベイズ的な考え方は何が嬉しいのか？– モデルの不確実性を直接扱うことができる

• パラメータの（事前、事後）分布が不確実性を表現

– 柔軟なモデリングが可能

• 階層ベイズモデルなどを用いることで、より直観をストレートにモデル化することができる（参考文献を参照）

• ベイズ的な考え方の問題点

– どこかで必ず事前分布を恣意的に決めなければならない（無情報量事前分布とかもあるが…）

– 計算が難しくなりがち

• ベイズの定理を用いる際に本質的に高次元の多重積分が必要になる

…その他にも諸説があります

44

まとめ

• 統計学の基本的な考え方と、少しアドバンストなトピックを眺めました。

• 実際は個々の項目について非常に複雑な発展的内容があるものの、基本を押さえておけば何とか追える…んじゃないかと思います。

• 確率過程や時系列解析、学習理論、情報理論との関連など、ここでは全く触れなかった分野もたくさんあります。

– でも基本は同じです！

確率モデルを考えて、データに合わせ込む

45

参考文献

• 統計学全般

– 入門統計学/共立出版• 学部1年の講義で買わされたもの。改めて読むと意外とわかりやす

い。初心者向け。ネイマン・ピアソン流の古典統計学で、ベイズ的なトピックはない。

– キーポイント確率・統計/岩波書店

• わかりやすいが範囲は基本的な内容のみで広くない。その割に中心極限定理の証明が載っていたりする。

– 自然科学の統計学/東京大学出版会

• 記述は難しめだが、広範で深い記述。実験データ分析のトピックもあり実戦的（たぶん）。

– 入門数理統計学/培風館

• 統計学の理論的な背景をきちんと書いている割に、同様の他書に比べわかりやすい。部分的にしか読んでいない。

46

参考文献

• モデル選択

– 統計科学のフロンティア3「モデル選択」/岩波書店

• 情報量規準に基づくモデル選択がわかりやすい。後半はより情報理論的な話が書いてある（と思われる）。

– 情報量統計学/共立出版

• モデル選択とその周辺。古い本だが、普通の本にはあまり載っていないことが書いてあって面白い（と思う）。

– Model Selection and Multi-Model Inference/Springer

• 情報量規準と尤度比検定など、どういう状況で何を使うべきか、実践的な基礎が書いてある（らしい）。

• 多変量解析

– 統計科学のフロンティア1「統計学の基礎」

• 多変量解析が簡潔にまとまっている。「統計学の基礎」とは言い難いが…。

47

参考文献

– カーネル多変量解析/岩波書店

• カーネル法を用いて非線形系に拡張された多変量解析の本。わかりやすいらしい。

• ベイズ統計学

– 統計科学のフロンティア4「階層ベイズモデルとその周辺」• ベイズモデルの便利さがわかりやすく理解できる。

• 数値計算

– 統計科学のフロンティア12「計算統計2 マルコフ連鎖モンテカルロ法とその周辺」

• サンプリングなどの数値的な手法が詳しく載っている。語り口が面白い。

Technology

Introduction to statistics