57
統計的推測 Statistical Inference 推定と検定 母集団と標本 点推定 区間推定 2007.07.04 母平均のまとめ追加 2007.05.25 情報統計学 R より編集 2008.06.20 一部編集 2012.07.06 不偏分散 20120713 信頼区間

K070k80 点推定 区間推定

Embed Size (px)

Citation preview

Page 1: K070k80 点推定 区間推定

統計的推測  Statistical Inference

推定と検定母集団と標本点推定区間推定

2007.07.04 母平均のまとめ追加2007.05.25 情報統計学 Rより編集

2008.06.20 一部編集2012.07.06 不偏分散

20120713 信頼区間

Page 2: K070k80 点推定 区間推定

母集団と標本• 母集団 population

調査したい全体 θ1θ2...θN

母集団の特性値• 母平均    μ• 母分散    σ2

全数調査• 時間がかかる• 費用がかかる• もともと不可能な場合

Page 3: K070k80 点推定 区間推定

標本調査 sample survey

• 標本 sample 母集団よりランダムに標本を抽出し、観測してデータ    x1,x2,...,xn

が得られる データの値は標本により異なる 確率変数    X1,X2,...,Xn

の実現値

母集団

標本

Page 4: K070k80 点推定 区間推定

可能な標本の組数

• 有限母集団の場合母集団の構成要素(岡山大学の全学生数)    N        (    N=13,000    )

標本数    n        (   n=10      )

• 可能な標本の組数   M =  NCn

• どの組を標本に選ぶか?!

Page 5: K070k80 点推定 区間推定

無作為抽出 random sampling

• 独立性の保証 乱数

• 乱数表• 乱数賽(サイコロ)

• 非復元無作為抽出 without replacement• 復元無作為抽出  with replacement• 層別抽出法      stratified sampling

Page 6: K070k80 点推定 区間推定

乱数賽

Page 7: K070k80 点推定 区間推定

乱数表

Page 8: K070k80 点推定 区間推定

乱数表

• 通常6頁• さいころで利用する頁• 鉛筆を落として最初に使用する値

• 必要な桁数で• 通常下に読んでいく

Page 9: K070k80 点推定 区間推定

47都道府県

• 1 北海道• 2 青森• 3 岩手• 4 秋田• 5 宮城• 6 山形• 7 福島• 8 茨城• 9 栃木• 10 群馬• 11 埼玉• 12 千葉• 13 東京• 14 神奈川• 15 新潟• 16 富山• 17 石川• 18 福井• 19 山梨• 20 長野• 21 岐阜• 22 静岡• 23 愛知

• 24 三重• 25 滋賀• 26 京都• 27 大阪• 28 兵庫• 29 奈良• 30 和歌• 31 鳥取• 32 島根• 33 岡山• 34 広島• 35 山口• 36 徳島• 37 香川• 38 愛媛• 39 高知• 40 福岡• 41 佐賀• 42 長崎• 43 熊本• 44 大分• 45 宮崎• 46 鹿児島• 47 沖縄

Page 10: K070k80 点推定 区間推定

層別無作為抽出法• 市区町村、町丁字別、性別、学年別のように、できるだけ均一な集団(層)に分け

• 各層から無作為抽出

• 各層からどんな割合で標本をとるか 各層の大きさに比例して 各層のばらつきに比例して

Page 11: K070k80 点推定 区間推定

推定と検定

• 推定 estimation 母集団の特性値に何の情報もない 特性値の値はどんな値か知りたい

• 点推定   point estimation• 区間推定 interval estimation/ confidence interval

• 検定 testing 母集団の特性値についてある情報を持っている その情報が正しいか否かを知りたい

• 帰無仮説と対立仮説null hypothesis/ alternative hypothesis

Page 12: K070k80 点推定 区間推定

点推定• 仮想的な母集団

i 名前 θi1 A 1482 B 1603 C 1594 D 1535 E 1516 F 140

> p1 <- c(148, 160, 159, 153, 151, 140) > p1 [1] 148 160 159 153 151 140> mean(p1) [1] 151.8333  母平均> var(p1) [1] 54.96667  母分散

Page 13: K070k80 点推定 区間推定

標本の取り出し方

標本 x1 x2 x3 x4 標本平均

1 A B C D 148 160 159 153 155.00

2 A B C E 148 160 159 151 154.50

3 A B C F 148 160 159 140 151.75

4 A B D E 148 160 153 151 153.00

5 A B D F 148 160 153 140 150.25

6 A B E F 148 160 151 140 149.75

7 A C D E 148 159 153 151 152.75

8 A C D F 148 159 153 140 150.00

9 A C E F 148 159 151 140 149.50

10 A D E F 148 153 151 140 148.00

11 B C D E 160 159 153 151 155.75

12 B C D F 160 159 153 140 153.00

13 B C E F 160 159 151 140 152.75

14 B D E F 160 153 151 140 151.00

15 C D E F 159 153 151 140 150.75総平均 151.833

> mean(c(159, 153, 151, 140)) [1] 150.75途中省略

> mean(c(159, 153, 151, 140)) [1] 150.75> mean(c(155.00, 154.50, 151.75, 153.00, 150.25, + 149.75, 152.75, 150.00, 149.50, 148.00, + 155.75, 153.00, 152.50, 151.00, 150.75)) [1] 151.8333

1512

5646 =

⋅⋅=== CCM nN

Page 14: K070k80 点推定 区間推定

14

情報統計学

点推定

Page 15: K070k80 点推定 区間推定

15点推定と区間推定

• 未知母数 ( パラメータ )θを推定するには 2つの方法がある 区間推定

• 区間で当てる 点推定

• 点で当てる たった一組のデータで求めた値が,母平均の値などに一致する可能性は少ない

• 区間推定 θ1 θ θ≦ ≦ 2のようにある幅をつけて母数 θを推定する方法

• パラメータ θが入るであろう範囲を一定の信頼度(確率)で指定• 点推定

θ=θ0として,幅をつけずに一個の推定値で推定 一点で当てる

Page 16: K070k80 点推定 区間推定

16点推定に望まれる性質

• 不偏性 標本に基づいて推定した値が,偏っていない

• 何回も推定を繰り返すと,平均的には,推定したい値 θにあっている

• 一致性 nを Nに近づけたとき,全数調査の値,母集団のパラメータ θに一致してほしい

• 有効性 一致性,不偏性を満たすものは多数 推定量の分散が小さいほうが望ましい

• 最尤法 あとで説明。

Page 17: K070k80 点推定 区間推定

17不偏性

何回も推定を繰り返すと,平均的に は推定したい値 θ に合っている

Page 18: K070k80 点推定 区間推定

不偏性 unbiasedness

.

.

.

標本 1  推定値

標本 2  推定値

標本 L  推定値Lθ

θ

θ

ˆ

ˆ

ˆ

2

1

母集団

Page 19: K070k80 点推定 区間推定

不偏性• 推定値の期待値が推定したい値

• 平均的にはうまい値を求めている大きめの値、小さめの値に偏っていない

LL

E

θθθ

θθˆˆˆ

ˆ

...21

)(

+++=

=

Page 20: K070k80 点推定 区間推定

20不偏性

Page 21: K070k80 点推定 区間推定

21

Page 22: K070k80 点推定 区間推定

22一致性

Page 23: K070k80 点推定 区間推定

23有効性

Page 24: K070k80 点推定 区間推定

24

• 推定量の分散は小さいほうが望ましい。

が小さい推定量ほど,「有効」 (effective)な推定量

Page 25: K070k80 点推定 区間推定

25最尤法

• P103 教科書 図 7.1 図 7.2

Page 26: K070k80 点推定 区間推定

26

Page 27: K070k80 点推定 区間推定

27

Page 28: K070k80 点推定 区間推定

28

尤度関数  L(θ) を最大にする θ

Page 29: K070k80 点推定 区間推定

29正規分布の平均の点推定

Page 30: K070k80 点推定 区間推定

30正規分布の母分散の点推定

Page 31: K070k80 点推定 区間推定

正規分布の平均の点推定

• 標本平均が不偏性一致性有効性 (BLUE)最尤性

• のすべての意味で、一番良い推定量である。

∑=i

iXn

1µ̂

Page 32: K070k80 点推定 区間推定

正規分布の分散の点推定

• 平均 μが既知の場合

• 平均 μが未知の場合 最尤推定 不偏推定

=

=

=

−−

=

−=

−=

n

ii

n

ii

n

ii

XXn

XXn

Xn

1

22

1

22

1

22

)(1

1

)(1

)(1

σ

σ

µσ

Page 33: K070k80 点推定 区間推定

不偏分散

2

22

22

1

22

1

2

1

1

22

)1(

])[(])([

])()([

])}(){([

])([][

σ

σσ

µµ

µµ

µµ

−=

−=

−−−=

−−−=

−−−=

−=

=

=

=

=

n

nnn

XnEXE

XnXE

XXE

XXESE

i

n

i

i

n

i

i

n

i

n

ii

2222

2

1

22

)1(1

1][

1

1][

)(1

1

1

1

σσ =−−

=−

=

−−

=−

= ∑=

nn

SEn

UE

XXn

Sn

U i

n

i

Page 34: K070k80 点推定 区間推定

34レポート

Page 35: K070k80 点推定 区間推定

35

Page 36: K070k80 点推定 区間推定

36

情報統計学

区間推定

Page 37: K070k80 点推定 区間推定

37区間推定

• たった一組のデータで求めた値が,母平均の値に一致する可能性は少ない。

• 区間を求める「区間推定」を考える求める区間の幅はできるだけ狭く定めた区間内にパラメータが入っている確率はできるだけ大きくなるように

• 同時に満たすことは難しい確率に条件を付ける

• 信頼度 1-αを定める。• 求めた推定区間の中にパラメータが入っている確率が

1-α 以上になる区間のなかで,幅をできるだけ狭くする

Page 38: K070k80 点推定 区間推定

38信頼区間

Page 39: K070k80 点推定 区間推定

39母平均 μの区間推定(母分散 σ2が既知の場合)

Page 40: K070k80 点推定 区間推定

信頼区間の幅 40

> xseq<-seq(0.001, 0.049, 0.0001)> cL<-qnorm(xseq)> cU<-qnorm(1-0.05+xseq)> Ran<-cU-cL> plot(Ran)> which.min(Ran)[1] 241> points(241,Ran[241],col="red")> xseq[241][1] 0.025> cbind(cL,cU,Ran) cL cU Ran [1,] -3.090232 1.654628 4.744860 [2,] -3.061814 1.655614 4.717428 [3,] -3.035672 1.656602 4.692274省略[239,] -1.963398 1.956553 3.919951[240,] -1.961678 1.958256 3.919934[241,] -1.959964 1.959964 3.919928[242,] -1.958256 1.961678 3.919934[243,] -1.956553 1.963398 3.919951以下省略 0 100 200 300 400 500

4.0

4.2

4.4

4.6

Index

Ra

n

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x

dn

orm

(x)

Page 41: K070k80 点推定 区間推定

確率 95%の区間 41

Page 42: K070k80 点推定 区間推定

42母平均 μの区間推定(母分散 σ2が既知の場合)

Page 43: K070k80 点推定 区間推定

43シミュレーション

• R の関数 rnorm は N(0, 1)に従う乱数を生成 これを母集団と考えて, 10個の乱数(標本)をとり,

母平均の信頼度 1-α=0.95 の信頼区間を作る

Page 44: K070k80 点推定 区間推定

44シミュレーション

Page 45: K070k80 点推定 区間推定

45

乱数によっては,母平均 μ=0を含む場合と,含まない場合がある

Page 46: K070k80 点推定 区間推定

46

• 区間推定を 100回繰り返して,確かめてみる。 区間を 100個作る。> for(i in 1:100){

print(conf.interval(rnorm(10), 0.95, 1))

}

• 関数 sim.conf.interval シミュレーションの回数,標本数,信頼度 標本数 n=10 ・信頼度 1-α=0.95・シミュレーション回数 5回 sim.conf.interval(5, 10, 0.95)

Page 47: K070k80 点推定 区間推定

47

• シミュレーション回数を 100回にして, 100組の信頼区間• 真の母平均の値 μ=0 を含まない信頼区間だけを表示

Page 48: K070k80 点推定 区間推定

48

• グラフにして表示• r <- sim.conf.interval(100, 10, 0.95)

• plot.conf.interval(r)

-2 -1 0 1 2

020

40

60

80

100

gx

gy

Page 49: K070k80 点推定 区間推定

49母平均 μの信頼区間(母分散 σ2が未知のとき)

• 母分散 σ2が未知のときは,先ほどの方法は使えない• ここで次の性質を使う。( σ2は未知なため, σは使えない)

Page 50: K070k80 点推定 区間推定

50母平均 μの信頼区間(母分散 σ2が未知のとき)

• P69

Page 51: K070k80 点推定 区間推定

51母平均 μの信頼区間(母分散 σ2が未知のとき)

Page 52: K070k80 点推定 区間推定

52信頼区間の計算

Page 53: K070k80 点推定 区間推定

53シミュレーション

Page 54: K070k80 点推定 区間推定

54

-2 -1 0 1 2

020

40

60

80

100

gx

gy

Page 55: K070k80 点推定 区間推定

55信頼区間の幅

母分散が未知の場合は母分散のかわりに,不偏推定値の標本不偏分散を用いているため

・信頼区間の幅がすべて同じ・信頼区間の幅が変わっている

Page 56: K070k80 点推定 区間推定

56演習

• N(0,1)に従う乱数を 999個作成し,小さいほうから 25番目,975番目の値を求め, qnorm関数より, α=0.025の値, α=0.975の値と比較せよ。 並べ替えは sort関数で行うことができる

• sort(x)で xを小さい順に並べ替える– その 1番目の値を見るためには, sort(x)[1]

Page 57: K070k80 点推定 区間推定

57レポート

• N(0,1)に従う乱数を 16個発生させ,その平均を求めることを999回繰り返す。 999個の平均の,平均を求めよ。 小さいほうから 25番目の値と、 975番目の値を求めよ。