18
1 統統統 12/13 統統 ()

統計学 12/13 (木)

Embed Size (px)

DESCRIPTION

統計学 12/13 (木). 講義全体の流れ. 第1部 記述統計:データの特性を記述 第2部 確率論:推測統計への橋渡し 第3部 推測統計:データから全体像を推測  ・推測統計とは  ・母集団平均の区間推定  ・母集団平均の検定  ←今日はここ!. 前回までの内容①. 推測統計の四つのキーワード   母集団 ⇔ 標本(サンプル)   母集団特性値 ⇔ 標本統計量 ⇒母集団の特徴を数値化したものを、データ(標本)から計算した統計量で推測する。 推測統計の二本柱:区間推定と検定 ⇒実はこの二つは表裏一体。. 前回までの内容②. (母集団平均 μ の)区間推定 - PowerPoint PPT Presentation

Citation preview

Page 1: 統計学 12/13 (木)

1

統計学

12/13 (木)

Page 2: 統計学 12/13 (木)

2

講義全体の流れ

第1部 記述統計:データの特性を記述第2部 確率論:推測統計への橋渡し第3部 推測統計:データから全体像を

推測 ・推測統計とは ・母集団平均の区間推定 ・母集団平均の検定  ←今日はここ!

Page 3: 統計学 12/13 (木)

3

前回までの内容①

• 推測統計の四つのキーワード  母集団 ⇔ 標本(サンプル)  母集団特性値 ⇔ 標本統計量⇒ 母集団の特徴を数値化したものを、デー

タ(標本)から計算した統計量で推測する。

• 推測統計の二本柱:区間推定と検定⇒ 実はこの二つは表裏一体。

Page 4: 統計学 12/13 (木)

4

前回までの内容②

• (母集団平均 μ の)区間推定μ の値は未知。

⇒ μ の値を推定するには誤差がつきもの⇒ 誤差を含めて、 μ の値が(例えば9

5%の確率で)どれくらいの範囲に収まるかをデータから推定。

⇒ 方法:中心極限定理の応用

Page 5: 統計学 12/13 (木)

5

前回の復習:区間推定

 

.

95

-1.

)1,0(

21,025.0

21,025.0

12

22

2

2

nstXnstX

tntns

Xt

s

Nn

XZ

nn

n

%の信頼区間はの信頼係数

分布の自由度 ~

を代入。散は未知なので、標本分

~中心極限定理より、

分散。は母集団平均と母集団と

Page 6: 統計学 12/13 (木)

6

今日やること:(仮説の)検定

• 母集団平均 μ の値に関して仮説を立てる(例: μ= 3)。

• その仮説を受け容れるべきか却下すべきか「検定」する。(例: μ= 3 or μ≠ 3?)

重要ポイント① 再び「中心極限定理」を使う② 区間推定と検定は表裏一体(次頁参照)

Page 7: 統計学 12/13 (木)

7

考え方:区間推定から検定へ

前回例:某工場製の電球の平均寿命 μ

Q:「電球の平均寿命 μ が 2500 時間である」という仮説は受け容れられるか否か?

⇒ 信頼係数95%で区間推定をやると2537.78 時間≦ μ 2648.62≦ 時間。

⇒ 2500 時間かもしれないが、その可能性は5%以下。よって、仮説は却下してよい。

Page 8: 統計学 12/13 (木)

8

検定における慣例:背理法

重要:二つの仮説( H0 と H1 )を立てる。① 主張したいことは、 H1 (対立仮説)に。② その反対の内容を H0 (帰無仮説)に。

H0 のもとで議論を展開して矛盾を導く。⇒ 矛盾があれば、 H0 を棄却。 H1 受け容れ。注:いつも矛盾が見つかるとは限らない。

Page 9: 統計学 12/13 (木)

9

検定の手順:中心極限定理

例: H0 : μ =3、 H1 : μ≠ 3

を受け容れる。却下し、を「有意水準5%で」③最初に想定した

ので、矛盾といえる。確率でしか起こらないなら僅か5%の、或いは②もし

~を計算:3の下で①

3:H1

3:H0

96.196.1

).1,0(3

:0H2

ZZ

Nn

XZZ

Page 10: 統計学 12/13 (木)

10

検定の修正

母集団分散 σ2 の値は未知←要推定

う。分布(前回参照)に従の自由度

~~

を再計算。  これを代用して

-1

)1,0(

1

)(

122

1

2

2

tn

tns

XtN

n

XZ

Zn

XX

s

nXX

n

ii

Page 11: 統計学 12/13 (木)

11

仮説検定の例

• 某工場で製造中の電球の平均寿命を推定• 10個の電球を標本調査。• 標本の平均は 2,593.2 時間、標準偏差は

77.48 。• t‐ 分布表より、自由度9(=10-1)

の時、 2.5 %の臨界値は 2.262 。⇒Q :平均寿命は 2700 時間といえるか?

Page 12: 統計学 12/13 (木)

12

仮説検定の例(続)

 

時間といえない。結論:電球の寿命がを採択。を却下。有意水準5%で

という値が変。矛盾。最初に想定した可能性は5%未満。検定量がこの値を取る

:   :

2700

H1H0

2700

-

262.2)9(359.41048.77

27002.2693

2700H12700,H0

025.0

t

tt

Page 13: 統計学 12/13 (木)

13

付論①:有意水準について

• 有意水準5%で H0 を棄却する意味• H0 が正しい可能性は5%以下なので、 H0

を棄却し、 H1 を受け容れる。⇒ しかし、 H0 が正しい可能性も5%残る。⇒ 用語:第1種の誤りH0 が本当は正しいのに、誤って棄却するこ

と⇒ 第1種の誤りが起こる確率=有意水準

Page 14: 統計学 12/13 (木)

14

第1種の誤りの特性

• 小標本(t - 分布から境界値)なのに大標本法を採る(正規分布から境界値)と、第1種の誤り(正しい H0 を否定)の確率が高い。

例:自由度 10 で t = 2.0 。 H0 は正しいとする有意水準5%の境界値はそれぞれ t - 分布: 2.228  →  H0 を棄却できない 正規分布: 1.96  →  H0 を棄却できる

Page 15: 統計学 12/13 (木)

15

第2種の誤り

• 第2種の誤りとは「本当は誤っている H0 を棄却できないこ

と」。

 第1種の誤りの可能性を小さくするには、有意水準を下げる(例:5%→1%)こと。

→ その場合、第2種の誤りの可能性が高くなる(棄却域が狭くなってしまうから)。

Page 16: 統計学 12/13 (木)

16

第1種の誤りと第2種の誤り

    H0 を採択 H0 を棄却

H0 は正しい

○ 第1種誤り

H0 は誤り 第2種誤り ○

Page 17: 統計学 12/13 (木)

17

付論②:両側検定と片側検定

(例) H0 : μ =3のとき、

両側検定H1 : μ≠ 3 ←等号の両側を考慮

片側検定 ↓等号の片側だけを考慮H1 : μ >3 (あるいは、 H1 : μ <3)

Page 18: 統計学 12/13 (木)

18

片側検定のための境界値

• 有意水準5%で検定をするならば、境界値として、

   小標本:t 0.05 (≠t 0.025 )

大標本: 1.645 (≠ 1.96 )

↑ なぜそうなるのかは確率分布図を描いて理解せよ。