27
Rによるやさしい統計学 62つの平均値を比較する #TokyoR 28 th 2013/01/26 @horihorio

第6章 2つの平均値を比較する - TokyoR #28

Embed Size (px)

Citation preview

Page 1: 第6章 2つの平均値を比較する - TokyoR #28

Rによるやさしい統計学 第6章 2つの平均値を比較する

#TokyoR 28th

2013/01/26

@horihorio

Page 2: 第6章 2つの平均値を比較する - TokyoR #28

自己紹介

1 / 26 2013/01/26 2つの平均値を比較する

• Twitter ID:

@horihorio

• お仕事:

データマイニング・コンサルタント

(金融の分析で6年程)

• 興味事項:

統計/機械学習/DB/R/Finance/金融業/会計

• 過去の発表内容:

ここ:http://www.slideshare.net/horihorio

Page 3: 第6章 2つの平均値を比較する - TokyoR #28

違いが分かる人になる。

第6章のゴール

2 / 26 2013/01/26 2つの平均値を比較する

【例題】センター英語で、現役vs浪人で差はあるか?

謎の手法 (?)でデータを入手 (入手方法はあとで)

現役(N= 411734):

153, 115, 109, 100, 35, 154, 71, 91, 52, 122, …

浪人(N= 102933) :

163, 123, 162, 139, 40, 184, 121, 61, 90, 193, …

Page 4: 第6章 2つの平均値を比較する - TokyoR #28

2013/01/26 3 / 26

◇ お話内容◇

1. 【第5章の復習】

仮説検定の発想

2. 検定統計量のイメージ

3. 2つの平均値を比較する

2つの平均値を比較する

Page 5: 第6章 2つの平均値を比較する - TokyoR #28

統計的仮説検定の一般的な手順(P.111)

4 / 26 2013/01/26 2つの平均値を比較する

手順 やること

1 母集団に関する帰無仮説と対立仮説(両側or片側検定)を設定する

2 検定統計量を選ぶ

3 有意水準αの値を決める

4 (データを収集した後)データから検定統計量の実現値を求める

5 検定統計量の実現値が棄却域に入れば帰無仮説を棄却して、対立仮説を採択する。棄却域に入らなければ、帰無仮説を採択する

1. 仮説検定の発想

Page 6: 第6章 2つの平均値を比較する - TokyoR #28

例:以下の成果を仮説検定したい

5 / 26 2013/01/26 2つの平均値を比較する

1. 仮説検定の発想

Page 7: 第6章 2つの平均値を比較する - TokyoR #28

いったん、例えば

否定したいこと:

(今の体重)-(1年前の体重)>0

を考え、

否定したいことの発生確率が高い/低い

で評価する。

6 / 26 2013/01/26 2つの平均値を比較する

1. 仮説検定の発想

帰無仮説

Page 8: 第6章 2つの平均値を比較する - TokyoR #28

-8 -6 -4 -2 0 2

0.0

00

.05

0.1

00

.15

0.2

0

yokkunsの体重増加

発生確率

-2 0 2 4 6 8 10

0.0

00

.05

0.1

00

.15

0.2

0

yokkunsの体重増加

発生確率

体重増加~N(5,2) 体重増加~N(-4,2)

7 / 26 2013/01/26 2つの平均値を比較する

1. 仮説検定の発想

体重増加

99.1% 2.7%

体重減少

平均5, 分散2の

正規分布に従う

Page 9: 第6章 2つの平均値を比較する - TokyoR #28

2013/01/26 8 / 26

◇ お話内容◇

1. 【第5章の復習】

仮説検定の発想

2.検定統計量のイメージ

3. 2つの平均値を比較する

2つの平均値を比較する

Page 10: 第6章 2つの平均値を比較する - TokyoR #28

P143:独立な2群のt検定統計量

が、自由度 のt分布に従う

検定統計量のイメージを知ってほしい (ゴマカシ有だけど…)

(P.4の手順2)検定統計量って難しそう…

9 / 26 2013/01/26 2つの平均値を比較する

2. 検定統計量のイメージ

Page 11: 第6章 2つの平均値を比較する - TokyoR #28

U(1) U(2)

A B A B

どっちが「同じっぽい」?

10 / 26 2013/01/26 2つの平均値を比較する

2. 検定統計量のイメージ

こちらが

大きい

Page 12: 第6章 2つの平均値を比較する - TokyoR #28

図1:平均が10と12

図2:平均が10と16

どっちが「同じっぽい」?

11 / 26 2013/01/26 2つの平均値を比較する

2. 検定統計量のイメージ

8 10 12 14 16

0.0

0.1

0.2

0.3

0.4

8 10 12 14 16 18

0.0

0.1

0.2

0.3

0.4

こちらが

大きい

Page 13: 第6章 2つの平均値を比較する - TokyoR #28

4 6 8 10 12 14 16

0.0

0.1

0.2

0.3

0.4

前ページの図を考えてみる

12 / 26 2013/01/26 2つの平均値を比較する

2. 検定統計量のイメージ

差= -6

Page 14: 第6章 2つの平均値を比較する - TokyoR #28

4 6 8 10 12 14 16

0.0

0.1

0.2

0.3

0.4

前ページの図を考えてみる

13 / 26 2013/01/26 2つの平均値を比較する

2. 検定統計量のイメージ

差= -1

Page 15: 第6章 2つの平均値を比較する - TokyoR #28

4 6 8 10 12 14 16

0.0

0.1

0.2

0.3

0.4

前ページの図を考えてみる

14 / 26 2013/01/26 2つの平均値を比較する

2. 検定統計量のイメージ

差= 0

Page 16: 第6章 2つの平均値を比較する - TokyoR #28

4 6 8 10 12 14 16

0.0

0.1

0.2

0.3

0.4

前ページの図を考えてみる

15 / 26 2013/01/26 2つの平均値を比較する

2. 検定統計量のイメージ

差= 1

Page 17: 第6章 2つの平均値を比較する - TokyoR #28

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

(何か変換した)値の差

(全体を

1に調整した)重なる面積

この分布の近似が、(ヤヤコシイ)検定統計量

値の差×重なる面積 のグラフを考える

16 / 26 2013/01/26 2つの平均値を比較する

2. 検定統計量のイメージ

Page 18: 第6章 2つの平均値を比較する - TokyoR #28

• 検定統計量は、近似の前提が違うと

「INPUT:データ / OUTPUT:確率」にならない

検定統計量は近似だよ!

17 / 26 2013/01/26 2つの平均値を比較する

2. 検定統計量のイメージ

P.148 表6.1 t検定の前提条件

1 標本抽出が無作為に行われていること(無作為抽出)

2 母集団の分布が正規分布にしたがっていること (正規性)

3 2つの母集団の分散が等質であること (分散の等質性)

Page 19: 第6章 2つの平均値を比較する - TokyoR #28

2013/01/26 18 / 26

◇ お話内容◇

1. 【第5章の復習】

仮説検定の発想

2. 検定統計量のイメージ

3. 2つの平均値を比較する

2つの平均値を比較する

Page 20: 第6章 2つの平均値を比較する - TokyoR #28

• 前提3:分散の等質性

2つの比較の前に:P.17の前提3つをチェック!

19 / 26 2013/01/26 2つの平均値を比較する

3. 2つの平均値を比較する

分散は同じ? Welchの検定

t検定

[異なる]

[等しい]

大抵こっちに

なる?

Page 21: 第6章 2つの平均値を比較する - TokyoR #28

• 前提2:正規性

データが多いなら、正規分布とみなす

【参考】母集団と標本

(Tokyo.R #25 @dichika さん資料)

• 前提1:無作為抽出

• 大切だけど、ここでは省略

• 統計学に加え、分析設定のおはなし

20 / 26 2013/01/26 2つの平均値を比較する

3. 2つの平均値を比較する

2つの比較の前に:P.17の前提3つをチェック!

Page 22: 第6章 2つの平均値を比較する - TokyoR #28

【謎のデータ分析】 手順1. 等分散チェック

21 / 26 2013/01/26 2つの平均値を比較する

3. 2つの平均値を比較する

> ls() [1] "geneki" "ronin" >

> var.test(geneki, ronin) F test to compare two variances data: geneki and ronin F = 1.2459, num df = 411733,

denom df = 102932, p-value < 2.2e-16 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 1.235178 1.256706 sample estimates: ratio of variances 1.245919

等分散の確率

⇒小さいので異分散

Page 23: 第6章 2つの平均値を比較する - TokyoR #28

【謎のデータ分析】 手順2. Welchの検定

22 / 26 2013/01/26 2つの平均値を比較する

3. 2つの平均値を比較する

> t.test(geneki,ronin, var.equal=FALSE) Welch Two Sample t-test data: geneki and ronin

t = -197.3022, df = 172848.2, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -23.64578 -23.18061 sample estimates: mean of x mean of y 120.8260 144.2392

差=0の確率は小さい

⇒差≠0 平均値が異なる!

Page 24: 第6章 2つの平均値を比較する - TokyoR #28

【ご参考】 等分散の場合の検定

23 / 26 2013/01/26 2つの平均値を比較する

3. 2つの平均値を比較する

> t.test(geneki, ronin, var.equal=TRUE) Two Sample t-test data: geneki and ronin t = -184.739, df = 514665, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -23.66159 -23.16480 sample estimates: mean of x mean of y 120.8260 144.2392

Page 25: 第6章 2つの平均値を比較する - TokyoR #28

• 対応のあるデータって?

母集団を、何かを施術/未施術 で分割したペア

例:怒涛の英語力が身につく学校に

行った/行かなかった 場合の比較

• この場合は、検定統計量が異なる

• Rでは、t.test(x, y, paired=TRUE) とする

• Rでの実例は、P.150~156を参照

【補足】対応のあるt検定

24 / 26 2013/01/26 2つの平均値を比較する

3. 2つの平均値を比較する

Page 26: 第6章 2つの平均値を比較する - TokyoR #28

で、データの入手源 → 下記コードだったり…

25 / 26 2013/01/26 2つの平均値を比較する

3. 2つの平均値を比較する

set.seed(666) # 同一乱数生成 # 初期乱数付与 geneki <- rnorm(n=519867*.792, mean=123.3, sd=40) ronin <- rnorm(n=519867*.198, mean=152.2, sd=30) # 全数値が0~200になるまで乱数で置換 while( length(which(geneki<0|geneki>200)) ) { geneki <- replace(geneki, which(geneki<0|geneki>200) , rnorm(length(which(geneki<0 | geneki>200)), mean=123.3, sd=40)) } while( length(which(ronin<0|ronin>200)) ) { ronin <- replace(ronin, which(ronin<0|ronin>200) , rnorm(length(which(ronin<0 | ronin>200)), mean=50, sd=60)) } # 整数置換 geneki <- round(geneki); ronin <- round(ronin)

数値参考源:

• 昨年のセンター試験

• ベネッセ・駿台の

自己採点集計

実は:両母集団とも

正規分布でない…

Page 27: 第6章 2つの平均値を比較する - TokyoR #28

26 / 26 2013/01/26 2つの平均値を比較する

まとめ

• Welch検定/t検定:

2つの母集団に差がある?を知りたい

• 検定で重要なこと:

検定統計量の仮定に当てはまる?

• Rのコマンド:

1. 等分散か?: var.test

2. 差がある? :

t.test(x, y, var.equal=FALSE / TRUE)