37
数数数数数数 10 1 数数数数数 ( 数数数数数数数数数数数?1 数数数数数

数理統計学 ( 第十回) ノンパラ検定とは?1

Embed Size (px)

DESCRIPTION

数理統計学 ( 第十回) ノンパラ検定とは?1. 浜田知久馬. パラとノンパラ. パラメトリック 特定の分布 ( 狭義には正規分布)を仮定した方法   分布はパラメータ(例, μ , σ 2 )によって定まる . e.g. t検定 ノンパラメトリック 特定の分布を仮定しない方法 (狭義にはデータの順位情報のみを用いる方法 ) e.g. ウイルコクソン検定. パラとノンパラの仮定. パラ. ノンパラ. 赤:帰無仮説. 緑:対立仮説. パラとノンパラ. パラ ノンパラ - PowerPoint PPT Presentation

Citation preview

Page 1: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 1

数理統計学 ( 第十回)ノンパラ検定とは?1

浜田知久馬

Page 2: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 2

パラとノンパラ• パラメトリック 特定の分布 ( 狭義には正規分布)を仮定した方法  分布はパラメータ(例, μ , σ2 )によって定ま

る .

e.g. t検定• ノンパラメトリック 特定の分布を仮定しない方法 (狭義にはデータの順位情報のみを用いる方法 )

e.g. ウイルコクソン検定

Page 3: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 3

パラ

ノンパラ

赤:帰無仮説

緑:対立仮説

パラとノンパラの仮定

Page 4: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 4

パラとノンパラ

パラ ノンパラ位置の指標 平均 メディアンバラツキの指標 SD 4分位偏差1標本検定 t 検定 (unpaired) ウイルコクソン   符号検定2標本検定 ( 対応) t 検定 (paired) ウイルコクソン2標本検定 t 検定 (unpaired) ウイルコクソン   サベージ, FW 等

Page 5: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 5

パラとノンパラ パラ ノンパラ多群比較 1-way ANOVA KW多群比較 (paired) 乱塊法 Friedman相関係数 Pearson Spearman Kendall用量相関 回帰分析 Jonckheere多重比較 Dunnett Steel Tukey Steel-dwass Willimas Shirley-Willimas

Page 6: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 6

パラとノンパラ パラ ノンパラ分布形の仮定 正規分布 必要なし等分散性 仮定 仮定第1種の過誤 ≒ α 常に< α

正規分布のとき ◎ ○外れ値が存在 × ○

変数変換 変 不変N<6 × △料理に例えると 懐石 電子レンジ

Page 7: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 7

ノンパラ検定の仮説X 1, X 2, ・・・ , X N ~分布関数Fを持つY 1, Y 2, ・・・ , Y N ~分布関数Gを持つ帰無仮説H 0 :F=G対立仮説H1:F≠G(両側検定)対立仮説H1:F<G(上側検定)対立仮説H1:F>G(下側検定)

Page 8: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 8

ビタミン E に細胞増殖効果はあるのか?浜君と石君で実験

4枚を通常栄養 4枚をビタミン E 処理(PM11:00)

Page 9: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 9

翌朝 (AM7:30)実験は成功したが,石君は来なかった.

121 118 110

95 90 34

22 12

Page 10: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 10

(PM:2:00) 浜君は考えてみた.ビタミン E 処理群はどれか?

121 118 110

95 90 34

22 12

Page 11: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 11

8枚から4枚を選ぶ組み合わせの数は?

8C 4=(8×7×6×5)/(4×3×2×1)=70 通り ビタミンE群 4枚の細胞数の和 121 118 110 95 444121 118 110 90 439121 118 110 34 383121 118 110 22 371121 118 110 12 361121 118 95 90 424 :

Page 12: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 12

図1 並べ替え分布の幹葉表示と箱ひげ図ビタミン E に増殖効果がなければ全てのパターンは等

しい確率で生じるはず. Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 36 01381 5 | 34 001356812567 12 +-----+ 32 58903578 8 | | 30 7578 4 *--+--* 28 4575 4 | | 26 12245792347 11 | | 24 12567014679 11 +-----+ 22 149 3 | 20 9 1 | 18 69 2 | 16 38 2 | 14 8 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

Page 13: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 13

(PM:4:55) 石君到着合計細胞数 =439

121 118 110

95 90 34

22 12

Page 14: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 14

図1 並べ替え分布の幹葉表示と箱ひげ図和が 439 以上になるのは 2通り:確率 2/70

Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 36 01381 5 | 34 001356812567 12 +-----+ 32 58903578 8 | | 30 7578 4 *--+--* 28 4575 4 | | 26 12245792347 11 | | 24 12567014679 11 +-----+ 22 149 3 | 20 9 1 | 18 69 2 | 16 38 2 | 14 8 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

Page 15: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 15

並べ替え検定の手順1.検定統計量を選択する. e.g. 片方の群の和、順位和、平均値の差2.得られたデータで検定統計量を計算す

る. e.g. 121+118+110+90=4393. permutation によって検定統計量の分布

を調べる.4.得られたデータ以上に極端な場合の頻

度を数え上げる (2/70) .

Page 16: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 16

並べ替え検定permutation test

• ノンパラメトリック検定: α エラーの制御 複雑な仮定を必要としない.• 拡張が容易• 統計量の選択によっては、漸近的には最強力な

検定と同程度の検出力を有する.• 計算に時間がかかる→ハードウエアの進歩 ネットワークアルゴリズム• 正確な検定、 randomization 検定

Page 17: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 17

正確な検定と並べ替え検定exact test and permutation test

• exact test (検定の性質) ( distribution free)

• permutation test (検定の構成原理) ( randomization test)

• permutation test はノンパラメトリック検定• ノンパラメトリック検定≠ permutation test

Page 18: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 18

可能な組み合わせの数(2N!)/(N!N!)

N パターン数 N パターン数 1 2 10 1847562 6 20 1378465288203 20 30 1.1826458×1017

4 70 40 1.0750721×1023

5 252 50 1.0089134×1029

6 924 100 9.0548515×1058

7 34328 128709 48620

Page 19: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 19

並べ替え検定が必要な場合

多 パターン数 少 よい 理論分布による近似 悪い 1) サンプルサイズが小さい場合2) スパースなデータ 3) 外れ値を含んでいる場合4) 結果が微妙な場合

Page 20: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 20

並べ替え検定のプログラムdata ve;do group=0 to 1; do i=1 to 4; input y @@;output;end;end;cards;95 34 22 12121 118 110 90;proc freq data=ve;tables y*group/all;exact pcorr;output out=result pcorr;

Page 21: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 21

並べ替え検定の結果・FREQ プロシジャの出力 H0: 相関 = 0 に対する検定帰無仮説が正しいもとでの漸近標準誤差 0.2040Z 4.0040片側 Pr > Z <.0001両側 Pr > |Z| <.0001正確検定片側 Pr >= r 0.0286両側 Pr >= |r| 0.0571

・ PRINT プロシジャの出力OBS PL_PCORR PR_PCORR P2_PCORR XPL_PCOR XPR_PCOR XP2_PCOR

1 .   .000031141 .000062281 .   0.028571 0.057143

Page 22: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 22

並べ替え分布Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 36 01381 5 | 34 001356812567 12 +-----+ 32 58903578 8 | | 30 7578 4 *--+--* 28 4575 4 | | 26 12245792347 11 | | 24 12567014679 11 +-----+ 22 149 3 | 20 9 1 | 18 69 2 | 16 38 2 | 14 8 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

Page 23: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 23

有限母集団からの非復元抽出大きさ N の有限母集団:a 1, a

2, ・・・ , a N

大きさnの標本を非復元抽出: X1,X

2, ・・・ ,Xn

組合せの数: NC n=

Pr(X= a i1, a i2, ・・・ , a in)=1/NC n

注意  Xi の周辺分布は X1 の周辺分布 ,

(Xi , Xj) の同時分布は (X1 , X2) の同時分布に等しい .( 順番は分布に影響しない)

赤玉と青玉の例を思い出そう.

)!(!

!

nNn

N

Page 24: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 24

非復元抽出

同時にn個取出す

2a6

2a 2

2a52a 3

2a12a 4

2a9

2a82a7

Page 25: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 25

平均と分散・母集団の期待値 ( 母平均 ) と分散(母分

散)

・標本平均 X ・の期待値と分散

        :有限修正項

N

a

N

aa ii

2

2)(

,

   

1][,][

2

N

nN

nXVXE

   

1

N

nN

Page 26: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 26

標本平均と分散

X1,X2, ・・・ ,Xn は独立でないため

nn

n

n

XV

n

XXXVXV

n

n

n

XE

n

XXXEXE

ii

n

ii

n

2

2

21

21

1

21

][

][

Page 27: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 27

標本平均と分散

2

1

221

2

1

,

][

n

XXCovXV

n

XXXVn

XV

XV

jiji

ii

n

ii

Page 28: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 28

標本平均と分散

は?21

2211

2

1

21

21

,

,)1(

,

][

,,

,][][

XXCovn

XXCovnnXnVn

XXCovXV

XV

XXCovXXCov

XVXV

jiji

ii

ji

i

Page 29: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 29

標本平均と分散

)1()1(][

)1(

1),Pr(

][][

)])([(,

2

1

2

121

2211

21212121

221121

NN

aa

NN

aa

XXE

NNaXaX

XXEXXE

XXEXXCov

ii

ii

jiji

Page 30: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 30

N=5 の場合( a1a2 )  ( a1a3 ) ( a1a4 ) ( a1a5 ) ( a2a3 )( a2a4 )  ( a2a5 ) ( a3a4 ) ( a3a5 ) ( a4a5 )(a1+a2+a3+a4+a5)2=

a12 +a1a2+a1a3+a1a4+a1a5

+a2a1+a22 +a2a3+a2a4+a2a5

+a3a1+a3a2+a32 +a3a4+a3a5

+a4a1+a4a2+a4a3+a42 +a4a5

+a5a1+a5a2+a5a3+a5a4+a52

Page 31: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 31

標本平均と分散

1)1(

)(

)1(

1

)1(

1

)1(

][,

22

1

2

12

2

1

2

1

2

1

2

1

212121

NNN

a

NN

a

NNNa

N

a

NN

aa

XXEXXCov

ii

ii

ii

ii

ii

ii

X1 が ai のときは X2 は ai を取り得ないので負の相関が生じる .

Page 32: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 32

標本平均と分散

)1(

)(

)1(

)1()1(

)1(

)1(1)1(

,)1(][

222

22

2

22

2211

Nn

nN

Nn

nN

Nn

n

nnN

nnn

n

XXCovnnXnVXV

Page 33: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 33

超幾何分布の分散袋の中に N個の玉があって,そのうち比率p 1 で赤球,比率 1-p 1 で青玉が入っている.n個を非復元抽出したときの赤の個数の分散は?復元抽出のときの分散: σ2=np 1(1-p 1)

非復元抽出のときの分散:

復元抽出:二項分布超幾何分布:非復元抽出

1)1(

1 112

N

nNpnp

N

nN

Page 34: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 34

確認実験

袋の中に NN個の玉があって,そのうち比率 0.5(p) で赤球が入っている. 10 (N)個非

復元抽出したときの赤球の個数の分布(Y)は?NN= 10 , 20 ,・・・, 100

それぞれ1万回のシミュレーションを行う .

復元抽出(二項分布の場合)E [ Y ] =Np=5,V [ Y ] =Np(1-p)=

1.582

Page 35: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 35

SASプログラムdata data;p=0.5;n=10;do nn=10 to 100 by 10;do i=1 to 10000;r=nn*p; y=rand('hypergeometric',nn,r,n);output; end;end;proc means maxdec=2;var y;class nn;run;

Page 36: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 36

シミュレーションの結果

  オブザーべション nn N 平均値 標準偏差 最小値 最大値-------------------------------------------------- 10 10000 5.00 0.00 5.00 5.00 20 10000 4.99 1.15 1.00 9.00 30 10000 5.00 1.31 0.00 10.00 40 10000 5.00 1.39 0.00 10.00 50 10000 5.01 1.44 0.00 10.00 60 10000 5.00 1.44 0.00 10.00 70 10000   4.99 1.47 0.00 10.00 80 10000 4.98 1.50 0.00 10.00  90 10000 5.01 1.50 0.00 10.00 100 10000 5.00 1.50 0.00 10.00---------------------------------------------------

Page 37: 数理統計学 ( 第十回) ノンパラ検定とは?1

数理統計学第10回 37

2422

2123

2X 1

非復元抽出

同時に2個取出す 25

2X 2

演習 標本平均 X ・の期待値と分散を計算せよ

また復元抽出の場合と結果を比較せよ