16
統統統統統統 統統統 @kingqwert

第二回統計学勉強会@東大駒場

Embed Size (px)

Citation preview

Page 1: 第二回統計学勉強会@東大駒場

統計学勉強会

第二回@kingqwert

Page 2: 第二回統計学勉強会@東大駒場

前回の宿題• F 分布の分母、分子を自由度割る意味– X2 分布が分散の分布→1サンプル当たりの分

散の比を表す

• 分布の自由度– 形を決定するパラメーター

• 平均、分散、 SD 、 SE

Page 3: 第二回統計学勉強会@東大駒場

SD と SE

Page 4: 第二回統計学勉強会@東大駒場

本日の予定は。。。

検定論(特に分散分析 ANOVA、 ANCOVA)

Page 5: 第二回統計学勉強会@東大駒場

ちなみに

• 適合度統計量 (goodness of fit statistic) は今回は扱わない→最尤法の回へ– スコア統計量– ワルド統計量– 逸脱度

Page 6: 第二回統計学勉強会@東大駒場

3種類• 線形重回帰

– 1つの連続的な反応変数+いくつかの連続的な説明変数

• 分散分析 ANOVA– 1つの連続な反応変数+カテゴリカルな説明変数

• 共分散分析 ANCOVA– 説明変数のうち少なくとも1つは連続変数

• まとめて   重回帰 or 一般線形モデル– 1つの連続的な反応変数と複数個の説明変数を分析すること

Page 7: 第二回統計学勉強会@東大駒場

基本的な考え方• S を興味のある統計量とすると

S がベクトルの時は

Page 8: 第二回統計学勉強会@東大駒場

分散分析• Def: カテゴリー間での連続変数の特徴量を比較する統計

手法学習形態 一斉指導 体験学習 討議学習

5 8 7

4 4 6

6 3 8

3 3 9

3 7 10

7 9 9

6 8 8

5 7 9

3 3 7

5 4 8

平均 4:07 5:06 8:01 全平均 6:01

サイズ 10 10 10

Page 9: 第二回統計学勉強会@東大駒場

1元配置• 構造モデル

• 平方和分解

• 平方和の比の検定量

Page 10: 第二回統計学勉強会@東大駒場

One-way ANOVA table

変動要因 自由度 平方和 平均平方 F-value

主効果 a-1 S_a M_a=S_a/(a-1) M_a/M_e

誤差 n-a S_e M_e=S_e/(n-a)

全体 n-1 S_T

この F 値は、自由度 a-1, n-a の F 分布に従う。従って、帰無仮説 (H0=α1=α2=α3=α4=α5) を検定するには

F-value > F(a-1,n-a)

Page 11: 第二回統計学勉強会@東大駒場

多重検定• 5% であるから、有意差がでない確率は (1-

0.05)

• 3つの組み合わせ全てで有意差が出ない確率は (1-0.05)x(1-0.05)x(1-0.05) となり、逆に有意差が出る確率は 1-(1-0.05)^3=0.142

α エラーの上昇

Page 12: 第二回統計学勉強会@東大駒場

多重検定1. なにもしない

1. 推奨されない方法である.すなわち,補正なしの t 検定を行う.

2. ボンフェローニ( Bonferroni )補正1. いま,有意水準 α‘ のそれぞれ独立な検定を r 回行ったとすると, 1 回の検定で正しい

判断を行う確率が 1 - α’ なので, r 回の検定で正しい判断を行う確率は, (1 - α‘)r となる.よって,正しい判断 を行わない(第 1 種の過誤の)確率は, 1 - (1 - α’)r 1 - (1 - rα‘) = ≒rα’ ,ただし, α‘ 0≒ となる.これが, r 回の検定全体での有意水準となる.よって,検定全体での有意水準を α にするには, 1 回の検定の有意水準を α’ = α/r にすればよい.これがボンフェローニ補正である.しかし, 多重比較における検定は独立な検定ではないので,この補正は厳しすぎ(保守的)て, 有意な組み合わせが見つからない恐れがある.

3. ホルム( Holm )補正1. ボンフェローニ補正を改良したものである.すべての比較組み合わせ(対比)の t 値を

計算し,それを大きさの順に並べる.一番大きな t 値 t(1) の有意確率を α/r ,次の大きさ の t(2) の有意確率を α/(r - 1) ,というように有意確率を調整する.

2. R ではホルム補正がデフォルト

4. チューキー( Tukey )の HSD ( honestly significant difference )1. 今までは, t 検定の有意確率を補正することにより,多重比較の問題に対処していたが,

スチィーデント化された範囲の分布 ( Studentized range distribution )という多重比較専用の分布を用いて検定する

Page 13: 第二回統計学勉強会@東大駒場

後日

• Bootstrap 法による多重検定 ← NEW!

Page 14: 第二回統計学勉強会@東大駒場

二元配置〜多元配置• 構造モデル

• 平方和分解

Page 15: 第二回統計学勉強会@東大駒場

Two-way ANOVA table要因 自由度 平方和 平均平方和 F-value

A の主効果 a-1 S_a M_a=S_a/(a-1) M_a/M_e

B の主効果 b-1 S_b M_b=S_b/(b-1) M_b/M_e

交互作用 A*B

(a-1)(b-1) S_AB M_AB=S_AB/(a-1)(b-1) M_AB/M_e

誤差 ab(r-1) S_e M_e=S_e/ab(r-1)

全体 abr-1 S_r

Page 16: 第二回統計学勉強会@東大駒場

R の検定パッケージと関数関数 機能 パッケージ

assocstats

分割表の統計量と検定:カイ2乗、尤度比、連関係数 vcd

binom.test 二項分布の検定 stats

coindep_test 条件付き独立検定 vcd

fisher.test Fisher の直接検定 stats

goodfit 適合検定 vcd

kruskal.test ランク和の検定 stats

mantelhaen.test

Cochran-Mantel   -Haenszel の 3 元分割表のカイ 2乗検定 stats

mcnemArtest 正方形の分割表の Mcnemar のカイ2乗検定 stats

oddsratio オッズ比と検定統計量 vcd

prop.test 比率の検定 stats

summary.formula 分割表の統計量など Hmisc

woolf_test

同種の 2×2×k 分割表の Woolf のオッズ比検定 vcd