17
統統統統統統 統統統 @kingqwert

第四回統計学勉強会@東大駒場

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: 第四回統計学勉強会@東大駒場

統計学勉強会

第四回@kingqwert

Page 2: 第四回統計学勉強会@東大駒場

ちょっと前回の復習

Page 3: 第四回統計学勉強会@東大駒場

ロジット分析• 生存確率 q 、ロジット関数

Page 4: 第四回統計学勉強会@東大駒場

ポワソンモデル• データが離散値、ゼロ以上の範囲、上限なし、平均=分

• ある個体 i において種子数が y_i である確率 p(y_i|λ_i) がポワソン分布に従う

• リンク関数は対数リンク関数– Logλ=( 線形予測子 )

Page 5: 第四回統計学勉強会@東大駒場

R で GLM

確率分布 乱数生成 family リンク関数

離散 二項分布 rbinom() binomial logit

ポワソン分布 rpois() poisson log

負の二項分布 rnbinom() glm.nb 関数 log

連続 ガンマ分布 rgamma() gamma log?

正規分布 rnorm() gaussian identity

基本は、Result <- glm(formula, data, family, link)

Page 6: 第四回統計学勉強会@東大駒場

今回の内容は、実際の使い方、解釈の仕方 etc

• 係数の解釈(ポワソン、ロジット)• 統計量 ( Wald 統計量、逸脱度 deviance )• 尤度比検定• GLM における残差

あたりが今日のメイン

Page 7: 第四回統計学勉強会@東大駒場

係数の解釈

• ロジット分析– オッズ比= exp( 線形予測子 )– リンク関数=ロジットリンク– Ex. 病気になるリスクは exp(1.95)=7 倍

• ポワソン回帰– 平均= exp( 線形予測子 )– リンク関数= log リンク– Xが 1 単位上昇すると平均種子数は exp(β2) だけ上昇する– 平均種子数はポワソン分布のパラメータ

Page 8: 第四回統計学勉強会@東大駒場

係数の解釈2

• 線形回帰モデル– リンク関数= identity リンク– E(Y)= 線形予測子– X が1単位上昇すると Y の平均が β だけ上昇する。

Page 9: 第四回統計学勉強会@東大駒場

指数型分布族の平均と分散• 指数分布族

– Θ :正準パラメーター– Φ : dispersion パラメーター

• 対数尤度 l(θ,Φ;y)=log f(y; θ,Φ)– わりと有名な関係式

• 期待値と分散

Page 10: 第四回統計学勉強会@東大駒場

GLM におけるパラメタ推定

• 正準パラメーターに θ = g(μ)=β xを代入

• 対数尤度関数を β に関して argmax– 対数尤度 l(θ,Φ;y)=log f(y; θ,Φ)

Page 11: 第四回統計学勉強会@東大駒場

スコア関数• 対数尤度関数を β に関して1回微分 ( この式を0として

解いていく )

• 直感的理解– 残差 Y-μ を 0 とするような推定量

• 1次のモーメントのみアジャスト– 分散の逆数で重み付け

• 一般に、分散関数は平均 μ の関数– スカラーからパラメーターの次元に変換するために勾配ベクト

ルをかける

Page 12: 第四回統計学勉強会@東大駒場

Β に対する推測• Β の最尤推定量とその分散(フィッシャー情報量の逆行

列)に基づく– フィッシャー情報量:スコア関数の二次のモーメント=対数尤

度関数の二階微分の期待値

– これらを用いて– Wald 検定・信頼区間– スコア検定・信頼区間– 尤度比検定・信頼区間

Page 13: 第四回統計学勉強会@東大駒場

Wald 検定• あるパラメーター β_k• 帰無仮説:  H0: β_k=0• Wald 検定

– 検定統計量 ~  標準正規分布

– ただし、分母はフィッシャー情報行列の逆行列の diag 要素

• Wald 信頼区間

Page 14: 第四回統計学勉強会@東大駒場

残差逸脱度 Deviance• モデルの当てはまり:尤度比統計量

– 今のモデルと飽和モデル( Full model )との比較• -2log [ 仮定したモデルでの最大対数尤度 – 飽和モデルでの最大対数尤度 ]• =

• これに dispersion パラメーターをかけたもの = 残差逸脱度

• 正規分布のもとでの残差逸脱度=残差平方和と一致• 残差逸脱度は残差平方和の正規分布以外の結果変数への一

般化– 二項分布、ポワソン分布では φ =1

Page 15: 第四回統計学勉強会@東大駒場

尤度比検定• 2つのネストしたモデル

– M0: E(Y)=μ0=β0+β1X– M1: E(Y)=μ1=β0+β1X+β2X*X– この時、 D(M0)≥D(M1)

• 逸脱度は必ず小さいモデルのほうが大きい

• M0 と M1 の比較 (β2=0 の検定 )

Page 16: 第四回統計学勉強会@東大駒場

GLM における残差• 線形モデルと違い、二項分布やポワソン分布は分散が平

均に依存– 二項分布: V(Y)=μ(1-μ)– ポワソン分布: V(Y)=μ

• っていうか、正規分布以外では残差 e_i=Y_i-μ_i は超使いづらい– 残差の分散が均一になるように変換する必要あり!

Page 17: 第四回統計学勉強会@東大駒場

主な残差統計量• ピアソン残差

• 逸脱度残差

– d_i=i 番目の対象者の逸脱度への寄与

• 目的: 当てはめたモデルが適切ならば、残差に系統的なパターンは検出されないはず!