19
2013/7/19 1 Linear Models Journey 〜 一般線形モデルから一般化線形混合効果モデルへ 〜 北海道大学大学院 医学研究科 臨床統計学分野 伊藤 陽一 2013/07/19 0 講演の流れ Motivating Example 線型回帰モデルの拡張 一般線形混合効果モデル 一般化線形モデル 例:ポアソン回帰 GEE 一般化線形混合効果モデル Motivating Exampleの解析 1 2013/07/19 Motivating Example 1 トカゲの交尾実験 2品種:rough butt, whiteside ・オス10匹、メス10匹、計20匹ずつ用意 ・オスーメスの組み合わせ4種類で、異なる交尾 確率を考慮(固定効果) (R,R), (R,W), (W,R), (W,W) ・個体ごとに異なる交尾確率を考慮(変量効果) 2 2013/07/19 Motivating Example 2 ヘルニア手術のデータ 32名のヘルニア患者 ・性、年齢、術後の身体状態(良い、悪い) ・結果変数:手術が通常通りだったか否か(二値) :手術から退院までの日数(計数) 2つの結果変数を同時に考慮したい 3 2013/07/19 線形回帰モデルの拡張 4 2013/07/19 結果変数の型 二値 多値 計数 結果変数の相関 相関あり 一般線形モデル(GLM) ・回帰分析(REG) ・分散分析(ANOVA) t検定(TTEST) 一般線形混合効果モデル (MIXED) 相関なし 連続 ロジスティック回帰(LOGISTIC) 対数線形モデル(CATMOD) ポアソン回帰 一般化線形モデル(GENMOD) 一般化線形混合モデル (NLMIXED) (GLIMMIX) 一般線形混合効果モデルとは 説明変数の回帰係数に関して、 固定効果と変量効果の両方を想定したモデル 固定効果:回帰係数の値そのものに関心がある際 に用いる、たとえば、治療効果など 変量効果:回帰係数の値そのものには関心がない が、調整したい場合に用いる。固定効果でモデ ル化するとパラメータが増えすぎる場合に有効 たとえば、個人効果、施設効果など 5 2013/07/19

Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

1

Linear Models Journey〜一般線形モデルから一般化線形混合効果モデルへ 〜

北海道大学大学院医学研究科臨床統計学分野

伊藤陽一

2013/07/19 0

講演の流れ

Motivating Example

線型回帰モデルの拡張

一般線形混合効果モデル

一般化線形モデル

例:ポアソン回帰

GEE

一般化線形混合効果モデル

Motivating Exampleの解析

1

2013/07/19

Motivating Example 1

トカゲの交尾実験

・2品種:rough butt, whiteside

・オス10匹、メス10匹、計20匹ずつ用意

・オスーメスの組み合わせ4種類で、異なる交尾確率を考慮(固定効果)

(R,R), (R,W), (W,R), (W,W)

・個体ごとに異なる交尾確率を考慮(変量効果)

2

2013/07/19

Motivating Example 2

ヘルニア手術のデータ

・32名のヘルニア患者

・性、年齢、術後の身体状態(良い、悪い)

・結果変数:手術が通常通りだったか否か(二値)

:手術から退院までの日数(計数)

・2つの結果変数を同時に考慮したい

3

2013/07/19

線形回帰モデルの拡張4

2013/07/19

結果変数の型

二値

多値

計数

結果変数の相関相関あり

一般線形モデル(GLM)

・回帰分析(REG)

・分散分析(ANOVA)

・t検定(TTEST)

一般線形混合効果モデル(MIXED)

相関なし

連続

ロジスティック回帰(LOGISTIC)

対数線形モデル(CATMOD)

ポアソン回帰

一般化線形モデル(GENMOD)

一般化線形混合モデル(NLMIXED)

(GLIMMIX)

一般線形混合効果モデルとは

説明変数の回帰係数に関して、固定効果と変量効果の両方を想定したモデル

固定効果:回帰係数の値そのものに関心がある際に用いる、たとえば、治療効果など

変量効果:回帰係数の値そのものには関心がないが、調整したい場合に用いる。固定効果でモデル化するとパラメータが増えすぎる場合に有効たとえば、個人効果、施設効果など

5

2013/07/19

Page 2: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

2

一般線形混合効果モデル6

𝒚 = 𝑿𝜷 + 𝒁𝜸 + 𝜺 𝜷: 固定効果

𝜸: 変量効果

𝐸𝜸𝜺

=𝟎𝟎

𝑉𝑎𝑟𝜸𝜺

=𝐆 𝟎𝟎 𝐑

Point !!

変量効果を与えたもとでは、独立

𝑣𝑎𝑟 𝒚 = 𝐕 = 𝐙𝐆𝐙′ + 𝐑 R-Side

誤差項が従う分散共分散構造REPEATED statement

で指定する

G-Side

変量効果が従う分散共分散構造RANDOM statement

で指定する

2013/07/19

分散成分:Compound-symmetry7

𝑅 =

𝜎12 + 𝜎2 𝜎1

2 𝜎12

𝜎12 𝜎1

2 + 𝜎2 𝜎12

𝜎12 𝜎1

2 𝜎12 + 𝜎2

⋱𝜎1

2 + 𝜎2 𝜎12 𝜎1

2

𝜎12 𝜎1

2 + 𝜎2 𝜎12

𝜎12 𝜎1

2 𝜎12 + 𝜎2

よく使われる分散共分散構造

Note: 変量効果として変量切片を想定した場合と同一

2013/07/19

固定効果と変量効果の推定8

𝐗′ 𝐑−𝟏𝐗 𝐗′ 𝐑−𝟏𝐙

𝐙′ 𝐑−𝟏𝐗 𝐙′ 𝐑−𝟏𝐙 + 𝐆−𝟏

𝛃 𝛄

=𝐗′ 𝐑−𝟏𝐲

𝐙′ 𝐑−𝟏𝐲

Henderson’s formula

𝛃 = 𝐗′ 𝐕−𝟏𝐗−𝐗′ 𝐕−𝟏𝐲

𝛄 = 𝐆𝐙′ 𝐕−𝟏 𝐲 − 𝐗 𝛃

2013/07/19

分散成分の推定9

ML: 𝑙 𝐆,𝐑 = −1

2log 𝐕 −

1

2𝐫𝐕−1𝐫′ −

𝑛

2log(2𝜋)

REML: 𝑙𝑅 𝐆, 𝐑 = −1

2log 𝐕 −

1

2log 𝐗𝐕−1𝐗′ −

1

2𝐫𝐕−1𝐫′ −

𝑛 − 𝑝

2log(2𝜋)

𝐲

𝒚 = 𝑿𝜷 + 𝒁𝜸 + 𝜺𝐗𝛃 = 𝐗 𝐗′𝐕−𝟏𝐗

−𝐗′𝐕−𝟏𝐲

𝐫 = 𝐙𝛄 + 𝛆ML

REML

𝑑𝑓 = 𝑛

𝑑𝑓 = 𝑝

𝑑𝑓 = 𝑛 − 𝑝

2013/07/19

線形回帰モデルの拡張10

2013/07/19

結果変数の型

二値

多値

計数

結果変数の相関相関あり

一般線形モデル(GLM)

・回帰分析(REG)

・分散分析(ANOVA)

・t検定(TTEST)

一般線形混合モデル(MIXED)

相関なし

連続

ロジスティック回帰(LOGISTIC)

対数線形モデル(CATMOD)

ポアソン回帰

一般化線形モデル(GENMOD)

一般化線形混合モデル(NLMIXED)

(GLIMMIX)

一般化線形モデルとは

連続型結果変数において発展した回帰モデルを、他の結果変数をも統一的に扱えるように拡張したもの

– Nelder, JA. and Wedderburn, RWM. (1972).

JRSS A 135:370-84.

–McCullagh, P. and Nelder, JA. (1989).

Generalized Linear Models, 2nd ed.

Chapman and Hall.

11

2013/07/19

Page 3: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

3

Random component– 結果変数Yはある確率分布に従い、期待値μを持つと仮定する

Systematic component– 説明変数の線形関数で予測子ηを構成する

Link function– 期待値μと予測子ηを繋ぐ関数を定義する

一般化線形モデル

YE

12

p

jjx1

2013/07/19

g

指数型分布族13

,exp,; ycabyyfY

2

2

22

2

22

2

2log2

1

2exp

2exp2

1,;

yy

yyfY

!log1logexp

!,;

yy

y

eyf

y

Y

2 22,b a

2013/07/19

正規分布:

ポアソン分布:

exp log , 1b a

Canonical Linkと十分統計量

η=θとなるリンク関数をCanonical Link Function

(正準リンク関数)と呼ぶ

–正規分布:η=μ

–ポアソン分布:η=logλ

Canonical Linkを用いると、XTYが十分統計量と

なる

14

2013/07/19

指数型分布族の期待値と分散15

対数尤度:

有名な関係式:

期待値: 分散:

正規分布

ポアソン分布

; ,l y y b a c y

0l

E

2013/07/19

22

20

l lE E

E Y b var Y b a

2

2b

2

2exp 1 expb a

exp expb

2 2

2 2

2 2b a

回帰係数βの推定16

とおいて、βに関する最尤推定を行う

; ,l y y b a c y

1

var

var

j j j

j

y al l

a Y

Y y

2013/07/19

1

p

j jg x

b

varb Y a

yl

a

var Yb b

a

スコア方程式 (推定方程式):

1

1

var 0

TN

ii i i

i

U Y Y

Note

他の推定方程式との関係17

一般線形モデル(最小二乗法)

一般線形モデル(重み付き最小二乗法)

一般化線形モデル

0 μYXβ TU βXμT

2013/07/19

01 μYVXβ TU βXμT

01 μYVDβ TU 1 Tgμ X β

T

μD

β

Page 4: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

4

推定方程式の例18

正規分布の場合

ポアソン分布の場合

01 μYVXβ TU

exp Tμ X β

2013/07/19

Tμ X β

μD X

β

exp Tiij i ij

j

D x

X β

01 μYVDβ TU

推定方程式の解き方-Newton-Raphson法-

19

2013/07/19

β

U(β)

β1 β00

一般化線形モデルの例

ポアソン回帰

結果変数は説明変数が与えられたもとで、ポアソン分布に従うと仮定

ある事象の発生回数や発生率を説明変数の関数としてモデル化

稀な事象に向いている

20

2013/07/19

ポアソン回帰が適している例

幼児の耳炎の発生回数

保険の請求率

機器の故障回数

バクテリアやウイルスのコロニーの数

殺人事件の発生率

21

2013/07/19

ポアソン分布と正規分布

ポアソン分布–稀な事象の場合は歪んでいる

–非負の整数値しか取らない

–パラメータは平均のみ

–分散は平均に等しい

正規分布

–左右対称

–取り得る値の範囲は-∞から+∞

–パラメータは平均と分散

22

2013/07/19

Poisson Distribution – Mean 0.123

2013/07/19

0 1 2 3

Page 5: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

5

Poisson Distribution – Mean 0.524

2013/07/19

0 1 2 3 4 5 6

Poisson Distribution – Mean 125

2013/07/19

0 1 2 3 4 5 6

Poisson Distribution – Mean 526

2013/07/190 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

通常の回帰分析を用いた場合の問題点

誤差が正規分布に従うと仮定

予測値が負の値になる可能性がある

分散が一定であることを仮定

27

2013/07/19

ポアソン回帰モデル28

2013/07/19

0 1 1 2 2log( ) ... k kX X X

0 1 1 2 2( ... )e k kX X X

ポアソン回帰のパラメータ推定値29

2013/07/19

ˆe Xの一単位変化あたり ̂

が何倍になるか(乗法効果)

例えば…

ˆe 1.20であれば、Xが一単位増加す

ると推定される平均は20%増加する

Page 6: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

6

例:耳炎の要因探索30

2013/07/19

耳炎の回数

年齢

海で頻繁に泳ぐかどうか

いつも泳ぐ場所(海岸または海岸以外)

性別

データの要約

結果変数のヒストグラム

カテゴリカルな説明変数の水準ごとの結果

変数の平均

結果変数の平均の対数と連続な説明変数の

散布図

31

2013/07/19

32

2013/07/19

33

2013/07/19

34

2013/07/19

35

2013/07/19

Page 7: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

7

36

2013/07/19

The GENMOD Procedure37

2013/07/19

PROC GENMOD DATA=SAS-data-set <options>;

CLASS variables </option>;

MODEL response=predictors </options>;

ESTIMATE 'label' effect values … <options>;

OUTPUT OUT=SAS-data-set keyword=name

</option>;

RUN;

Effect Coding38

2013/07/19

Income 1 Low 1 0

2 Medium 0 1

3 High -1 -1

Variable Value Label

Design

Variables

1 2

Reference Cell Coding39

2013/07/19

Income 1 Low 1 0

2 Medium 0 1

3 High 0 0

Variable Value Label

Design

Variables

1 2

GLM Coding40

2013/07/19

Income 1 Low 1 0

2 Medium 0 1

3 High 0 0

Variable Value Label

Design

Variables

1 2

0

0

1

3

ESTIMATEステートメントの指定方法

0 1 2*1 *0

Low e

41

1. 結果変数の発生数に関してLow Incomeと

Medium Incomeの比を推定する

2. まず、Low IncomeとMedium Incomeに

おける発生数の予測式を書き下す

Reference Cell Codingの場合

0 1 2*0 *1

Medium e

2013/07/19

Page 8: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

8

3. 発生数の予測式の比を取る

4. 求める比を推定するときの係数を特定する

Income 1 –1

ESTIMATEステートメントの指定方法

0 1 2 0 1 2( *1 *0) ( *0 *1)e

42

2013/07/19

0 1 2

0 1 2

*1 *0

Low

*0 *1

Medium

e

e

1 2( *1 *( 1))e

The ESTIMATE Statement43

2013/07/19

Estimate 'Low vs. Medium' Income 1 -1 / exp;

Estimate 'Low vs. High' Income 1 0 / exp;

Estimate 'Medium vs. High' Income 0 1/ exp;

GENMODプロシジャの指定方法44

2013/07/19

PROC GENMOD data=sasuser.earinfection;

CLASS swimmer (param=ref ref=first)

location (param=ref ref=first)

gender (param=ref ref=last);

MODEL infections = swimmer location gender

age age*age

/ dist=poi link=log type3;

RUN;

45

2013/07/19

Model Information

Data Set SASUSER.EARINFECTION

Distribution Poisson

Link Function Log

Dependent Variable infections

Number of Observations Read 287

Number of Observations Used 287

46

2013/07/19

Class Level Information

Class Value Design

Variables

swimmer Frequent 0

Occasional 1

location Beach 0

NonBeach 1

gender Female 1

Male 0

47

2013/07/19

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 281 757.2632 2.6949

Scaled Deviance 281 757.2632 2.6949

Pearson Chi-Square 281 961.9065 3.4232

Scaled Pearson X2 281 961.9065 3.4232

Log Likelihood -234.2434理論値は1

1より大きいとOver Dispersion

Page 9: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

9

48

2013/07/19

Analysis Of Parameter Estimates

Parameter DF Estimate Standard Error Wald 95% Confidence Limits Chi-Square Pr > ChiSq

Intercept 1 2.5554 1.4200 -0.2277 5.3385 3.24 0.0719

swimmer Occasional 1 0.6036 0.1051 0.3977 0.8095 33.01 <.0001

location NonBeach 1 0.5073 0.1055 0.3005 0.7142 23.11 <.0001

gender Female 1 0.0674 0.1117 -0.1516 0.2864 0.36 0.5466

age 1 -0.2540 0.1373 -0.5232 0.0151 3.42 0.0643

age*age 1 0.0053 0.0032 -0.0009 0.0115 2.78 0.0952

Scale 0 1.0000 0.0000 1.0000 1.0000

49

2013/07/19

LR Statistics For Type 3 Analysis

Source DF Chi-Square Pr > ChiSq

swimmer 1 34.55 <.0001

location 1 23.70 <.0001

gender 1 0.36 0.5478

age 1 3.37 0.0662

age*age 1 2.74 0.0977

ESTIMATE statementの追加50

2013/07/19

PROC GENMOD data=sasuser.earinfection;

CLASS swimmer (param=ref ref=first)

location (param=ref ref=first)

gender (param=ref ref=last);

MODEL infections = swimmer location age gender

/ dist=poi link=log type3;

ESTIMATE 'Occasional vs. Frequent swimmer'

swimmer 1 / exp;

ESTIMATE 'Non-Beach vs. Beach' location 1 / exp;

ESTIMATE 'Female vs. Male' gender 1 / exp;

ESTIMATE 'Age' age -1 / exp;

RUN;

51

2013/07/19

Parameter Information

Parameter Effect swimmer location gender

Prm1 Intercept

Prm2 swimmer Occasional

Prm3 location NonBeach

Prm4 age

Prm5 gender Female

52

2013/07/19

Contrast Estimate Results

Label Estimate Standard Error Alpha Confidence

Limits

Chi-Square Pr > ChiSq

Occasional vs. Frequent swimmer 0.6086 0.1050 0.05 0.4028 0.8145 33.59 <.0001

Exp(Occasional vs. Frequent swimmer) 1.8379 0.1930 0.05 1.4960 2.2580

Non-Beach vs. Beach 0.4896 0.1048 0.05 0.2841 0.6951 21.81 <.0001

Exp(Non-Beach vs. Beach) 1.6317 0.1711 0.05 1.3286 2.0039

Female vs. Male 0.0294 0.1092 0.05 -0.1846 0.2433 0.07 0.7878

Exp(Female vs. Male) 1.0298 0.1124 0.05 0.8315 1.2755

Age 0.0261 0.0122 0.05 0.0021 0.0500 4.55 0.0330

Exp(Age) 1.0264 0.0125 0.05 1.0021 1.0513

Exp()のところに、発生回数が何倍になったかが出る

Over-dispersion

結果変数の分散が理論値よりも大きくなること

ポアソン分布の分散の理論値は期待値と等しい

計数データのバラツキは平均よりも大きくなることが多い

Over-dispersionになると、標準誤差を過小評価し、カイ二乗統計量を過大評価する

53

2013/07/19

Page 10: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

10

Over-dispersionになる原因

モデルに含まれていない効果があり、平均値の

違いを十分に説明できていない

外れ値が存在する

観測値間で正の相関がある

54

2013/07/19

55

Multiplicative Over-dispersion Factor

2013/07/19

2

df

( ) * ( )adj unadjSE SE

2

2 i i

i i

y

V

Over-dispersionの補正56

2013/07/19

PROC GENMOD data=sasuser.earinfection;

CLASS swimmer (param=ref ref=first)

location (param=ref ref=first)

gender (param=ref ref=last);

MODEL infections = swimmer location gender

age age*age

/ dist=poi link=log type3 pscale;

RUN;

57

2013/07/19

Criteria For Assessing Goodness Of Fit

Criterion DF Value Value/DF

Deviance 282 760.0060 2.6951

Scaled Deviance 282 222.4214 0.7887

Pearson Chi-Square 282 963.5838 3.4170

Scaled Pearson X2 282 282.0000 1.0000

Log Likelihood -68.9544

58

2013/07/19

Analysis Of Parameter Estimates

Parameter DF Estimate Standard Error Wald 95% Confidence Limits Chi-Square Pr > ChiSq

Intercept 1 0.2310 0.5074 -0.7635 1.2255 0.21 0.6489

swimmer Occasional 1 0.6086 0.1941 0.2281 0.9891 9.83 0.0017

location NonBeach 1 0.4896 0.1938 0.1098 0.8694 6.38 0.0115

age 1 -0.0261 0.0226 -0.0703 0.0182 1.33 0.2487

gender Female 1 0.0294 0.2018 -0.3661 0.4249 0.02 0.8842

Scale 0 1.8485 0.0000 1.8485 1.8485

Note: The scale parameter was estimated by the square root of Pearson's Chi-Square/DOF.

Before adjustment

Analysis Of Parameter Estimates

Parameter DF Estimate Standard Error Wald 95% Confidence Limits Chi-Square Pr > ChiSq

Intercept 1 0.2310 0.2745 -0.3070 0.7690 0.71 0.4001

swimmer Occasional 1 0.6086 0.1050 0.4028 0.8145 33.59 <.0001

location NonBeach 1 0.4896 0.1048 0.2841 0.6951 21.81 <.0001

age 1 -0.0261 0.0122 -0.0500 -0.0021 4.55 0.0330

gender Female 1 0.0294 0.1092 -0.1846 0.2433 0.07 0.7878

Scale 0 1.0000 0.0000 1.0000 1.0000

After adjustment 線形回帰モデルの拡張59

2013/07/19

結果変数の型

二値

多値

計数

相関あり

一般線形モデル(GLM)

・回帰分析(REG)

・分散分析(ANOVA)

・t検定(TTEST)

一般線形混合モデル(MIXED)

REPEATED | RANDOM

周辺モデル

連続

ロジスティック回帰(LOGISTIC)

対数線形モデル(CATMOD)

ポアソン回帰

一般化線形モデル(GENMOD)

一般化線形混合モデル(NLMIXED)

(GLIMMIX)

変量効果モデル相関なし

モデル拡張GEE

R-side G-side

Page 11: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

11

Generalized Estimating Equations

(GEE)とは

一般化線型モデルを、経時測定データなどの観測値間に相関が存在する場合に拡張したもの

–Liang, KY. and Zeger, SL. (1986).

Biometrika 73:13-22.

60

2013/07/19

相関のモデル化

周辺モデル

–結果変数の期待値(周辺期待値)と相関を別々にモデル化

変量効果モデル

–結果変数の期待値に個人ごとの効果も含める

–個人ごとの効果は分布すると仮定

Diggle, PJ., Liang KY., Zeger. SL. (1994). Analysis of Longitudinal Data.

Oxford University Press.

61

2013/07/19

GEEモデルの利点

対象者ごとの測定回数は等しくなくともよい

対象者ごとの測定時点が揃っていなくてもよい

結果変数が従う確率分布は正規分布でなくてもよい (一般化線型モデルと共通)

連続型、カテゴリカル型の共変量を扱える共変量は時間依存性でもよい

欠測データに関しては、all-available pairs

methodを用いることができる

62

2013/07/19

GEE Regression Models

GEEモデルは一般化線型モデルを以下の

ように拡張

–実験単位内における観測値の相関を推定し、

回帰係数やその標準誤差を推定するときに

考慮に入れる

–回帰係数のロバスト分散を推定する

63

2013/07/19

Generalized Estimating Equations64

一般化推定方程式

ロバスト分散推定量

1 1

1 1 1 1ˆ cov

T T T

i i i i i ii i i i iCov V V Y V V

1

1

; 0

Tm

i i i i

i

U V Y

2013/07/19

Vi : 作業(working)共分散行列

Point !!

個人ごとに推定方程式が立てられている

GEEのための分散共分散行列65

2013/07/19

123123123123

111222333444

Subject Time

444222666888

100000100111

X Y

1V

2V

3V

4V

0

0

Page 12: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

12

準尤度(Quasi-Likelihood)

対数準尤度:推定方程式をある範囲で積分したもの

𝑄 𝜇𝑖 , 𝑦𝑖 = 𝑦𝑖

𝜇𝑖 𝑦𝑖−𝑡

𝜙𝑎 𝑡𝑑𝑡, 𝑄𝐿 𝝁, 𝜙, 𝒚 = 𝑖=1

𝑛 𝑓𝑖𝑤𝑖𝑦𝑖−𝜇𝑖

𝜙𝑎 𝜇𝑖

GEEの推定方程式は、準尤度で正当化されている尤度としては適切ではないかもしれないが、尤度の代わりに用いてもそれほど悪くはないであろう

準尤度を用いることにすると、対象者の観測値の同時分布を特定する必要がない

離散変数の場合、対象者ごとの繰り返し測定値の同時分布を特定することは困難

66

2013/07/19

対数準尤度 スコア関数微分

積分

GEEの推定アルゴリズム

1. 通常の一般化線型モデルを当てはめ、

平均パラメータを推定する

2. 推定されたパラメータを固定したもとで、ピアソン標準

化残差を計算し、これを用いて仮定した相関構造を

持つ作業相関行列のパラメータを推定する

3. 作業相関行列を考慮して、平均パラメータを推定し

直す

4. モデルが収束するまでステップ2と3を繰り返す

67

2013/07/19

線形回帰モデルの拡張68

2013/07/19

結果変数の型

二値

多値

計数

相関あり

一般線形モデル(GLM)

・回帰分析(REG)

・分散分析(ANOVA)

・t検定(TTEST)

一般線形混合モデル(MIXED)

REPEATED | RANDOM

周辺モデル

連続

ロジスティック回帰(LOGISTIC)

対数線形モデル(CATMOD)

ポアソン回帰

一般化線形モデル(GENMOD)

一般化線形混合モデル(NLMIXED)

(GLIMMIX)

変量効果モデル相関なし

モデル拡張GEE

R-side G-side

一般化線型混合効果モデルとは

一般化線形モデルにおける説明変数において、固定効果と変量効果を含むモデル

問題は、変量効果をどのように処理するか?

推定方法は3つ

・ ラプラス近似法 (NONMEM)

・ ガウス-エルミート求積法 (NLMIXED)

・ 疑似尤度法 (Pseudo-Likelihood)

69

2013/07/19

ラプラス近似

1774年に発表された方法

70

ピエール=シモン・ラプラス(Pierre-Simon Laplace, 1749 - 1827)

𝐼 = 𝑓 𝜃 𝑒−𝑛ℎ 𝜃 𝑑𝜃

𝐼 = 𝑓 𝜃 +𝑓′ 𝜃

1!𝜃 − 𝜃 +

𝑓′′ 𝜃

2!𝜃 − 𝜃

2

× exp −𝑛ℎ 𝜃 −𝑛ℎ′ 𝜃

1!𝜃 − 𝜃 −

𝑛ℎ′′ 𝜃

2!𝜃 − 𝜃

2𝑑𝜃

𝐼 = 𝑒−𝑛ℎ 𝜃 𝑓 𝜃 + 𝑓′ 𝜃 𝜃 − 𝜃 +𝑓′′ 𝜃

2!𝜃 − 𝜃

2

× exp −𝜃 − 𝜃

2

2 𝑛ℎ′′ 𝜃−1 𝑑𝜃

𝐼 ≈ 𝑒−𝑛ℎ 𝜃 𝑓 𝜃2𝜋

𝑛ℎ′′ 𝜃1 +

𝑓′′ 𝜃

2𝑓 𝜃𝑉𝑎𝑟 𝜃

2013/07/19

周辺分布のラプラス近似71

𝑝 𝒚 = 𝑝 𝒚|𝜸, 𝜷,𝜙 𝑝 𝜸|𝜽 𝑑𝜸

= exp log 𝑝 𝒚|𝜸,𝜷,𝜙 + log 𝑝 𝜸|𝜽 𝑑𝜸

= exp 𝑐𝑙𝑓 𝒚,𝜷, 𝜽; 𝜸 𝑑𝜸

𝐿 𝜷, 𝜽; 𝜸, 𝒚 =2𝜋

𝑐𝑙

𝑛𝛾 2

−𝑓′′ 𝒚, 𝜷, 𝜽; 𝜸 − 1 2𝑒𝑐𝑙𝑓 𝒚,𝜷,𝜽; 𝜸

𝑓′′ 𝒚, 𝜷,𝜽; 𝜸 = 𝝏𝟐𝑓 𝒚,𝜷, 𝜽; 𝜸

𝝏𝜸𝝏𝜸′ 𝜸

𝜸の推定𝝏𝑓 𝒚,𝜷, 𝜽; 𝜸

𝝏𝜸= 𝟎

Note:

変量効果の期待値まわりでの積分の近似

扱えるのはG-sideの変量効果のみ

2013/07/19

Page 13: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

13

ガウスーエルミート求積法72

−∞

𝑓 𝑥 𝑝 𝑥 𝑑𝑥 ≈

𝑖=1

𝑁

𝑤𝑖𝑓 𝑥𝑖

積分を、重み付き和で近似する方法

Note:

変量効果の期待値まわりでの積分の近似

扱えるのはG-sideの変量効果のみ対象者ごとに処理する必要あり

2013/07/19

疑似尤度法

1.変量効果の期待値もしくは予測値周りでの、疑似データを考える

2.この疑似データに対して、一般線形混合効果モデルを当てはめる

3.パラメータ推定値を更新して1,2のプロセスを収束するまで繰り返す

73

2013/07/19

疑似データ(Pseudo-Response)74

𝐸 𝒀|𝜸 = 𝑔−1 𝑿𝜷 + 𝒁𝜸 = 𝑔−1 𝜼 = 𝝁

𝑔−1 𝜼 ≐ 𝑔−1 𝜼 + △ 𝑿 𝜷 − 𝜷 + △ 𝒁 𝜸 − 𝜸 △=

𝜕𝑔−1 𝜼

𝜕𝜼 𝜷, 𝜸 △−1 𝝁 − 𝑔−1 𝜼 + 𝑿 𝜷 + 𝒁 𝜸 ≐ 𝑿𝜷 + 𝒁𝜸

𝑷 ≡ △−1 𝝁 − 𝑔−1 𝜼 + 𝑿 𝜷 + 𝒁 𝜸

𝑷 = 𝑿𝜷 + 𝒁𝜸 + 𝜺

𝜸~𝑁 𝟎,𝐆 𝑉𝑎𝑟 𝐘|𝜸 = 𝑨12𝐑𝑨

12

𝐀はモデルの分散関数を対角にならべた行列

2013/07/19

分散成分の推定(疑似尤度の種類)

Maximum log pseudo-likelihood

Restricted log pseudo-likelihood

75

𝑙 𝜽,𝒑 = −1

2log 𝐕 𝜽 −

1

2𝐫𝐕 𝜽 −1𝐫′ −

𝑓

2log(2𝜋)

𝑙𝑅 𝜽,𝒑 = −1

2log 𝐕 𝜽 −

1

2log 𝐗𝐕 𝜽 −1𝐗′ −

1

2𝐫𝐕 𝜽 −1𝐫′ −

𝑓 − 𝑘

2log(2𝜋)

𝑓は総観測値数

𝑘は𝐗のランク

2013/07/19

推定時の変量効果の置き方

Subject-Specific

Population-Averaged

76

𝛽 = 𝛽 𝛾 = 𝛾

𝛽 = 𝛽 𝛾 = 𝟎

2013/07/19

推定方法の分類77

Type of PLExpansion Locus

Residual RSPL RMPL

Maximum MSPL MMPL

デフォルト

2013/07/19

Page 14: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

14

Motivating Example 1

トカゲの交尾実験

・2品種:rough butt, whiteside

・オス10匹、メス10匹、計20匹ずつ用意

・オスーメスの組み合わせ4種類で、異なる交尾確率を考慮(固定効果)

(R,R), (R,W), (W,R), (W,W)

・個体ごとに異なる交尾確率を考慮(変量効果)

78

log𝜋𝑘𝑙

1 − 𝜋𝑘𝑙= 𝜏𝑘𝑙 + 𝛾𝑓 + 𝛾𝑚

品種の違いによる固定効果

メスの個体の違いによる変量効果

オスの個体の違いによる変量効果

2013/07/19

Salamander Data79

data salamander;input day fpop$ fnum mpop$ mnum mating @@;

datalines; 4 rb 1 rb 1 1 4 rb 2 rb 5 1 4 rb 3 rb 2 1 4 rb 4 rb 4 1 4 rb 5 rb 3 1 4 rb 6 ws 9 1 4 rb 7 ws 8 0 4 rb 8 ws 6 0 4 rb 9 ws 10 0 4 rb 10 ws 7 0 4 ws 1 rb 9 0 4 ws 2 rb 7 0 4 ws 3 rb 8 0 4 ws 4 rb 10 0 4 ws 5 rb 6 0 4 ws 6 ws 5 0 4 ws 7 ws 4 1 4 ws 8 ws 1 1 4 ws 9 ws 3 1 4 ws 10 ws 2 1

day 実験日fpop$ メスの種類fnum メスのIDmpop$ オスの種類mnum オスのIDmating 交尾の有無

(1あり0なし)

2013/07/19

解析プログラム80

proc glimmix data=salamander;

class fpop fnum mpop mnum;

model mating(event=‘1’) = fpop|mpop / dist=binary;

random fpop*fnum mpop*mnum;

lsmeans fpop*mpop / ilink;

run;

2013/07/19

Model Information81

Data Set WORK.SALAMANDER

Response Variable mating

Response Distribution Binary

Link Function Logit

Variance Function Default

Variance Matrix Not blocked

Estimation Technique Residual PL

Degrees of Freedom Method Containment

2013/07/19

Class Level Informaiton82

Class Levels Values

fpop 2 rb ws

fnum 10 1 2 3 4 5 6 7 8 9 10

mpop 2 rb ws

mnum 10 1 2 3 4 5 6 7 8 9 10

Number of Observations Read 120

Number of Observations Used 120

2013/07/19

Response Profile83

Ordered Total

Value mating Frequency

1 0 50

2 1 70

The GLIMMIX procedure is modeling the probability that mating='1'.

2013/07/19

Page 15: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

15

Dimensions84

G-side Cov. Parameters 2

Columns in X 9

Columns in Z 40

Subjects (Blocks in V) 1

Max Obs per Subject 120

2013/07/19

Optimization Information85

Optimization Technique Newton-Raphson with Ridging

Parameters in Optimization 2

Lower Boundaries 2

Upper Boundaries 0

Fixed Effects Profiled

Starting From Data

2013/07/19

Iteration History86

Objective Max

Iteration Restarts Subiterations Function Change Gradient

0 0 4 537.09173501 2.00000000 1.719E-8

1 0 3 544.12516903 0.66319780 1.14E-8

2 0 2 545.89139118 0.13539318 1.609E-6

3 0 2 546.10489538 0.01742065 5.89E-10

4 0 1 546.13075146 0.00212475 9.654E-7

5 0 1 546.13374731 0.00025072 1.346E-8

6 0 1 546.13409761 0.00002931 1.84E-10

7 0 0 546.13413861 0.00000000 4.285E-6

Convergence criterion (PCONV=1.11022E-8) satisfied.

2013/07/19

Covariance Parameter Estimates87

Standard

Cov Parm Estimate Error

fpop*fnum 1.4099 0.8871

mpop*mnum 0.08963 0.4102

メスの方がバラツキが大きい

2013/07/19

Type III Tests of Fixed Effects88

Num DenEffect DF DF F Value Pr > F

fpop 1 18 2.86 0.1081mpop 1 17 4.71 0.0444fpop*mpop 1 81 9.61 0.0027

2013/07/19

fpop*mpop Least Squares Means89

Standard

Standard Error

fpop mpop Estimate Error DF t Value Pr > |t| Mean Mean

rb rb 1.1629 0.5961 81 1.95 0.0545 0.7619 0.1081

rb ws 0.7839 0.5729 81 1.37 0.1750 0.6865 0.1233

ws rb -1.4119 0.6143 81 -2.30 0.0241 0.1959 0.09678

ws ws 1.0151 0.5871 81 1.73 0.0876 0.7340 0.1146

メスWS,オスRBの組み合わせの交尾率が著しく低い

2013/07/19

Page 16: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

16

LS-Means Diffogram90

2013/07/19

SLICEDIFF option91

Simple Effect Comparisons of fpop*mpop Least Squares Means By mpop

Simple

Effect Standard

Level fpop _fpop Estimate Error DF t Value Pr > |t|

mpop rb rb ws 2.5748 0.8458 81 3.04 0.0031

mpop ws rb ws -0.2312 0.8092 81 -0.29 0.7758

Simple Effect Comparisons of fpop*mpop Least Squares Means By fpop

Simple

Effect Standard

Level mpop _mpop Estimate Error DF t Value Pr > |t|

fpop rb rb ws 0.3790 0.6268 81 0.60 0.5471

fpop ws rb ws -2.4270 0.6793 81 -3.57 0.0006

2013/07/19

Motivating Example 2

ヘルニア手術のデータ

・32名のヘルニア患者

・性、年齢、術後の身体状態(良い、悪い)

・結果変数:手術が通常通りだったか否か(二値)

:手術から退院までの日数(計数)

・2つの結果変数を同時に考慮したい

92

2013/07/19

Hernio Data93

data hernio;

input patient age gender$ OKstatus leave los;

datalines;

1 78 m 1 0 9

2 60 m 1 0 4

3 68 m 1 1 7

4 62 m 0 1 35

5 76 m 0 0 9

6 76 m 1 1 7

7 64 m 1 1 5

8 74 f 1 1 16

9 68 m 0 1 7

10 79 f 1 0 11

Patient 患者ID

Age 年齢gender$ 性Okstatus 術後の身体状態(1良い 0悪い)

Leave 手術が通常通りだったか否か(1通常0非通常)

Los 手術から退院までの日数(計数)

2013/07/19

データの加工

LeaveとLosをひとつの変数Responseにまとめる

94

data hernio_uv;

length dist $7;

set hernio;

response = (leave=1);

dist = "Binary";

output;

response = los;

dist = "Poisson";

output;

keep patient age OKstatus response dist;

run;

ロジスティック回帰

proc glimmix

data=hernio_uv(where=(dist="Binary"));

model response(event='1') = age

OKStatus / s dist=binary;

run;

95

2013/07/19

Page 17: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

17

あてはまりの指標96

Fit Statistics

-2 Log Likelihood 32.77

AIC (smaller is better) 38.77

AICC (smaller is better) 39.63

BIC (smaller is better) 43.17

CAIC (smaller is better) 46.17

HQIC (smaller is better) 40.23

Pearson Chi-Square 30.37

Pearson Chi-Square / DF 1.05

Over Dispersionは、なさそう

2013/07/19

パラメータ推定値97

Parameter Estimates

Effect Estimate Standard Error

DF t Value Pr > |t|

Intercept 5.7694 2.8245 29 2.04 0.0503

age -0.07725 0.03761 29 -2.05 0.0491

OKstatus -0.3516 1.0253 29 -0.34 0.7341

2013/07/19

ポアソン回帰

proc glimmix

data=hernio_uv(where=(dist="Poisson");

model response = age OKStatus / s

dist=Poisson;

run;

98

2013/07/19

あてはまりの指標99

Fit Statistics

-2 Log Likelihood 215.52

AIC (smaller is better) 221.52

AICC (smaller is better) 222.38

BIC (smaller is better) 225.92

CAIC (smaller is better) 228.92

HQIC (smaller is better) 222.98

Pearson Chi-Square 129.98

Pearson Chi-Square / DF 4.48

Over Dispersionが、ありそう

2013/07/19

パラメータ推定値100

Parameter Estimates

Effect Estimate Standard Error

DF t Value Pr > |t|

Intercept 1.2640 0.3393 29 3.72 0.0008

age 0.01525 0.004454 29 3.42 0.0019

OKstatus -0.3301 0.1562 29 -2.11 0.0433

2013/07/19

二変量の同時モデル化 (独立)

proc glimmix data=hernio_uv;

class dist;

model response(event=‘1’) =

dist dist*age dist*OKstatus /

noint s dist=byobs(dist);

run;

101

2013/07/19

Page 18: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

18

あてはまりの指標102

Fit Statistics

Description Binary Poisson Total

-2 Log Likelihood 32.77 215.52 248.29

AIC (smaller is better) 44.77 227.52 260.29

AICC (smaller is better) 48.13 230.88 261.77

BIC (smaller is better) 53.56 236.32 273.25

CAIC (smaller is better) 59.56 242.32 279.25

HQIC (smaller is better) 47.68 230.44 265.40

Pearson Chi-Square 30.37 129.98 160.35

Pearson Chi-Square / DF 1.05 4.48 2.76

2013/07/19

パラメータ推定値103

Parameter Estimates

Effect dist Estimate Standard Error DF t Value Pr > |t|

dist Binary 5.7694 2.8245 58 2.04 0.0456

dist Poisson 1.2640 0.3393 58 3.72 0.0004

age*dist Binary -0.07725 0.03761 58 -2.05 0.0445

age*dist Poisson 0.01525 0.004454 58 3.42 0.0011

OKstatus*dist Binary -0.3516 1.0253 58 -0.34 0.7329

OKstatus*dist Poisson -0.3301 0.1562 58 -2.11 0.0389

2013/07/19

二変量の同時モデル化 (変量切片)

proc glimmix data=hernio_uv;

class dist;

model response(event=‘1’) =

dist dist*age dist*OKstatus /

noint s dist=byobs(dist);

random int / subject=patient;

run;

104

2013/07/19

あてはまりの指標105

Fit Statistics

-2 Res Log Pseudo-Likelihood 226.71

Generalized Chi-Square 52.25

Gener. Chi-Square / DF 0.90

Over Dispersionは、なさそう

2013/07/19

共分散パラメータ推定値106

Covariance Parameter Estimates

Cov Parm Subject Estimate Standard Error

Intercept patient 0.2990 0.1116

2013/07/19

固定効果パラメータ推定値107

Solutions for Fixed Effects

Effect dist Estimate Standard Error DF t Value Pr > |t|

dist Binary 5.7783 2.9048 29 1.99 0.0562

dist Poisson 0.8410 0.5696 29 1.48 0.1506

age*dist Binary -0.07572 0.03791 29 -2.00 0.0552

age*dist Poisson 0.01875 0.007383 29 2.54 0.0167

OKstatus*dist Binary -0.4697 1.1251 29 -0.42 0.6794

OKstatus*dist Poisson -0.1856 0.3020 29 -0.61 0.5435

入院日数と術後身体状態の関連性が、変量効果を入れたら消失

2013/07/19

Page 19: Linear Models Journey - Sas Institute...2013/7/19 1 Linear Models Journey 〜一般線形モデルから一般化線形混合効果モデルへ〜 北海道大学大学院 医学研究科臨床統計学分野

2013/7/19

19

二変量の同時モデル化 (周辺構造)

proc glimmix data=hernio_uv;

class dist;

model response(event=‘1’) =

dist dist*age dist*OKstatus /

noint s dist=byobs(dist);

random _residual_ /

subject=patient type=chol;

run;

108

コレスキー根の構造分散共分散が少なくとも半正定値になるので推定が安定

GLIMMIXにはREPEATED

ステートメントはないR-Sideの構造の指定は_residual_を指定する

あてはまりの指標109

Fit Statistics

-2 Res Log Pseudo-Likelihood 240.98

Generalized Chi-Square 58.00

Gener. Chi-Square / DF 1.00

Over Dispersionは、ない

2013/07/19

共分散パラメータ推定値110

Covariance Parameter Estimates

Cov Parm Subject Estimate Standard Error

CHOL(1,1) patient 1.0162 0.1334

CHOL(2,1) patient 0.3942 0.3893

CHOL(2,2) patient 2.0819 0.2734

2013/07/19

固定効果パラメータ推定値111

Solutions for Fixed Effects

Effect dist Estimate Standard Error DF t Value Pr > |t|

dist Binary 5.6514 2.8283 26 2.00 0.0563

dist Poisson 1.2463 0.7189 26 1.73 0.0948

age*dist Binary -0.07568 0.03765 26 -2.01 0.0549

age*dist Poisson 0.01548 0.009432 26 1.64 0.1128

OKstatus*dist Binary -0.3421 1.0384 26 -0.33 0.7445

OKstatus*dist Poisson -0.3253 0.3310 26 -0.98 0.3349

2013/07/19

モデル間比較112

Solutions for Fixed Effects (周辺構造モデル)

Effect dist Estimate Standard Error DF t Value Pr > |t|

dist Binary 5.6514 2.8283 26 2.00 0.0563

dist Poisson 1.2463 0.7189 26 1.73 0.0948

age*dist Binary -0.07568 0.03765 26 -2.01 0.0549

age*dist Poisson 0.01548 0.009432 26 1.64 0.1128

OKstatus*dist Binary -0.3421 1.0384 26 -0.33 0.7445

OKstatus*dist Poisson -0.3253 0.3310 26 -0.98 0.3349

Solutions for Fixed Effects (変量切片モデル)

Effect dist Estimate Standard Error DF t Value Pr > |t|

dist Binary 5.7783 2.9048 29 1.99 0.0562

dist Poisson 0.8410 0.5696 29 1.48 0.1506

age*dist Binary -0.07572 0.03791 29 -2.00 0.0552

age*dist Poisson 0.01875 0.007383 29 2.54 0.0167

OKstatus*dist Binary -0.4697 1.1251 29 -0.42 0.6794

OKstatus*dist Poisson -0.1856 0.3020 29 -0.61 0.5435

まとめ

Motivating Example

線型回帰モデルの拡張

一般線形混合モデル

一般化線形モデル

例:ポアソン回帰

GEE

一般化線形混合モデル

Motivating Exampleの解析

113

2013/07/19