Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
2013/7/19
1
Linear Models Journey〜一般線形モデルから一般化線形混合効果モデルへ 〜
北海道大学大学院医学研究科臨床統計学分野
伊藤陽一
2013/07/19 0
講演の流れ
Motivating Example
線型回帰モデルの拡張
一般線形混合効果モデル
一般化線形モデル
例:ポアソン回帰
GEE
一般化線形混合効果モデル
Motivating Exampleの解析
1
2013/07/19
Motivating Example 1
トカゲの交尾実験
・2品種:rough butt, whiteside
・オス10匹、メス10匹、計20匹ずつ用意
・オスーメスの組み合わせ4種類で、異なる交尾確率を考慮(固定効果)
(R,R), (R,W), (W,R), (W,W)
・個体ごとに異なる交尾確率を考慮(変量効果)
2
2013/07/19
Motivating Example 2
ヘルニア手術のデータ
・32名のヘルニア患者
・性、年齢、術後の身体状態(良い、悪い)
・結果変数:手術が通常通りだったか否か(二値)
:手術から退院までの日数(計数)
・2つの結果変数を同時に考慮したい
3
2013/07/19
線形回帰モデルの拡張4
2013/07/19
結果変数の型
二値
多値
計数
結果変数の相関相関あり
一般線形モデル(GLM)
・回帰分析(REG)
・分散分析(ANOVA)
・t検定(TTEST)
一般線形混合効果モデル(MIXED)
相関なし
連続
ロジスティック回帰(LOGISTIC)
対数線形モデル(CATMOD)
ポアソン回帰
一般化線形モデル(GENMOD)
一般化線形混合モデル(NLMIXED)
(GLIMMIX)
一般線形混合効果モデルとは
説明変数の回帰係数に関して、固定効果と変量効果の両方を想定したモデル
固定効果:回帰係数の値そのものに関心がある際に用いる、たとえば、治療効果など
変量効果:回帰係数の値そのものには関心がないが、調整したい場合に用いる。固定効果でモデル化するとパラメータが増えすぎる場合に有効たとえば、個人効果、施設効果など
5
2013/07/19
2013/7/19
2
一般線形混合効果モデル6
𝒚 = 𝑿𝜷 + 𝒁𝜸 + 𝜺 𝜷: 固定効果
𝜸: 変量効果
𝐸𝜸𝜺
=𝟎𝟎
𝑉𝑎𝑟𝜸𝜺
=𝐆 𝟎𝟎 𝐑
Point !!
変量効果を与えたもとでは、独立
𝑣𝑎𝑟 𝒚 = 𝐕 = 𝐙𝐆𝐙′ + 𝐑 R-Side
誤差項が従う分散共分散構造REPEATED statement
で指定する
G-Side
変量効果が従う分散共分散構造RANDOM statement
で指定する
2013/07/19
分散成分:Compound-symmetry7
𝑅 =
𝜎12 + 𝜎2 𝜎1
2 𝜎12
𝜎12 𝜎1
2 + 𝜎2 𝜎12
𝜎12 𝜎1
2 𝜎12 + 𝜎2
⋱𝜎1
2 + 𝜎2 𝜎12 𝜎1
2
𝜎12 𝜎1
2 + 𝜎2 𝜎12
𝜎12 𝜎1
2 𝜎12 + 𝜎2
よく使われる分散共分散構造
Note: 変量効果として変量切片を想定した場合と同一
2013/07/19
固定効果と変量効果の推定8
𝐗′ 𝐑−𝟏𝐗 𝐗′ 𝐑−𝟏𝐙
𝐙′ 𝐑−𝟏𝐗 𝐙′ 𝐑−𝟏𝐙 + 𝐆−𝟏
𝛃 𝛄
=𝐗′ 𝐑−𝟏𝐲
𝐙′ 𝐑−𝟏𝐲
Henderson’s formula
𝛃 = 𝐗′ 𝐕−𝟏𝐗−𝐗′ 𝐕−𝟏𝐲
𝛄 = 𝐆𝐙′ 𝐕−𝟏 𝐲 − 𝐗 𝛃
2013/07/19
分散成分の推定9
ML: 𝑙 𝐆,𝐑 = −1
2log 𝐕 −
1
2𝐫𝐕−1𝐫′ −
𝑛
2log(2𝜋)
REML: 𝑙𝑅 𝐆, 𝐑 = −1
2log 𝐕 −
1
2log 𝐗𝐕−1𝐗′ −
1
2𝐫𝐕−1𝐫′ −
𝑛 − 𝑝
2log(2𝜋)
𝐲
𝒚 = 𝑿𝜷 + 𝒁𝜸 + 𝜺𝐗𝛃 = 𝐗 𝐗′𝐕−𝟏𝐗
−𝐗′𝐕−𝟏𝐲
𝐫 = 𝐙𝛄 + 𝛆ML
REML
𝑑𝑓 = 𝑛
𝑑𝑓 = 𝑝
𝑑𝑓 = 𝑛 − 𝑝
2013/07/19
線形回帰モデルの拡張10
2013/07/19
結果変数の型
二値
多値
計数
結果変数の相関相関あり
一般線形モデル(GLM)
・回帰分析(REG)
・分散分析(ANOVA)
・t検定(TTEST)
一般線形混合モデル(MIXED)
相関なし
連続
ロジスティック回帰(LOGISTIC)
対数線形モデル(CATMOD)
ポアソン回帰
一般化線形モデル(GENMOD)
一般化線形混合モデル(NLMIXED)
(GLIMMIX)
一般化線形モデルとは
連続型結果変数において発展した回帰モデルを、他の結果変数をも統一的に扱えるように拡張したもの
– Nelder, JA. and Wedderburn, RWM. (1972).
JRSS A 135:370-84.
–McCullagh, P. and Nelder, JA. (1989).
Generalized Linear Models, 2nd ed.
Chapman and Hall.
11
2013/07/19
2013/7/19
3
Random component– 結果変数Yはある確率分布に従い、期待値μを持つと仮定する
Systematic component– 説明変数の線形関数で予測子ηを構成する
Link function– 期待値μと予測子ηを繋ぐ関数を定義する
一般化線形モデル
YE
12
p
jjx1
2013/07/19
g
指数型分布族13
,exp,; ycabyyfY
2
2
22
2
22
2
2log2
1
2exp
2exp2
1,;
yy
yyfY
!log1logexp
!,;
yy
y
eyf
y
Y
2 22,b a
2013/07/19
正規分布:
ポアソン分布:
exp log , 1b a
Canonical Linkと十分統計量
η=θとなるリンク関数をCanonical Link Function
(正準リンク関数)と呼ぶ
–正規分布:η=μ
–ポアソン分布:η=logλ
Canonical Linkを用いると、XTYが十分統計量と
なる
14
2013/07/19
指数型分布族の期待値と分散15
対数尤度:
有名な関係式:
期待値: 分散:
正規分布
ポアソン分布
; ,l y y b a c y
0l
E
2013/07/19
22
20
l lE E
E Y b var Y b a
2
2b
2
2exp 1 expb a
exp expb
2 2
2 2
2 2b a
回帰係数βの推定16
とおいて、βに関する最尤推定を行う
; ,l y y b a c y
1
var
var
j j j
j
y al l
a Y
Y y
2013/07/19
1
p
j jg x
b
varb Y a
yl
a
var Yb b
a
スコア方程式 (推定方程式):
1
1
var 0
TN
ii i i
i
U Y Y
Note
他の推定方程式との関係17
一般線形モデル(最小二乗法)
一般線形モデル(重み付き最小二乗法)
一般化線形モデル
0 μYXβ TU βXμT
2013/07/19
01 μYVXβ TU βXμT
01 μYVDβ TU 1 Tgμ X β
T
μD
β
2013/7/19
4
推定方程式の例18
正規分布の場合
ポアソン分布の場合
01 μYVXβ TU
exp Tμ X β
2013/07/19
Tμ X β
μD X
β
exp Tiij i ij
j
D x
X β
01 μYVDβ TU
推定方程式の解き方-Newton-Raphson法-
19
2013/07/19
β
U(β)
β1 β00
一般化線形モデルの例
ポアソン回帰
結果変数は説明変数が与えられたもとで、ポアソン分布に従うと仮定
ある事象の発生回数や発生率を説明変数の関数としてモデル化
稀な事象に向いている
20
2013/07/19
ポアソン回帰が適している例
幼児の耳炎の発生回数
保険の請求率
機器の故障回数
バクテリアやウイルスのコロニーの数
殺人事件の発生率
21
2013/07/19
ポアソン分布と正規分布
ポアソン分布–稀な事象の場合は歪んでいる
–非負の整数値しか取らない
–パラメータは平均のみ
–分散は平均に等しい
正規分布
–左右対称
–取り得る値の範囲は-∞から+∞
–パラメータは平均と分散
22
2013/07/19
Poisson Distribution – Mean 0.123
2013/07/19
0 1 2 3
2013/7/19
5
Poisson Distribution – Mean 0.524
2013/07/19
0 1 2 3 4 5 6
Poisson Distribution – Mean 125
2013/07/19
0 1 2 3 4 5 6
Poisson Distribution – Mean 526
2013/07/190 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
通常の回帰分析を用いた場合の問題点
誤差が正規分布に従うと仮定
予測値が負の値になる可能性がある
分散が一定であることを仮定
27
2013/07/19
ポアソン回帰モデル28
2013/07/19
0 1 1 2 2log( ) ... k kX X X
0 1 1 2 2( ... )e k kX X X
ポアソン回帰のパラメータ推定値29
2013/07/19
ˆe Xの一単位変化あたり ̂
が何倍になるか(乗法効果)
例えば…
ˆe 1.20であれば、Xが一単位増加す
ると推定される平均は20%増加する
2013/7/19
6
例:耳炎の要因探索30
2013/07/19
耳炎の回数
年齢
海で頻繁に泳ぐかどうか
いつも泳ぐ場所(海岸または海岸以外)
性別
データの要約
結果変数のヒストグラム
カテゴリカルな説明変数の水準ごとの結果
変数の平均
結果変数の平均の対数と連続な説明変数の
散布図
31
2013/07/19
32
2013/07/19
33
2013/07/19
34
2013/07/19
35
2013/07/19
2013/7/19
7
36
2013/07/19
The GENMOD Procedure37
2013/07/19
PROC GENMOD DATA=SAS-data-set <options>;
CLASS variables </option>;
MODEL response=predictors </options>;
ESTIMATE 'label' effect values … <options>;
OUTPUT OUT=SAS-data-set keyword=name
</option>;
RUN;
Effect Coding38
2013/07/19
Income 1 Low 1 0
2 Medium 0 1
3 High -1 -1
Variable Value Label
Design
Variables
1 2
Reference Cell Coding39
2013/07/19
Income 1 Low 1 0
2 Medium 0 1
3 High 0 0
Variable Value Label
Design
Variables
1 2
GLM Coding40
2013/07/19
Income 1 Low 1 0
2 Medium 0 1
3 High 0 0
Variable Value Label
Design
Variables
1 2
0
0
1
3
ESTIMATEステートメントの指定方法
0 1 2*1 *0
Low e
41
1. 結果変数の発生数に関してLow Incomeと
Medium Incomeの比を推定する
2. まず、Low IncomeとMedium Incomeに
おける発生数の予測式を書き下す
Reference Cell Codingの場合
0 1 2*0 *1
Medium e
2013/07/19
2013/7/19
8
3. 発生数の予測式の比を取る
4. 求める比を推定するときの係数を特定する
Income 1 –1
ESTIMATEステートメントの指定方法
0 1 2 0 1 2( *1 *0) ( *0 *1)e
42
2013/07/19
0 1 2
0 1 2
*1 *0
Low
*0 *1
Medium
e
e
1 2( *1 *( 1))e
The ESTIMATE Statement43
2013/07/19
Estimate 'Low vs. Medium' Income 1 -1 / exp;
Estimate 'Low vs. High' Income 1 0 / exp;
Estimate 'Medium vs. High' Income 0 1/ exp;
GENMODプロシジャの指定方法44
2013/07/19
PROC GENMOD data=sasuser.earinfection;
CLASS swimmer (param=ref ref=first)
location (param=ref ref=first)
gender (param=ref ref=last);
MODEL infections = swimmer location gender
age age*age
/ dist=poi link=log type3;
RUN;
45
2013/07/19
Model Information
Data Set SASUSER.EARINFECTION
Distribution Poisson
Link Function Log
Dependent Variable infections
Number of Observations Read 287
Number of Observations Used 287
46
2013/07/19
Class Level Information
Class Value Design
Variables
swimmer Frequent 0
Occasional 1
location Beach 0
NonBeach 1
gender Female 1
Male 0
47
2013/07/19
Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF
Deviance 281 757.2632 2.6949
Scaled Deviance 281 757.2632 2.6949
Pearson Chi-Square 281 961.9065 3.4232
Scaled Pearson X2 281 961.9065 3.4232
Log Likelihood -234.2434理論値は1
1より大きいとOver Dispersion
2013/7/19
9
48
2013/07/19
Analysis Of Parameter Estimates
Parameter DF Estimate Standard Error Wald 95% Confidence Limits Chi-Square Pr > ChiSq
Intercept 1 2.5554 1.4200 -0.2277 5.3385 3.24 0.0719
swimmer Occasional 1 0.6036 0.1051 0.3977 0.8095 33.01 <.0001
location NonBeach 1 0.5073 0.1055 0.3005 0.7142 23.11 <.0001
gender Female 1 0.0674 0.1117 -0.1516 0.2864 0.36 0.5466
age 1 -0.2540 0.1373 -0.5232 0.0151 3.42 0.0643
age*age 1 0.0053 0.0032 -0.0009 0.0115 2.78 0.0952
Scale 0 1.0000 0.0000 1.0000 1.0000
49
2013/07/19
LR Statistics For Type 3 Analysis
Source DF Chi-Square Pr > ChiSq
swimmer 1 34.55 <.0001
location 1 23.70 <.0001
gender 1 0.36 0.5478
age 1 3.37 0.0662
age*age 1 2.74 0.0977
ESTIMATE statementの追加50
2013/07/19
PROC GENMOD data=sasuser.earinfection;
CLASS swimmer (param=ref ref=first)
location (param=ref ref=first)
gender (param=ref ref=last);
MODEL infections = swimmer location age gender
/ dist=poi link=log type3;
ESTIMATE 'Occasional vs. Frequent swimmer'
swimmer 1 / exp;
ESTIMATE 'Non-Beach vs. Beach' location 1 / exp;
ESTIMATE 'Female vs. Male' gender 1 / exp;
ESTIMATE 'Age' age -1 / exp;
RUN;
51
2013/07/19
Parameter Information
Parameter Effect swimmer location gender
Prm1 Intercept
Prm2 swimmer Occasional
Prm3 location NonBeach
Prm4 age
Prm5 gender Female
52
2013/07/19
Contrast Estimate Results
Label Estimate Standard Error Alpha Confidence
Limits
Chi-Square Pr > ChiSq
Occasional vs. Frequent swimmer 0.6086 0.1050 0.05 0.4028 0.8145 33.59 <.0001
Exp(Occasional vs. Frequent swimmer) 1.8379 0.1930 0.05 1.4960 2.2580
Non-Beach vs. Beach 0.4896 0.1048 0.05 0.2841 0.6951 21.81 <.0001
Exp(Non-Beach vs. Beach) 1.6317 0.1711 0.05 1.3286 2.0039
Female vs. Male 0.0294 0.1092 0.05 -0.1846 0.2433 0.07 0.7878
Exp(Female vs. Male) 1.0298 0.1124 0.05 0.8315 1.2755
Age 0.0261 0.0122 0.05 0.0021 0.0500 4.55 0.0330
Exp(Age) 1.0264 0.0125 0.05 1.0021 1.0513
Exp()のところに、発生回数が何倍になったかが出る
Over-dispersion
結果変数の分散が理論値よりも大きくなること
ポアソン分布の分散の理論値は期待値と等しい
計数データのバラツキは平均よりも大きくなることが多い
Over-dispersionになると、標準誤差を過小評価し、カイ二乗統計量を過大評価する
53
2013/07/19
2013/7/19
10
Over-dispersionになる原因
モデルに含まれていない効果があり、平均値の
違いを十分に説明できていない
外れ値が存在する
観測値間で正の相関がある
54
2013/07/19
55
Multiplicative Over-dispersion Factor
2013/07/19
2
df
( ) * ( )adj unadjSE SE
2
2 i i
i i
y
V
Over-dispersionの補正56
2013/07/19
PROC GENMOD data=sasuser.earinfection;
CLASS swimmer (param=ref ref=first)
location (param=ref ref=first)
gender (param=ref ref=last);
MODEL infections = swimmer location gender
age age*age
/ dist=poi link=log type3 pscale;
RUN;
57
2013/07/19
Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF
Deviance 282 760.0060 2.6951
Scaled Deviance 282 222.4214 0.7887
Pearson Chi-Square 282 963.5838 3.4170
Scaled Pearson X2 282 282.0000 1.0000
Log Likelihood -68.9544
58
2013/07/19
Analysis Of Parameter Estimates
Parameter DF Estimate Standard Error Wald 95% Confidence Limits Chi-Square Pr > ChiSq
Intercept 1 0.2310 0.5074 -0.7635 1.2255 0.21 0.6489
swimmer Occasional 1 0.6086 0.1941 0.2281 0.9891 9.83 0.0017
location NonBeach 1 0.4896 0.1938 0.1098 0.8694 6.38 0.0115
age 1 -0.0261 0.0226 -0.0703 0.0182 1.33 0.2487
gender Female 1 0.0294 0.2018 -0.3661 0.4249 0.02 0.8842
Scale 0 1.8485 0.0000 1.8485 1.8485
Note: The scale parameter was estimated by the square root of Pearson's Chi-Square/DOF.
Before adjustment
Analysis Of Parameter Estimates
Parameter DF Estimate Standard Error Wald 95% Confidence Limits Chi-Square Pr > ChiSq
Intercept 1 0.2310 0.2745 -0.3070 0.7690 0.71 0.4001
swimmer Occasional 1 0.6086 0.1050 0.4028 0.8145 33.59 <.0001
location NonBeach 1 0.4896 0.1048 0.2841 0.6951 21.81 <.0001
age 1 -0.0261 0.0122 -0.0500 -0.0021 4.55 0.0330
gender Female 1 0.0294 0.1092 -0.1846 0.2433 0.07 0.7878
Scale 0 1.0000 0.0000 1.0000 1.0000
After adjustment 線形回帰モデルの拡張59
2013/07/19
結果変数の型
二値
多値
計数
相関あり
一般線形モデル(GLM)
・回帰分析(REG)
・分散分析(ANOVA)
・t検定(TTEST)
一般線形混合モデル(MIXED)
REPEATED | RANDOM
周辺モデル
連続
ロジスティック回帰(LOGISTIC)
対数線形モデル(CATMOD)
ポアソン回帰
一般化線形モデル(GENMOD)
一般化線形混合モデル(NLMIXED)
(GLIMMIX)
変量効果モデル相関なし
モデル拡張GEE
R-side G-side
2013/7/19
11
Generalized Estimating Equations
(GEE)とは
一般化線型モデルを、経時測定データなどの観測値間に相関が存在する場合に拡張したもの
–Liang, KY. and Zeger, SL. (1986).
Biometrika 73:13-22.
60
2013/07/19
相関のモデル化
周辺モデル
–結果変数の期待値(周辺期待値)と相関を別々にモデル化
変量効果モデル
–結果変数の期待値に個人ごとの効果も含める
–個人ごとの効果は分布すると仮定
Diggle, PJ., Liang KY., Zeger. SL. (1994). Analysis of Longitudinal Data.
Oxford University Press.
61
2013/07/19
GEEモデルの利点
対象者ごとの測定回数は等しくなくともよい
対象者ごとの測定時点が揃っていなくてもよい
結果変数が従う確率分布は正規分布でなくてもよい (一般化線型モデルと共通)
連続型、カテゴリカル型の共変量を扱える共変量は時間依存性でもよい
欠測データに関しては、all-available pairs
methodを用いることができる
62
2013/07/19
GEE Regression Models
GEEモデルは一般化線型モデルを以下の
ように拡張
–実験単位内における観測値の相関を推定し、
回帰係数やその標準誤差を推定するときに
考慮に入れる
–回帰係数のロバスト分散を推定する
63
2013/07/19
Generalized Estimating Equations64
一般化推定方程式
ロバスト分散推定量
1 1
1 1 1 1ˆ cov
T T T
i i i i i ii i i i iCov V V Y V V
1
1
; 0
Tm
i i i i
i
U V Y
2013/07/19
Vi : 作業(working)共分散行列
Point !!
個人ごとに推定方程式が立てられている
GEEのための分散共分散行列65
2013/07/19
123123123123
111222333444
Subject Time
444222666888
100000100111
X Y
1V
2V
3V
4V
0
0
2013/7/19
12
準尤度(Quasi-Likelihood)
対数準尤度:推定方程式をある範囲で積分したもの
𝑄 𝜇𝑖 , 𝑦𝑖 = 𝑦𝑖
𝜇𝑖 𝑦𝑖−𝑡
𝜙𝑎 𝑡𝑑𝑡, 𝑄𝐿 𝝁, 𝜙, 𝒚 = 𝑖=1
𝑛 𝑓𝑖𝑤𝑖𝑦𝑖−𝜇𝑖
𝜙𝑎 𝜇𝑖
GEEの推定方程式は、準尤度で正当化されている尤度としては適切ではないかもしれないが、尤度の代わりに用いてもそれほど悪くはないであろう
準尤度を用いることにすると、対象者の観測値の同時分布を特定する必要がない
離散変数の場合、対象者ごとの繰り返し測定値の同時分布を特定することは困難
66
2013/07/19
対数準尤度 スコア関数微分
積分
GEEの推定アルゴリズム
1. 通常の一般化線型モデルを当てはめ、
平均パラメータを推定する
2. 推定されたパラメータを固定したもとで、ピアソン標準
化残差を計算し、これを用いて仮定した相関構造を
持つ作業相関行列のパラメータを推定する
3. 作業相関行列を考慮して、平均パラメータを推定し
直す
4. モデルが収束するまでステップ2と3を繰り返す
67
2013/07/19
線形回帰モデルの拡張68
2013/07/19
結果変数の型
二値
多値
計数
相関あり
一般線形モデル(GLM)
・回帰分析(REG)
・分散分析(ANOVA)
・t検定(TTEST)
一般線形混合モデル(MIXED)
REPEATED | RANDOM
周辺モデル
連続
ロジスティック回帰(LOGISTIC)
対数線形モデル(CATMOD)
ポアソン回帰
一般化線形モデル(GENMOD)
一般化線形混合モデル(NLMIXED)
(GLIMMIX)
変量効果モデル相関なし
モデル拡張GEE
R-side G-side
一般化線型混合効果モデルとは
一般化線形モデルにおける説明変数において、固定効果と変量効果を含むモデル
問題は、変量効果をどのように処理するか?
推定方法は3つ
・ ラプラス近似法 (NONMEM)
・ ガウス-エルミート求積法 (NLMIXED)
・ 疑似尤度法 (Pseudo-Likelihood)
69
2013/07/19
ラプラス近似
1774年に発表された方法
70
ピエール=シモン・ラプラス(Pierre-Simon Laplace, 1749 - 1827)
𝐼 = 𝑓 𝜃 𝑒−𝑛ℎ 𝜃 𝑑𝜃
𝐼 = 𝑓 𝜃 +𝑓′ 𝜃
1!𝜃 − 𝜃 +
𝑓′′ 𝜃
2!𝜃 − 𝜃
2
× exp −𝑛ℎ 𝜃 −𝑛ℎ′ 𝜃
1!𝜃 − 𝜃 −
𝑛ℎ′′ 𝜃
2!𝜃 − 𝜃
2𝑑𝜃
𝐼 = 𝑒−𝑛ℎ 𝜃 𝑓 𝜃 + 𝑓′ 𝜃 𝜃 − 𝜃 +𝑓′′ 𝜃
2!𝜃 − 𝜃
2
× exp −𝜃 − 𝜃
2
2 𝑛ℎ′′ 𝜃−1 𝑑𝜃
𝐼 ≈ 𝑒−𝑛ℎ 𝜃 𝑓 𝜃2𝜋
𝑛ℎ′′ 𝜃1 +
𝑓′′ 𝜃
2𝑓 𝜃𝑉𝑎𝑟 𝜃
2013/07/19
周辺分布のラプラス近似71
𝑝 𝒚 = 𝑝 𝒚|𝜸, 𝜷,𝜙 𝑝 𝜸|𝜽 𝑑𝜸
= exp log 𝑝 𝒚|𝜸,𝜷,𝜙 + log 𝑝 𝜸|𝜽 𝑑𝜸
= exp 𝑐𝑙𝑓 𝒚,𝜷, 𝜽; 𝜸 𝑑𝜸
𝐿 𝜷, 𝜽; 𝜸, 𝒚 =2𝜋
𝑐𝑙
𝑛𝛾 2
−𝑓′′ 𝒚, 𝜷, 𝜽; 𝜸 − 1 2𝑒𝑐𝑙𝑓 𝒚,𝜷,𝜽; 𝜸
𝑓′′ 𝒚, 𝜷,𝜽; 𝜸 = 𝝏𝟐𝑓 𝒚,𝜷, 𝜽; 𝜸
𝝏𝜸𝝏𝜸′ 𝜸
𝜸の推定𝝏𝑓 𝒚,𝜷, 𝜽; 𝜸
𝝏𝜸= 𝟎
Note:
変量効果の期待値まわりでの積分の近似
扱えるのはG-sideの変量効果のみ
2013/07/19
2013/7/19
13
ガウスーエルミート求積法72
−∞
∞
𝑓 𝑥 𝑝 𝑥 𝑑𝑥 ≈
𝑖=1
𝑁
𝑤𝑖𝑓 𝑥𝑖
積分を、重み付き和で近似する方法
Note:
変量効果の期待値まわりでの積分の近似
扱えるのはG-sideの変量効果のみ対象者ごとに処理する必要あり
2013/07/19
疑似尤度法
1.変量効果の期待値もしくは予測値周りでの、疑似データを考える
2.この疑似データに対して、一般線形混合効果モデルを当てはめる
3.パラメータ推定値を更新して1,2のプロセスを収束するまで繰り返す
73
2013/07/19
疑似データ(Pseudo-Response)74
𝐸 𝒀|𝜸 = 𝑔−1 𝑿𝜷 + 𝒁𝜸 = 𝑔−1 𝜼 = 𝝁
𝑔−1 𝜼 ≐ 𝑔−1 𝜼 + △ 𝑿 𝜷 − 𝜷 + △ 𝒁 𝜸 − 𝜸 △=
𝜕𝑔−1 𝜼
𝜕𝜼 𝜷, 𝜸 △−1 𝝁 − 𝑔−1 𝜼 + 𝑿 𝜷 + 𝒁 𝜸 ≐ 𝑿𝜷 + 𝒁𝜸
𝑷 ≡ △−1 𝝁 − 𝑔−1 𝜼 + 𝑿 𝜷 + 𝒁 𝜸
𝑷 = 𝑿𝜷 + 𝒁𝜸 + 𝜺
𝜸~𝑁 𝟎,𝐆 𝑉𝑎𝑟 𝐘|𝜸 = 𝑨12𝐑𝑨
12
𝐀はモデルの分散関数を対角にならべた行列
2013/07/19
分散成分の推定(疑似尤度の種類)
Maximum log pseudo-likelihood
Restricted log pseudo-likelihood
75
𝑙 𝜽,𝒑 = −1
2log 𝐕 𝜽 −
1
2𝐫𝐕 𝜽 −1𝐫′ −
𝑓
2log(2𝜋)
𝑙𝑅 𝜽,𝒑 = −1
2log 𝐕 𝜽 −
1
2log 𝐗𝐕 𝜽 −1𝐗′ −
1
2𝐫𝐕 𝜽 −1𝐫′ −
𝑓 − 𝑘
2log(2𝜋)
𝑓は総観測値数
𝑘は𝐗のランク
2013/07/19
推定時の変量効果の置き方
Subject-Specific
Population-Averaged
76
𝛽 = 𝛽 𝛾 = 𝛾
𝛽 = 𝛽 𝛾 = 𝟎
2013/07/19
推定方法の分類77
Type of PLExpansion Locus
Residual RSPL RMPL
Maximum MSPL MMPL
デフォルト
2013/07/19
2013/7/19
14
Motivating Example 1
トカゲの交尾実験
・2品種:rough butt, whiteside
・オス10匹、メス10匹、計20匹ずつ用意
・オスーメスの組み合わせ4種類で、異なる交尾確率を考慮(固定効果)
(R,R), (R,W), (W,R), (W,W)
・個体ごとに異なる交尾確率を考慮(変量効果)
78
log𝜋𝑘𝑙
1 − 𝜋𝑘𝑙= 𝜏𝑘𝑙 + 𝛾𝑓 + 𝛾𝑚
品種の違いによる固定効果
メスの個体の違いによる変量効果
オスの個体の違いによる変量効果
2013/07/19
Salamander Data79
data salamander;input day fpop$ fnum mpop$ mnum mating @@;
datalines; 4 rb 1 rb 1 1 4 rb 2 rb 5 1 4 rb 3 rb 2 1 4 rb 4 rb 4 1 4 rb 5 rb 3 1 4 rb 6 ws 9 1 4 rb 7 ws 8 0 4 rb 8 ws 6 0 4 rb 9 ws 10 0 4 rb 10 ws 7 0 4 ws 1 rb 9 0 4 ws 2 rb 7 0 4 ws 3 rb 8 0 4 ws 4 rb 10 0 4 ws 5 rb 6 0 4 ws 6 ws 5 0 4 ws 7 ws 4 1 4 ws 8 ws 1 1 4 ws 9 ws 3 1 4 ws 10 ws 2 1
day 実験日fpop$ メスの種類fnum メスのIDmpop$ オスの種類mnum オスのIDmating 交尾の有無
(1あり0なし)
2013/07/19
解析プログラム80
proc glimmix data=salamander;
class fpop fnum mpop mnum;
model mating(event=‘1’) = fpop|mpop / dist=binary;
random fpop*fnum mpop*mnum;
lsmeans fpop*mpop / ilink;
run;
2013/07/19
Model Information81
Data Set WORK.SALAMANDER
Response Variable mating
Response Distribution Binary
Link Function Logit
Variance Function Default
Variance Matrix Not blocked
Estimation Technique Residual PL
Degrees of Freedom Method Containment
2013/07/19
Class Level Informaiton82
Class Levels Values
fpop 2 rb ws
fnum 10 1 2 3 4 5 6 7 8 9 10
mpop 2 rb ws
mnum 10 1 2 3 4 5 6 7 8 9 10
Number of Observations Read 120
Number of Observations Used 120
2013/07/19
Response Profile83
Ordered Total
Value mating Frequency
1 0 50
2 1 70
The GLIMMIX procedure is modeling the probability that mating='1'.
2013/07/19
2013/7/19
15
Dimensions84
G-side Cov. Parameters 2
Columns in X 9
Columns in Z 40
Subjects (Blocks in V) 1
Max Obs per Subject 120
2013/07/19
Optimization Information85
Optimization Technique Newton-Raphson with Ridging
Parameters in Optimization 2
Lower Boundaries 2
Upper Boundaries 0
Fixed Effects Profiled
Starting From Data
2013/07/19
Iteration History86
Objective Max
Iteration Restarts Subiterations Function Change Gradient
0 0 4 537.09173501 2.00000000 1.719E-8
1 0 3 544.12516903 0.66319780 1.14E-8
2 0 2 545.89139118 0.13539318 1.609E-6
3 0 2 546.10489538 0.01742065 5.89E-10
4 0 1 546.13075146 0.00212475 9.654E-7
5 0 1 546.13374731 0.00025072 1.346E-8
6 0 1 546.13409761 0.00002931 1.84E-10
7 0 0 546.13413861 0.00000000 4.285E-6
Convergence criterion (PCONV=1.11022E-8) satisfied.
2013/07/19
Covariance Parameter Estimates87
Standard
Cov Parm Estimate Error
fpop*fnum 1.4099 0.8871
mpop*mnum 0.08963 0.4102
メスの方がバラツキが大きい
2013/07/19
Type III Tests of Fixed Effects88
Num DenEffect DF DF F Value Pr > F
fpop 1 18 2.86 0.1081mpop 1 17 4.71 0.0444fpop*mpop 1 81 9.61 0.0027
2013/07/19
fpop*mpop Least Squares Means89
Standard
Standard Error
fpop mpop Estimate Error DF t Value Pr > |t| Mean Mean
rb rb 1.1629 0.5961 81 1.95 0.0545 0.7619 0.1081
rb ws 0.7839 0.5729 81 1.37 0.1750 0.6865 0.1233
ws rb -1.4119 0.6143 81 -2.30 0.0241 0.1959 0.09678
ws ws 1.0151 0.5871 81 1.73 0.0876 0.7340 0.1146
メスWS,オスRBの組み合わせの交尾率が著しく低い
2013/07/19
2013/7/19
16
LS-Means Diffogram90
2013/07/19
SLICEDIFF option91
Simple Effect Comparisons of fpop*mpop Least Squares Means By mpop
Simple
Effect Standard
Level fpop _fpop Estimate Error DF t Value Pr > |t|
mpop rb rb ws 2.5748 0.8458 81 3.04 0.0031
mpop ws rb ws -0.2312 0.8092 81 -0.29 0.7758
Simple Effect Comparisons of fpop*mpop Least Squares Means By fpop
Simple
Effect Standard
Level mpop _mpop Estimate Error DF t Value Pr > |t|
fpop rb rb ws 0.3790 0.6268 81 0.60 0.5471
fpop ws rb ws -2.4270 0.6793 81 -3.57 0.0006
2013/07/19
Motivating Example 2
ヘルニア手術のデータ
・32名のヘルニア患者
・性、年齢、術後の身体状態(良い、悪い)
・結果変数:手術が通常通りだったか否か(二値)
:手術から退院までの日数(計数)
・2つの結果変数を同時に考慮したい
92
2013/07/19
Hernio Data93
data hernio;
input patient age gender$ OKstatus leave los;
datalines;
1 78 m 1 0 9
2 60 m 1 0 4
3 68 m 1 1 7
4 62 m 0 1 35
5 76 m 0 0 9
6 76 m 1 1 7
7 64 m 1 1 5
8 74 f 1 1 16
9 68 m 0 1 7
10 79 f 1 0 11
Patient 患者ID
Age 年齢gender$ 性Okstatus 術後の身体状態(1良い 0悪い)
Leave 手術が通常通りだったか否か(1通常0非通常)
Los 手術から退院までの日数(計数)
2013/07/19
データの加工
LeaveとLosをひとつの変数Responseにまとめる
94
data hernio_uv;
length dist $7;
set hernio;
response = (leave=1);
dist = "Binary";
output;
response = los;
dist = "Poisson";
output;
keep patient age OKstatus response dist;
run;
ロジスティック回帰
proc glimmix
data=hernio_uv(where=(dist="Binary"));
model response(event='1') = age
OKStatus / s dist=binary;
run;
95
2013/07/19
2013/7/19
17
あてはまりの指標96
Fit Statistics
-2 Log Likelihood 32.77
AIC (smaller is better) 38.77
AICC (smaller is better) 39.63
BIC (smaller is better) 43.17
CAIC (smaller is better) 46.17
HQIC (smaller is better) 40.23
Pearson Chi-Square 30.37
Pearson Chi-Square / DF 1.05
Over Dispersionは、なさそう
2013/07/19
パラメータ推定値97
Parameter Estimates
Effect Estimate Standard Error
DF t Value Pr > |t|
Intercept 5.7694 2.8245 29 2.04 0.0503
age -0.07725 0.03761 29 -2.05 0.0491
OKstatus -0.3516 1.0253 29 -0.34 0.7341
2013/07/19
ポアソン回帰
proc glimmix
data=hernio_uv(where=(dist="Poisson");
model response = age OKStatus / s
dist=Poisson;
run;
98
2013/07/19
あてはまりの指標99
Fit Statistics
-2 Log Likelihood 215.52
AIC (smaller is better) 221.52
AICC (smaller is better) 222.38
BIC (smaller is better) 225.92
CAIC (smaller is better) 228.92
HQIC (smaller is better) 222.98
Pearson Chi-Square 129.98
Pearson Chi-Square / DF 4.48
Over Dispersionが、ありそう
2013/07/19
パラメータ推定値100
Parameter Estimates
Effect Estimate Standard Error
DF t Value Pr > |t|
Intercept 1.2640 0.3393 29 3.72 0.0008
age 0.01525 0.004454 29 3.42 0.0019
OKstatus -0.3301 0.1562 29 -2.11 0.0433
2013/07/19
二変量の同時モデル化 (独立)
proc glimmix data=hernio_uv;
class dist;
model response(event=‘1’) =
dist dist*age dist*OKstatus /
noint s dist=byobs(dist);
run;
101
2013/07/19
2013/7/19
18
あてはまりの指標102
Fit Statistics
Description Binary Poisson Total
-2 Log Likelihood 32.77 215.52 248.29
AIC (smaller is better) 44.77 227.52 260.29
AICC (smaller is better) 48.13 230.88 261.77
BIC (smaller is better) 53.56 236.32 273.25
CAIC (smaller is better) 59.56 242.32 279.25
HQIC (smaller is better) 47.68 230.44 265.40
Pearson Chi-Square 30.37 129.98 160.35
Pearson Chi-Square / DF 1.05 4.48 2.76
2013/07/19
パラメータ推定値103
Parameter Estimates
Effect dist Estimate Standard Error DF t Value Pr > |t|
dist Binary 5.7694 2.8245 58 2.04 0.0456
dist Poisson 1.2640 0.3393 58 3.72 0.0004
age*dist Binary -0.07725 0.03761 58 -2.05 0.0445
age*dist Poisson 0.01525 0.004454 58 3.42 0.0011
OKstatus*dist Binary -0.3516 1.0253 58 -0.34 0.7329
OKstatus*dist Poisson -0.3301 0.1562 58 -2.11 0.0389
2013/07/19
二変量の同時モデル化 (変量切片)
proc glimmix data=hernio_uv;
class dist;
model response(event=‘1’) =
dist dist*age dist*OKstatus /
noint s dist=byobs(dist);
random int / subject=patient;
run;
104
2013/07/19
あてはまりの指標105
Fit Statistics
-2 Res Log Pseudo-Likelihood 226.71
Generalized Chi-Square 52.25
Gener. Chi-Square / DF 0.90
Over Dispersionは、なさそう
2013/07/19
共分散パラメータ推定値106
Covariance Parameter Estimates
Cov Parm Subject Estimate Standard Error
Intercept patient 0.2990 0.1116
2013/07/19
固定効果パラメータ推定値107
Solutions for Fixed Effects
Effect dist Estimate Standard Error DF t Value Pr > |t|
dist Binary 5.7783 2.9048 29 1.99 0.0562
dist Poisson 0.8410 0.5696 29 1.48 0.1506
age*dist Binary -0.07572 0.03791 29 -2.00 0.0552
age*dist Poisson 0.01875 0.007383 29 2.54 0.0167
OKstatus*dist Binary -0.4697 1.1251 29 -0.42 0.6794
OKstatus*dist Poisson -0.1856 0.3020 29 -0.61 0.5435
入院日数と術後身体状態の関連性が、変量効果を入れたら消失
2013/07/19
2013/7/19
19
二変量の同時モデル化 (周辺構造)
proc glimmix data=hernio_uv;
class dist;
model response(event=‘1’) =
dist dist*age dist*OKstatus /
noint s dist=byobs(dist);
random _residual_ /
subject=patient type=chol;
run;
108
コレスキー根の構造分散共分散が少なくとも半正定値になるので推定が安定
GLIMMIXにはREPEATED
ステートメントはないR-Sideの構造の指定は_residual_を指定する
あてはまりの指標109
Fit Statistics
-2 Res Log Pseudo-Likelihood 240.98
Generalized Chi-Square 58.00
Gener. Chi-Square / DF 1.00
Over Dispersionは、ない
2013/07/19
共分散パラメータ推定値110
Covariance Parameter Estimates
Cov Parm Subject Estimate Standard Error
CHOL(1,1) patient 1.0162 0.1334
CHOL(2,1) patient 0.3942 0.3893
CHOL(2,2) patient 2.0819 0.2734
2013/07/19
固定効果パラメータ推定値111
Solutions for Fixed Effects
Effect dist Estimate Standard Error DF t Value Pr > |t|
dist Binary 5.6514 2.8283 26 2.00 0.0563
dist Poisson 1.2463 0.7189 26 1.73 0.0948
age*dist Binary -0.07568 0.03765 26 -2.01 0.0549
age*dist Poisson 0.01548 0.009432 26 1.64 0.1128
OKstatus*dist Binary -0.3421 1.0384 26 -0.33 0.7445
OKstatus*dist Poisson -0.3253 0.3310 26 -0.98 0.3349
2013/07/19
モデル間比較112
Solutions for Fixed Effects (周辺構造モデル)
Effect dist Estimate Standard Error DF t Value Pr > |t|
dist Binary 5.6514 2.8283 26 2.00 0.0563
dist Poisson 1.2463 0.7189 26 1.73 0.0948
age*dist Binary -0.07568 0.03765 26 -2.01 0.0549
age*dist Poisson 0.01548 0.009432 26 1.64 0.1128
OKstatus*dist Binary -0.3421 1.0384 26 -0.33 0.7445
OKstatus*dist Poisson -0.3253 0.3310 26 -0.98 0.3349
Solutions for Fixed Effects (変量切片モデル)
Effect dist Estimate Standard Error DF t Value Pr > |t|
dist Binary 5.7783 2.9048 29 1.99 0.0562
dist Poisson 0.8410 0.5696 29 1.48 0.1506
age*dist Binary -0.07572 0.03791 29 -2.00 0.0552
age*dist Poisson 0.01875 0.007383 29 2.54 0.0167
OKstatus*dist Binary -0.4697 1.1251 29 -0.42 0.6794
OKstatus*dist Poisson -0.1856 0.3020 29 -0.61 0.5435
まとめ
Motivating Example
線型回帰モデルの拡張
一般線形混合モデル
一般化線形モデル
例:ポアソン回帰
GEE
一般化線形混合モデル
Motivating Exampleの解析
113
2013/07/19