39
http://statdtedm.6to23.com 第第第第 第第第第第第—— Cox 第第 Proportional Hazard Model ——Cox’s Regression 华华华华华华华华华华华华 华华华华华华华华华华华华

第十九章 比例风险模型 —— Cox 回归 Proportional Hazard Model —— Cox ’ s Regression

Embed Size (px)

DESCRIPTION

第十九章 比例风险模型 —— Cox 回归 Proportional Hazard Model —— Cox ’ s Regression. 华中科技大学同济医学院流统系 宇传华. Cox 回归( Cox regression ). 是一种允许资料有 “ 删失(或截尾) ” 数据存在的,可以同时分析众多因素对 生存时间 影响的 多变量 生存分析方法。是一种 半参数 方法。. 生存分析方法. 一般可以分为参数、非参数、半参数三类。 - PowerPoint PPT Presentation

Citation preview

( http://statdtedm.6to23.com

第十九章 比例风险模型—— Cox 回归 Proportional Hazard Model ——C

ox’s Regression

华中科技大学同济医学院流统系 宇传华中科技大学同济医学院流统系 宇传华华

( http://statdtedm.6to23.com

是一种允许资料有“删失(或截尾)”数据

存在的,可以同时分析众多因素对生存时间影

响的多变量生存分析方法。是一种半参数方法。

CoxCox 回归(回归( Cox regressionCox regression ))

( http://statdtedm.6to23.com

生存分析方法生存分析方法 一般可以分为参数、非参数、半参数三类。

1 、参数法:生存时间的分布符合某一特定类型,如对数正态分布、 weibull 分布、指数分布、 Gamma 分布等,则可用特定的分布函数分析,这称之为参数法(参见书第 20 章, SAS 的 LifeReg 过程步)。

2 、非参数法:用 Kaplan-meier 法、或寿命表法求生存率,作生存曲线;用 logrank 检验或 Breslow 检验比较两组或几组生存率

差异有无统计学意义( SAS 的 LifeTest 过程步) 。

33 、半参数法: Cox 比例风险模型( SAS 的 PHReg 过程步)

( http://statdtedm.6to23.com

一.模型结构:一.模型结构: 设有 n 名病人( i = 1 , 2 ,… ,n ),第 i 名病人的生

存时间为 ti ,同时该病人具有一组伴随变量 xi1 ,xi2 , xi3, …, x

ip 。则模型为:

第一节 模型结构与参数估计

0 1 1 2

1 1 2

0 1 1 2 2

02

2

( X) ( ) exp

ln ( X) ln ( ) (

( )

)

( X)ln

( )

p p

p

p p

p

h

h t h t X X X

X X

t h t

h

X

hX

t

t

X X

( http://statdtedm.6to23.com

0 1 1 2 2( ,X) ( ) exp( )p ph t h t X X X

( http://statdtedm.6to23.com

比例风险举例病人 2 的死亡风险是病人 1 的 5 倍

0.0

1.0

2.0

3.0

4.0

5

ha

za

rd

0 50 100 150 200analysis time

Patient 1 Patient 2

( http://statdtedm.6to23.com

比例风险 ( 假定违背 ) 举例治疗组与安慰剂病人的死亡风险不呈比例

Source: Kay. Pharmaceut. Statist. 2004; 3: 295–297

( http://statdtedm.6to23.com

风险——指瞬间风险(风险——指瞬间风险( instantaneous hazard ),或 ,或 force of mortality (死亡力)死亡力) , 用 h(t)表示 , 是在时间点 t 尚存个体在短暂时期 (Δ) 内 发生死亡的危险程度。即指生存到时间 t 的病人,从 t 到( t+Δ )这一非常小时间区间内的瞬间死亡概率。 如 Kaplan - Meier 法计算的死亡概率 qi 就是 h(t)的估计值。

0

( ( , ) | )( ) lim

P t t th t

在 瞬间死亡 在时刻尚存者

风险函数(风险函数( Hazard function )

( http://statdtedm.6to23.com

二.回归系数的估计方法二.回归系数的估计方法

( http://statdtedm.6to23.com

偏似然函数(偏似然函数( partial likelihood functionpartial likelihood function ,, LL

pp ))( ) ( )0 1 1

1 1 0 1 1

( )1 1

1 1 1

( ) exp( )

( ) exp( )

exp( )

exp( )

i

i

d di i p ip

p ii i i j p jp

j R

di p ip

i j p jpj R

h t X XL q

h t X X

X X

X X

非删失时点数 非删失时点数

非删失时点数

分母中分母中 jj∈∈RRii 表示在表示在 ttii 时刻的所有个体时刻的所有个体(包括删失个体)风险之和,(包括删失个体)风险之和,分子分子只反映观察只反映观察到的死亡风险。到的死亡风险。

只有非删失(即死亡)个体才有偏似然函数只有非删失(即死亡)个体才有偏似然函数

( http://statdtedm.6to23.com

偏似然函数(偏似然函数( partial likelihood functionpartial likelihood function ,, LL

pp ))( ) ( )

1 1

1 1

0 1 1

1 1 0 1 1

( )1 1

1 1 1

exp( )

e

( )exp( )

( ) ex

xp(

p( )

exp( )

p( )

)

ex

i

i

i

d di i p ip

p ii i i j p jp

j R

i p ipp

j p jpj

di p ip

i j p pj R

R

j

h t X XL q

h t X X

X X

X

X X

X X

X

L

非删失时点数 非删失时点数

非删失时点数

为了计算机计算,1

i

n

i

i

i

i

1 第个体死亡其中 =

0 第个体删失

( http://statdtedm.6to23.com

对数偏似然函数对数偏似然函数 [ l([ l()) == lnlnLLp p ]]

1 1 1 11 1

l( ) ln

( ) ln ( )

l( )0,

Logistic

i

p

d d

i p ip j p jpi i j R

L

x x x x

d

d

对数偏似然函数

令 求解回归参数。

(求解方法类似 回归)

( http://statdtedm.6to23.com

病人 处理 组号

性别(男=1)

生存 天数

结局(死=1)

风险函数 (因人而异)

风险率 (随时变化)

Name x1 x2 t d h(t)=h0(t)2211 xbxbe 18天 48天 90 天

王一 1 1 18 1 h0(t)21 bbe

h0(18)21 bbe

黄二 0 0 48 1 h0(t) h0(18)0e h0(48)

0e

张三 0 1 70 0 h0(t)2be h0(18)

2be h0(48)2be

李四 1 0 90 1 h0(t)1be h0(18)

1be h0(48)1be h0(90) 1be

条件死亡概率 (第 i个死亡时刻)

)()( ththq jii , 1 2 1

1 2 21 12 10 0

1, ,

e eb

b b b

i b b b bb b

e eq

e ee e ee

偏似然函数 (条件概率连乘) kp qqqL 21 ,

1 2 1

1 2 2 1 2 1 10 0

1

e e

b b b

p b b b b b b b

e eL

e e e e e e

图 19-1 Cox回归结构与原理示意图 (4例肺癌)

+

( http://statdtedm.6to23.com

第二节 回归系数及其假设检验

1. 实例与 SAS 程序2. 回归系数及其解释3. 回归模型及回归系数的假设检验4. 模型的筛选及有关问题

( http://statdtedm.6to23.com

1. 实例与 SAS 程序

例 19-1 某医师对一所医院 1988年收治的 16 例鼻腔淋巴瘤患者随访了 13年,数据见表 19-1 ,试作 Cox 模型分析。

( http://statdtedm.6to23.com

表 19-1 鼻腔淋巴瘤随访资料

项 目 登 记 (因 子 ) 观 察 记 录 整 理

编号

性别 (男 )

年龄

分期

鼻血

放疗

化疗

开始日期 终止日期 结局 (死 )

生存 天数

1 1 4 5 2 2 0 1 8 8 - 1 - 1 7 8 9 - 8 - 1 7 1 5 7 8 2 0 3 6 2 2 0 1 8 8 - 1 - 2 1 9 2 - 4 - 1 7 1 1 5 4 9 3 1 5 7 2 2 1 0 8 8 - 2 - 1 9 0 - 8 - 2 7 1 9 3 8 4 0 4 5 2 0 1 0 8 8 - 2 - 2 0 0 - 1 2 - 3 1 0 4 7 1 7 5 0 4 2 2 0 1 1 8 8 - 3 - 1 5 9 9 - 6 - 1 6 1 4 111 6 0 3 9 2 1 0 1 8 8 - 4 - 2 8 9 1 - 9 - 2 5 1 1 2 4 5 7 1 3 8 2 1 1 1 8 8 - 5 - 6 0 0 - 6 - 2 6 1 4 4 3 5 8 1 4 5 2 2 1 0 8 8 - 6 - 2 4 9 8 - 9 - 3 0 1 3 7 5 0 9 1 3 0 2 0 1 0 8 8 - 7 - 4 9 9 - 5 - 5 1 3 9 5 8 10 0 4 5 2 1 0 1 8 8 - 7 - 2 5 9 5 - 8 - 1 8 1 2 5 8 1 11 0 4 5 3 1 0 1 8 8 - 8 - 2 9 8 - 5 - 1 3 1 3 5 7 2 12 1 5 7 2 1 1 0 8 8 - 9 - 1 9 6 - 9 - 1 7 1 2 9 3 8 13 0 5 7 2 2 0 1 8 8 - 1 0 - 1 2 9 4 - 1 - 2 5 1 1 9 3 2 14 1 4 9 2 2 1 1 8 8 - 1 0 - 1 5 9 7 - 7 - 2 5 1 3 2 0 5 15 1 3 3 2 1 0 1 8 8 - 11 - 5 9 8 - 4 - 1 8 1 3 4 5 1 16 0 5 1 2 2 1 0 8 8 - 1 2 - 1 9 5 - 5 - 2 2 1 2 3 6 3

( http://statdtedm.6to23.com

datadata a; a; inputinput num sex age stage blood xray chmthrp censor day; num sex age stage blood xray chmthrp censor day;cardscards;;11 11 4545 22 22 00 11 11 578 57822 00 3636 22 22 00 11 11 1549154933 11 5757 22 22 11 00 11 938 93844 00 4545 22 00 11 00 00 4717471755 00 4242 22 00 11 11 11 4111411166 00 3939 22 11 00 11 11 1245124577 11 3838 22 11 11 11 11 4435443588 11 4545 22 22 11 00 11 3750375099 11 3030 22 00 11 00 11 395839581010 00 4545 22 11 00 11 11 258125811111 00 4545 33 11 00 11 11 357235721212 11 5757 22 11 11 00 11 293829381313 00 5757 22 22 00 11 11 193219321414 11 4949 22 22 11 11 11 320532051515 11 3333 22 11 00 11 11 345134511616 00 5151 22 22 11 00 11 23632363;;

PROCPROC PHREGPHREG;;ModelModel day*censor( day*censor(00)=sex age stage blood xray chmthrp/ )=sex age stage blood xray chmthrp/ risklimitsrisklimits; ; RUNRUN;;

SASSAS 程序程序

( http://statdtedm.6to23.com

SASSAS 程序输出结果程序输出结果 The SAS System 16:31 Saturday, December 4, 2005 6

The PHREG Procedure

Analysis of Maximum Likelihood Estimates

Parameter Standard Hazard 95% Hazard Ratio

Variable DF Estimate Error Chi-Square Pr>ChiSq Ratio Confidence Limits

sex 1 0.26175 0.89551 0.0854 0.7701 1.299 0.225 7.515

age 1 0.05274 0.05286 0.9955 0.3184 1.054 0.950 1.169

stage 1 -1.27386 1.26111 1.0203 0.3124 0.280 0.024 3.313

blood 1 1.10626 0.61835 3.2007 0.0736 3.023 0.900 10.158

xray 1 -2.58712 1.11364 5.3969 0.0202 0.075 0.008 0.667

chmthrp 1 -0.54082 0.84818 0.4066 0.5237 0.582 0.110 3.070

( http://statdtedm.6to23.com

2. 2. 回归系数及其解释 回归系数及其解释 回归系数实际上是回归系数实际上是偏回归系数偏回归系数,其意义与多元线性回,其意义与多元线性回归模型或归模型或 LogisticLogistic 回归模型中的偏回归系数的意义相似。回归模型中的偏回归系数的意义相似。表示控制其他因素条件下,各个因素对回归方程的独立表示控制其他因素条件下,各个因素对回归方程的独立贡献。贡献。

观察值经过标准化变换后所求得的回归系数称为观察值经过标准化变换后所求得的回归系数称为标准标准偏回归系数偏回归系数 bb'' 。。

' ,j j jb S b

是相对值用于比较自变量对于模型的贡献。

( http://statdtedm.6to23.com

2. 2. 回归系数及其解释 (续回归系数及其解释 (续11 ))风 险 比 ( r i s k r a t i o, 记 为 tRR )

1 1 2 20

( )Risk exp( )

( ) p p

h tX X X

h t 风险( )

如 X 1 改 变 1 个 单 位 , 即 X 1= a 改 变 到 X 1= a+ 1 时 ,

风 险 比 ( r i s k r a t i o )= 1 2 21 1

1 2 2

exp[ ( 1) ]2exp( )

exp[ ( ) ]p p

p p

b a b X b XRR b

b a b X b X

风险

= =1风险

故 回 归 系 数 b j 反 映 了 其 他 自 变 量 固 定 不 变 的 情 况 下 , jX 改 变 1 个 单 位 ,

jX 所 引 起 的 危 险 比 改 变 量 为 e x p ( b j )。

例 如 自 变 量 “ ”放 疗 b = - 2 . 5 8 7, exp( 2.587) 0.075RR 放射 表 示 放 疗 的

死 亡 风 险 度 是 不 放 疗 的 0 . 2 0 4 倍 (或 2 0 . 4 % ) “ ”,提示 放 疗 是 有 利因 素 。

又 如 “ ”鼻 血 b = 1 . 1 0 6, RR 鼻 血 = 3 . 0 2 3 “ ”,若 鼻 血 取值 2 与 1 比 较 ,前

者 的 风 险度 是 后 者 的 3 倍 。

( http://statdtedm.6to23.com

3. 回归模型及回归系数的假设检验 Model Fit Statistics

Without With Criterion Covariates Covariates -2 LOG L 61.344 45.145 AIC 61.344 57.145 SBC 61.344 61.393

Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 16.1987 6 0.0127 Score 14.7833 6 0.0220 Wald 11.4066 6 0.0766

( http://statdtedm.6to23.com

3. 回归模型及回归系数的假设检验(续)

The SAS System 16:31 Saturday, December 4, 2005 6

The PHREG Procedure

Analysis of Maximum Likelihood Estimates

Parameter Standard Hazard 95% Hazard Ratio

Variable DF Estimate Error Chi-Square Pr>ChiSq Ratio Confidence Limits

sex 1 0.26175 0.89551 0.0854 0.7701 1.299 0.225 7.515

age 1 0.05274 0.05286 0.9955 0.3184 1.054 0.950 1.169

stage 1 -1.27386 1.26111 1.0203 0.3124 0.280 0.024 3.313

blood 1 1.10626 0.61835 3.2007 0.0736 3.023 0.900 10.158

xray 1 -2.58712 1.11364 5.3969 0.0202 0.075 0.008 0.667

chmthrp 1 -0.54082 0.84818 0.4066 0.5237 0.582 0.110 3.070

( http://statdtedm.6to23.com

4. 模型的筛选及有关问题

( 1 )剔去缺失数据较多,或变异程度

几乎为 0 的因子 ( 如表 19-1 的“分期” ) 。

( 2 )单变量分析(表 19-2 )( 3 )采用软件进行逐步筛选

( http://statdtedm.6to23.com

4. 模型的筛选及有关问题(单变量分析)

表 19-2 变量的统计描述与单变量 Cox 模型分析

统计描述 单独效应 (前进法第0步结果 )

变量 例数 最小值 最大值 均 数 标准差 2 统计量 自由

P 值

性 别 1 6 0 1 0 . 5 0 0 . 5 2 0 . 0 11 1 0 . 9 1 6

年 龄 1 6 3 0 5 7 4 4 . 6 3 8 . 2 7 1 . 7 8 0 1 0 . 1 8 2

鼻 血 1 6 0 2 1 . 2 5 0 . 7 7 7 . 5 0 9 1 0 . 0 0 6 * *

放 疗 1 6 0 1 0 . 5 6 0 . 5 1 5 . 3 7 9 1 0 . 0 2 0 *

化 疗 1 6 0 1 0 . 6 3 0 . 5 0 0 . 5 9 8 1 0 . 4 3 9

结 局 _死 1 6 0 1 0 . 9 4 0 . 2 5

生 存 年 数 1 6 1 . 6 1 2 . 9 7 . 7 6 3 . 5 3

( http://statdtedm.6to23.com

4. 模型的筛选及有关问题(逐步回归分

析)PROC PHREG data=a2;

Model day*censor(0)=sex age stage blood xray chmthrp

/risklimits selection=stepwise sle=0.05 sls=0.05;

RUN;

Analysis of Maximum Likelihood Estimates (参见书 P253 的表 19 - 3 )

Parameter Standard Hazard 95% Hazard Ratio

Variable DF Estimate Error Chi-Square Pr>ChiSq Ratio Confidence Limits

blood 1 1.06957 0.41019 6.7992 0.0091 2.914 1.304 6.511

xray 1 -0.81419 0.35633 5.2209 0.0223 0.443 0.220 0.891

( http://statdtedm.6to23.com

第三节 生存函数的估计

01 1 1 1 1

( ) (1 ) 1exp( )

l

i i ij

i j jj j j l p lp

l R

dS t p q

b X b X

基准生存函数

1 1 2 2exp( )

0( ) ( ) p pb X b X b X

i iS t S t 生存函数

( http://statdtedm.6to23.com

SAS 求基线生存率的程序PROC PHREG data=a;

Model day*censor(0)=blood xray/risklimits;

baselinebaseline outout=phout =phout survivalsurvival=s_t=s_t stderrstderr=stderr / =stderr / methodmethod=ch ;=ch ;

symbol1 i=join v=none l=1;

symbol2 i=join v=none l=3;

strata xray;

proc gplot data=phout;

plot s_t*day=xray;run;

proc print data=phout;

RUN;

( http://statdtedm.6to23.com

SAS 求基线生存率的结果 The SAS System 22:52 Saturday, December 4, 2005 10 Obs blood xray xray2 day s_t stderr 1 1.42857 0 0 0 1.00000 . 2 1.42857 0 0 578 0.88994 0.10515 3 1.42857 0 0 1245 0.76275 0.15017 4 1.42857 0 0 1549 0.64400 0.17032 5 1.42857 0 0 1932 0.49557 0.18608 6 1.42857 0 0 2581 0.27749 0.19103 7 1.42857 0 0 3451 0.11627 0.13221 8 1.42857 0 0 3572 0.02041 0.04420 9 1.11111 1 1 0 1.00000 . 10 1.11111 1 1 938 0.93576 0.06618 11 1.11111 1 1 2363 0.86037 0.10263 12 1.11111 1 1 2938 0.76749 0.13678 13 1.11111 1 1 3205 0.67610 0.16068 14 1.11111 1 1 3750 0.54734 0.18550 15 1.11111 1 1 3958 0.29068 0.20267 16 1.11111 1 1 4111 0.13799 0.14366 17 1.11111 1 1 4435 0.05579 0.07881

( http://statdtedm.6to23.com

SAS 求基线生存率的结果

xray 0 1

Survivor Function Estimate

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

day

0 1000 2000 3000 4000 5000

( http://statdtedm.6to23.com

风险指数( HI )

pp XXX 2211 便是风险指数 ( h a z a r d i n d e x ),

记为 H I,为应用上的方便,通常用其标准化的估计值,即

'''2

'2

'1

'1 ... pp XbXbXbHI ( 1 9 - 9 )

式中 ''2

'1 ...,,, pXXX 为标准化自变量, ''

2'1 ...,,, pbbb 是 C o x 模型 标准

化回归系数。因风险可决定预后,故风险指数又称

预后指数 ( p ro g n o s t i c i n d e x ),或预后得分 ( p ro g n o s t i c s c o re )。

H I= 0 代表风险处于平均水平;

H I< 0 表示风险低于平均水平;

H I> 0 表示风险高于平均水平。

( http://statdtedm.6to23.com

第四节 比例风险假定的检验

如果比例风险假定成立,意味着 二次对数生存曲线( log-log survival curves )应该平行 .

( http://statdtedm.6to23.com

)exp(0 )()( bx

ii tStS 等式两边取对数 ,等式两边的对 数值加上负号, 再取对

数得

l o g { - l o g [ S ( t ) ] }= l o g { - l o g [ S 0 ( t ) ] }+ b x

不妨将 l o g { - l o g [ S ( t ) ] }称为二次对数生存率,记为 L M L ( l o g m i n u s

l o g )。设协变量取值两个水平, x = v , w,则两组的二次对数生存率分别

L M L 1= l o g { - l o g [ S 0 ( t ) ] }+ b v

L M L 2= l o g { - l o g [ S 0 ( t ) ] }+ b w

两者的差值为

L M L 1- L M L 2= b ( v- w )

以时间 t 为横坐标, L M L 为纵坐标,用 L M L 1 和 L M L 2 可绘制两

条二次对数生存曲线。 “ ”若两条阶梯曲线 平行 ,则可认为 b 不随 时间

变化,资料适宜用 C o x 模型作统计分析。

( http://statdtedm.6to23.com

(a). 风险指数分组 (图 19-2b ) (b). 放疗协变量分组 (鼻血 =1.19 ,图 19-2c )

图 19-3 Cox 模型生存率两次对数曲线比较

0 2 4 6 8 10 12 14

t (year)

0.0

0.5

1.0

-0.5

-1.0

-1.5

-2.0

-2.5

log{-log[S(t)]}

放疗 =1

放疗 =0

0 2 4 6 8 10 12 14

t (year)

0.0

0.5

1.0

-0.5

-1.0

-1.5

-2.0

-2.5

log{-log[S(t)]}

风险 =-1

风险 =1

( http://statdtedm.6to23.com

第五节 时依协变量 时依协变量是指变量的取值或效应大小

随时间变化,可分别称之为取值时依协变量和效应时依协变量。

模型中若含有时依协变量,便成为非比例风险模型,亦可称之为含时依协变量的含时依协变量的 CCoxox 模型 模型

( http://statdtedm.6to23.com

第五节 时依协变量(续)

( http://statdtedm.6to23.com

生存分析结果报告描述研究事件(如死亡时间等)说明研究起始时间与终止时间 ( 如症状出现与康复时间,诊断日期与终止日期等 )说明删失数据的种类与原因说明计算生存率的统计学方法 ( 如 Kaplan-Meier 法 )

给出每一组的中数生存率、或某生存期生存率(如 5 年生存率)估计值及其置信区间说明生存率比较的统计学方法 ( 如 log rank 法 )及其检验获得的 p 值

( http://statdtedm.6to23.com

生存分析结果报告(续)给出 Cox 回归模型,呈现解释变量与风险之间的联系

给出风险比( hazard ratio )及其置信区间给出比例风险假定的假设检验结果

( http://statdtedm.6to23.com

LIFETEST - Produces life tables and Kaplan-Meier survival curves. Is primarily for univariate analysis of the timing of events.

LIFEREG – Estimates regression models with censored, continuous-time data under several alternative distributional assumptions. Does not allow for time-dependent covariates.

PHREG– Uses Cox’s partial likelihood method to estimate regression models with censored data. Handles both continuous-time and discrete-time data and allows for time-dependent covariables

SASSAS 处理生存资料的过程处理生存资料的过程步步

( http://statdtedm.6to23.com

谢谢!