Upload
prema
View
143
Download
0
Embed Size (px)
DESCRIPTION
Logistic 回归分析. Logistic Regression Analysis. 翟景花 公共卫生学院. 复习: 线性回归分析对反应变量的要求. 反应变量 y. 自变量 x. 数值型 与 Y 呈线性关系. 连续型 服从正态分布. 年龄. 胆固醇含量. 例如:. 舒张压. 医学研究中经常遇到分类型变量,例如:. 二分类变量: 生存与死亡 有病与无病 有效与无效 感染与未感染 多分类有序变量: 疾病程度(轻度、中度、重度) 治愈效果(治愈、显效、好转、无效) 多分类无序变量: 手术方法( A 、 B 、 C ) - PowerPoint PPT Presentation
Citation preview
Logistic 回归分析
Logistic Regression Analysis
翟景花公共卫生学院
2
复习: 线性回归分析对反应变量的要求
反应变量y
连续型服从正态分布
舒张压
年龄胆固醇含量
自变量x
数值型 与 Y 呈线性关系
例如:
3
医学研究中经常遇到分类型变量,例如:• 二分类变量:
o 生存与死亡o 有病与无病o 有效与无效o 感染与未感染
• 多分类有序变量:o 疾病程度(轻度、中度、重度)o 治愈效果(治愈、显效、好转、无效)
• 多分类无序变量:o 手术方法( A 、 B 、 C )o 就诊医院(甲、乙、丙、丁)
4
医学研究者经常关心的问题诸如 :• 吸烟是否影响肺癌的发病?• 年龄和糖尿病的发病有无关系 ?
• 哪些因素导致了手术后有的人感染,而有的人不感染?
• 哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果 ?
是回归分析问题吗?
5
这些应该是属于回归分析问题!• 但是这种回归分析问题不能借助于线性回归模
型,因为反应变量的假设条件遭到破坏• 能否找到一种其他形式的模型 y=f(x) 来描述分
类变量 y 和 x 之间依存关系呢?
NO
• 因为从数学角度看,使得 x 取任意值而 y 仅 取 1 和 0 两个值的函数不存在。
YES!
6
“ 转换一个角度来解决这个问题”
y=f(x)
p=p(y=1|x)=p(x)
不能直接分析变量 y 与 x 的关系转换为分析y 取某个值的概率变量 p 与 x 的关系
y=1,0x 任意
0≤p≤1, x 任意
存在Logistic 回归模型
不存在
7
主要内容
• Logistic 回归模型的基本概念• Logistic 回归的参数估计及假设检验• Logistic 回归分析的分类• Logistic 回归的应用
8
第一节 Logistic 回归模型的基本概念
• 一、 Logistic 回归的实例表 20-1 急性心肌梗死(AMI)患者的抢救危险因素资料(n=200)
P=0(在医院抢救成功) P=1(未能抢救成功而死亡)
X1 X2 X3 N X1 X2 X3 N
0 0 0 35 0 0 0 4
0 0 1 34 0 0 1 10
0 1 0 17 0 1 0 4
0 1 1 19 0 1 1 15
1 0 0 17 1 0 0 6
1 0 1 6 1 0 1 9
1 1 0 6 1 1 0 6
1 1 1 6 1 1 1 6
X1表示休克,X2表示心衰,X3表示时间超过 12小时。
9
二、 Logistic 回归模型的基本结构
321 XXXP
AMI 抢救后死亡率与影响因素关系的回归模型
P值大于 1 或小于 0
变量变换
10
• 1970 年, Cox 引入了 Logit 变换
• 请注意其右侧仍然可以写成线性的形式!• 大量实践证明, LogitP 往往和自变量呈线性关系。• 已经成为了分类变量的标准建模方法。
XP
PPLogit
0)
1ln()(
)(1
11
0
X
X
X
eP
e
eP
或 Logistic
函数Logistic回归模型
11
多变量的 Logistic 回归模型
)( 1
1
1
1
1
1
pp
pp
pp
XX
XX
XX
eP
e
eP
或
12
Logistic 回归概念• 是分类数据统计分析的一种重要方法,研究多水平
(包括 2 个水平)的应变量与其影响因子间关系的回归分析。即用于分析某类事件发生概率与自变量之间依存关系的回归,即 Logistic 回归。
• Logistic 这个名称来源于它所采用的 Logit 变换,和英文单词 Logistic 的含义(后勤的)一点关系都没有,与逻辑就更不相干了。
• 自从传入国内以来, Logistic 回归就一直采用英文写法,从没有使用过译名。
13
第二节 Logistic 回归的参数估计及假设检验
• 引发的新特点– 由于反应变量为二分类,所以误差项应当服从
二项分布,而不是正态分布。• 误差项的分布规律应当和所预测的反应变量相同
– 由于上述原因,最小二乘法也不再适用,– 最大似然法的优越性和重要性一举凸现出来。
14
• 最大似然法 (maximum likelihood,ML) 的基本思想是先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,称为参数的最大似然估计值。
• 计算方法来自于概率分布。• 似然 (L, likelihood) :某种结局组合出现的概率,
由于总体率不同 L 也不同,所以又被称为似然函数。
一、 Logistic 回归的参数估计及意义
15
Variables in the Equation
1.110 .348 10.142 1 .001 3.034 1.532 6.007
.703 .329 4.559 1 .033 2.019 1.059 3.850
.975 .344 8.036 1 .005 2.651 1.351 5.203
-2.086 .351 35.263 1 .000 .124
X1
X2
X3
Constant
Step1
a
B S.E. Wald df Sig. Exp(B) Lower Upper
95.0% C.I.for EXP(B)
Variable(s) entered on step 1: X1, X2, X3.a.
表 20-2 例 20-1的参数估计与 wald检验结果
变量名 SE( ) Wald 值 P值 ) ˆ(exp OR
常数项 -2.086 0.351 35.263 0.000 0.124
X1 1.110 0.348 10.142 0.001 3.034
X2 0.703 0.329 4.559 0.033 2.019
X3 0.975 0.344 8.036 0.005 2.651
16
321 975.0703.0110.1086.2)1
ln( XXXp
p
常数项表示在自变量取值均为 0时,死亡优势(比数)的自然对数值。exp( )=0.124 是无休克、无心衰和抢救及时组死亡的优势。当死亡率很低时,该值近似等于自然死亡率。
0
表 20-2 例 20-1的参数估计与 wald检验结果
变量名 SE( ) Wald 值 P值 ) ˆ(exp OR
常数项 -2.086 0.351 35.263 0.000 0.124
X1 1.110 0.348 10.142 0.001 3.034
X2 0.703 0.329 4.559 0.033 2.019
X3 0.975 0.344 8.036 0.005 2.651
17
β 为 Logistic 回归系数,表示其它自变量取值固定时,该自变量增加一个单位引起优势比自然对数的变化量。 β=lnOR, OR=eβ或 OR=exp(β)
OR表示暴露组的疾病危险是非暴露组的多少倍。OR>1 为危险因素; OR<1 为保护因素。
表 20-2 例 20-1的参数估计与 wald检验结果
变量名 SE( ) Wald 值 P值 ) ˆ(exp OR
常数项 -2.086 0.351 35.263 0.000 0.124
X1 1.110 0.348 10.142 0.001 3.034
X2 0.703 0.329 4.559 0.033 2.019
X3 0.975 0.344 8.036 0.005 2.651
321 975.0703.0110.1086.2)1
ln( XXXp
p
18
logistic 回归模型系数 β 的意义解释: 从 e =OR≈RR ,说明当发病率很低时, e近似地表示了相对危险度,即暴露下的发病率与非暴露下的发病率之比。
例如,在例 20-1 中得到 1 = 1.110 , 因此, RR ≈OR= e =3.034 , 表明心梗发生后抢救前有休克的死亡危险是没有休克的 3.034 倍。
19
一般地, logistic 回归模型系数的意义是:
2 )如果 X 是连续变量,则 OR近似表示在 X 相邻两个单位上的相对危险度。
1 )如果 X=1 、 0 ,则 OR近似表示在 X=1 条件下的发病率与 X=0 条件下发病率之比。(见例 20-
1 )
3 )如果 X 是分类变量,则要将 X 的哑变量放入模型,则 OR表示两个类之间的相对危险度。
20
二、假设检验和回归系数的区间估计1.似然比检验 (likelihood ratio test)
⑴ 检验整个模型是否有统计学意义,即检验所有的偏回归系数是否均为 0 。检验假设为– H0 : β1=…= βm=0
– H1 : β1 ,…, βm 不全为 0
统计量– G=- [2lnL (-1,…,-m) ] --2lnL ’ – 其中 L 是不包含 m 个自变量的模型的似然函数。– L’ 是包含所有自变量的模型似然函数, G 反映的是后一
个模型较前一个模型拟和优度提高的程度。– 大样本, H0 成立的条件下, G 服从自由度为 m 的卡方
检验。
21
• ⑵分别检验各个自变量是否有意义,即单个总体回归系数是否为零。检验假设为– H0 : βi=0
– H1 : βi≠0
统计量– G=-2lnL-[-2lnL’ (i)]
– 其中 L 是扣除 Xi 的模型似然函数, L’ 是包含 Xi 的模型的似然函数。
– 大样本, H0 成立的条件下, G 服从自由度为 1 的卡方检验。
22
2.Wald 检验• 常用于回归系数的假设检验,检验假设为
– H0 : βi=0
– H1 : βi≠0
统计量
1422.10)3485.01098.1
(
))ˆ(
ˆ(
2
1
2
=
统计量为的回归系数的
分布。的大样本时,服从
WaldX
SE
该检验是通过比较 β 值来进行的,它是基于 β 值服从正态分布的假设。
23
Variables in the Equation
1.110 .348 10.142 1 .001 3.034 1.532 6.007
.703 .329 4.559 1 .033 2.019 1.059 3.850
.975 .344 8.036 1 .005 2.651 1.351 5.203
-2.086 .351 35.263 1 .000 .124
X1
X2
X3
Constant
Step1
a
B S.E. Wald df Sig. Exp(B) Lower Upper
95.0% C.I.for EXP(B)
Variable(s) entered on step 1: X1, X2, X3.a.
3.优势比的区间估计总体回归系数的的( 1-α)置信区间为
)ˆ(ˆ SEza
24
• 按数据的类型:o 非条件 logistic 回归分析(成组数据)o 条件 logistic 回归分析(配对病例 - 对照数据)
• 按反应变量取值个数:o 二值 logistic 回归分析o 多值 logistic 回归分析
• 按自变量个数:o 一元 logistic 回归分析 对应四格表资料卡方检验o 多元 logistic 回归分析
第三节 Logistic 回归分析的分类
★
Logistic 回归分析
25
条件 logistic 回归
• 研究中有 N 个配比组,每组中 n 个病例配m 个对照者。这时,各个研究对象发生某事件的概率即为条件概率。
• 适用于–配比设计的病例 - 对照研究–精细分层设计的队列研究
26
条件 Logistic 回归
• 1 : 1 条件 Logistic 回归及模型
在 1 : 1配对设计的病例 - 对照研究中,若 y=
1表示得病, y=0表示未得病; A表示病例,B 为对照,一对病例和对照中只有 1 人得病的条件下恰好是 A 得病的概率为:
27
)](...)([
)(
1111
1)11(
1
1)1(
PBPApBA
BA
XXXXA
xxA
eYP
pe
yp
人得病一对中只有
个自变量时:当有
一对中只有一人得病
条件 Logistic 回归模型
28
第四节 Logistic 回归的应用
• 筛选危险因素:如例 20-1• 校正混杂因素• 预测与判别
29
筛选危险因素
• 病因学研究– 病例 - 对照研究– 队列研究
• 影响因素的研究– 横断面调查
30
校正混杂因素
• 一般采用 Mantel-Haenszel 分层分析
• 分层较细或存在格子零频数时, M-H
法无法采用。
• logistic 回归分析可综合校正多个混杂因素的影响
31
预测与判别
• logistic 回归模型作为一种概率模型,非条件 l
ogistic 回归方程可计算相应的概率预测值,
对个体所属类别作出概率性的判别。但由于
条件 logistic 回归模型不能估计常数项,不能
用于预测。
32
注意问题
• 个体间的独立性• 足够的样本量• 模型评价• 标准化回归系数
33
注意问题
• 筛选自变量时,临床和流行病学意义和生物学机制在模型结果解释中占更重要的地位。
• 自变量可以是无序分类变量、有序分类变量和数值变量。无序分类变量常用多个 0-1 假(哑)变量来代替,使结果更容易解释。数值变量可以转换成等级变量,使参数意义更明确。
• 大多数情况下,不需对常数项做解释和假设检验。条件 Logistic 回归模型无常数项,不能用于预测。
34
Logistic 回归分析和线性回归分析的异同点
• 相同点:o 都可以利用模型来筛选危险因子;o 都可以校正混杂因子的影响;o 都可以用来做预测。
• 不同点:o 前者对因变量无分布要求,后者要求因变量是正态
分布变量;o 前者要求因变量必须是分类型变量,后者要求因变
量必须是连续型数值变量。o 前者不要求自变量和因变量呈线性关系,后者要求
自变量和因变量呈线性关系;o 前者是分析因变量取某个值的概率与自变量的关系,
后者是直接分析因变量与自变量的关系。
35
小结
Logistic 回归为概率型的非线性模型 反应变量为分类变量,自变量可以是任意类型 一元 logistic 回归分析对应四格表资料卡方检验 对模型的检验采用的是似然比检验,对单个偏回归系数的检验可采用似然比检验或 Wald 卡方检验 回归系数 β 表示其它自变量取值固定时,该自变量增加一个单位引起优势比自然对数的变化量 β=lnOR, OR=eβ
OR 表示联系强度
pp
pp
XX
XX
e
eP
1
1
1
36
对资料分析结果的正确解释至关重要
Variables in the Equation
1.110 .348 10.142 1 .001 3.034 1.532 6.007
.703 .329 4.559 1 .033 2.019 1.059 3.850
.975 .344 8.036 1 .005 2.651 1.351 5.203
-2.086 .351 35.263 1 .000 .124
X1
X2
X3
Constant
Step1
a
B S.E. Wald df Sig. Exp(B) Lower Upper
95.0% C.I.for EXP(B)
Variable(s) entered on step 1: X1, X2, X3.a.
37