第十三章诊断试验的评价

宇传华（ [email protected]://statdtedm.6to23.com )

December 13 ， 2005

mailto:[email protected]

http://statdtedm.6to23.com/

为什么要学习诊断试验的评价

循证医学的重要内容及时取舍或灵活应用新的诊断试验

（试剂、药物、方法）提高业务素质，减少患者不必要的

经济开支。

目录第一节贝叶斯定理第二节诊断试验中常用的评价指标第三节 ROC 曲线

第一节贝叶斯定理

贝叶斯定理应用

第二节诊断试验中常用的评价指标例 13.2 表 13.2 ECG诊断试验的结果

ECG诊断结果

心肌梗塞

合计出现不出现

阳性阴性合计

416(TP) 9（ FP） 425

104(FN) 171（ TN） 275

520 180 700(N)常用指标有（一）正确百分率、（二）灵敏度、（三）特异度、（四） Youden 指数、（五）阳性似然比、（六）阴性似然比、（七）阳性预报值、（八）阴性预报值。

例 13.2 表 13.2 ECG诊断试验的结果

ECG诊断结果

心肌梗塞


阳性阴性合计

416(TP) 9（ FP） 425

104(FN) 171（ TN） 275

520 180 700(N)


ECG诊断结果

心肌梗塞


阳性阴性合计

416(TP) 9（ FP） 425

104(FN) 171（ TN） 275

520 180 700(N)


ECG诊断结果

心肌梗塞


阳性阴性合计

416(TP) 9（ FP） 425

104(FN) 171（ TN） 275

520 180 700(N)

灵敏度与特异度的优缺点

优点：灵敏度与特异度不受患病率的影响，其取值范围均在（ 0, 1 ）之间，其值越接近于 1 ，说明其诊断准确性越好。

缺点：当比较两个诊断试验时，单独使用灵敏度或特异度，可能出现矛盾。

解决办法：将两指标结合： Youden 指数、阳性似然比、阴性似然比等


ECG诊断结果

心肌梗塞


阳性阴性合计

416(TP) 9（ FP） 425

104(FN) 171（ TN） 275

520 180 700(N)


ECG诊断结果

心肌梗塞


阳性阴性合计

416(TP) 9（ FP） 425

104(FN) 171（ TN） 275

520 180 700(N)


ECG诊断结果

心肌梗塞


阳性阴性合计

416(TP) 9（ FP） 425

104(FN) 171（ TN） 275

520 180 700(N)

医生最关心的问题： 1. 试验阳性时患病的概率多大？ 2. 试验阴性时不患病的概率多大？




ECG诊断结果

心肌梗塞


阳性阴性合计

416(TP) 9（ FP） 425

104(FN) 171（ TN） 275

520 180 700(N)

阳性预报值与阴性预报值

第三节 ROC 曲线

ROC 【 receiver(relative) operating characteristic 的缩写，译为“接受者工作特征”】

ROC 曲线研究历史1950’s 雷达信号观测能力评价1960’s 中期实验心理学、心理物理学1970’s 末与 1980’s 初诊断医学

ROC 的涵义与起源

诊断试验：泛指血液生化、影像学、免疫学、细胞学、病理学、统计模型等检查。

重要性： 1. 循证医学的重要组成部分 2. 诊断试验评价方法可用于：临床试验评价临床检验评价流行病学筛查试验评价实验室检验评价统计学模型评价……

ROC 曲线评价诊断试验的重要性

灵敏度 , 特异度 , 假阴性率 , 假阳性率

Test variable

不同诊断界值时灵敏度与特异度间的平衡 (trade off)

0

20

40

60

80

100

50 60 70 80 90 100

特异度灵敏度

百分率（％）

Test variable

完美诊断试验

0. 0

0. 2

0. 4

0. 6

0. 8

1. 0

0. 0 0. 2 0. 4 0. 6 0. 8 1. 0FPR

TPR

无用诊断试验

0. 0

0. 2

0. 4

0. 6

0. 8

1. 0

0. 0 0. 2 0. 4 0. 6 0. 8 1. 0FPR

TPR

完美与无用的 ROC 曲线

真阳性率

即

灵敏度假阳性率即 1 －特异度

机率线 (chance line)(diagonal reference line)

诊断准确度较低（ <0.7 ）

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0FPR

TPR

A ＝0.664

诊断准确度中等（0.7~0.9）

0. 0

0. 2

0. 4

0. 6

0. 8

1. 0

0. 0 0. 2 0. 4 0. 6 0. 8 1. 0FPR

TPR

A ＝ 0.830

诊断准确度较高（ > 0.9）

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0FPR

TPR

A ＝ 0.938

ROC 曲线下面积（ Area ）与诊断准确度高低高 0.90-1.00 = excellent (A)

中 0.80-0.90 = good (B) 0.70-0.80 = fair (C)

低 0.60-0.70 = poor (D) 0.50-0.60 = fail (F)

似然比（ LR ）在 ROC 曲线空间的涵义

白细胞计数诊断白血病

LR ＝ 7.5

LR ＝ 0.7

LR ＝ 2.3

LR ＝ 25.0

基本概念小结 ROC 曲线反映了灵敏度与特异度间的平衡 ( 增加灵

敏度将降低特异度；增加特异度将降低灵敏度 ) 。在 ROC 曲线空间，如果曲线沿着左边线，然后沿着

上边线越紧密，则试验准确度越高。在 ROC 曲线空间，如果曲线沿着机会线（ 45 度对

角线）越紧密，则试验准确度越低。在诊断界值（ cutpoint ）处的正切线的斜率就是该

试验值对应的阳性似然比（ likelihood ratio ， LR)。在 ROC 曲线空间的左下角 LR+ 最大，随着曲线从左下往右上方移动， LR+ 逐渐减小。

ROC 曲线下面积是重要的试验准确度指标。

主要任务：

计算 ROC 曲线工作点（ Coordinate point或 Operating point ）（ FPR, TPR ）

连接相邻两点

一、 ROC 曲线工作点的计算与曲线绘制

连续型数据的ROC 曲线工作点（ TPR ， FPR ）计算

将这 9 个数据从大到小排列，以前 8个数，分别作为诊断界值，大于等于诊断界值者判为阳性，小于该值者判为阴性。这样，可整理成 8 个四格表

表 13 － 3 假想的连续型数据

表13.4 表13.3资料不同诊断界值的FPR和TPR值

诊断界值

16.5 13.5 12.8 11.2 8.5 6.4 5.0 4.6

FPR 0 0 0 0 1/4 2/4 2/4 3/4

TPR 1/5 2/5 3/5 4/5 4/5 4/5 5/5 5/5

有序分类数据的有序分类数据的ROCROC 曲线工作点（曲线工作点（ TPRTPR ，， FPRFPR ）计算）计算

将诊断分类数据按大到小排序，以前 4 个分类作为诊断界值，大于等于诊断界值者为阳性，小于该值者为阴性。这样，可整理出 4 个四格表，每个四格表对应的 ROC 曲线的工作点见下表。

某放射医生对 109份 CT影像的分类诊断分类金标准

1 2 3 4 5合计

异常 3 2 2 11 33 51

正常 33 6 6 11 2 58

该资料不同诊断界值的 FPR和 TPR值诊断界值（诊断分类）

5 4 3 2FPR 0.0345 0.2241 0.3296 0.4310TPR 0.6471 0.8627 0.9020 0.9412

10

0

1

1

ROC图有序分类资料的未光滑曲线

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0FPR

TPR

2

二、 ROC 曲线下面积的计算

ROC 曲线下面积 (Area)

部分 ROC 曲线下的面积 FPR 为某值对应的 TPR 值

( 一 ) Hanley 和 McNeil 非参数法非参数法

ROC曲线下面积 (Az)就是异常组观察值大于正常组观察值的概率

),(1

1 1ji

n a

na

n

j

n

inaZ xx

nnA

ji

ji

ji

ji

na

na

na

na

xx

xx

xx

xx

0

5.0

1

),(

AZ的标准误 )( ZASE 可采用公式

na

ZnZaZZZ nn

AQnAQnAAASE

))(1())(1()1()(

22

21

其中，1Q 是两个随机选择的异常组观察值比一个随机选

择的正常组观察值都有更大可能被判为异常的概率。

2Q 是一个随机选择的异常组观察值比两个随机选择的正

常组观察值都有更大可能被判为异常的概率。

Mann-Whitney U 统计量

Hanley 和 McNeil 法法 ROCROC 曲线下面积曲线下面积与Mann-Whitney U 检验

由秩和检验中的Mann-Whitney U统计量（ SPSS 等软件均可计算）可计算 ROC 曲线下面积

零假设 H0:总体 ROC 面积 θ＝ 0.5的检验等价于Mann-Whitney U检验

Mann-Whitney U Mann-Whitney Umax ,1z

n a n a

An n n n

统计量统计量

3

3

30.5

3

2

( 1) ( )1

12

0.5 0.5

( ) |( 1) ( )1

12

n a

n a i i

n a

Z Z

Zn a i in a

U n nZ

n n N t t

N N

n n

A AZ

SE An n N t tn n

N N

分子分母同除有

SPSS 输出的 ROC 面积检验 P值即为上述 Z 值对应的概率

Hanley 和 McNeil 法法 ROCROC 曲线下面积曲线下面积与梯形规则（ trapezoidal rule ）

Hanley 和 McNeil 法 ROC曲线下面积等于等于所有曲线下梯形梯形（包括最左侧的三角形）面积之和

ROC图有序分类资料的未光滑曲线

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0FPR

TPR

（二）其他 ROC 曲线下面积计算方法

1. 双正态法 2. 有序回归模型 3. 其他模型 ( 如双 Gama 法、双

指数法 )

2

1 2

2 21 2 1 1

1 2

2 21 2

1. ROC 100 1

( )

2. ROC

( ) ( ) 2 ( ) ( )

( ) ( )

Z Z

Z Z

Z Z Z Z

Z Z

Z Z

A Z SE A

A AZ

SE A SE A rSE A SE A

r r

A AZ

SE A SE A

曲线下面积的（）％置信区间为

两曲线下面积比较检验公式：

0,其中为两面积间的相关系数，令＝有：

单个连续型资料（实例 1 ）单个有序分类资料（实例 2 ）两个相关连续型资料（实例 3 ）两个相关有序分类资料（实例 4 ）

二、 ROC 分析的数据类型

Test variables

实例实例 11 ：：采用骨髓诊断作为金标准，对 100 例缺铁性贫血疑似患者进行确诊，患该病者为异常组 (34 例 ) ，未患该病者为正常组 (66 例 ) 。为了考察红细胞平均容积（ MCV）诊断缺铁性贫血的效果，测得每一个体的 MCV 值如下：

表红细胞平均容积骨髓诊断 MCV结果

60 66 68 69 71 71 73 74 74 74 76 77 77 77 77 78 7879 79 80 80 81 81 81 82 82 83 83 83 83 83 83 83 8484 84 84 85 85 86 86 86 87 88 88 88 89 89 89 90 90正常组

91 91 92 93 93 93 94 94 94 94 96 97 98 100 10352 58 62 65 67 68 69 71 72 72 73 73 74 75 76 77 77

异常组78 79 80 80 81 81 81 82 83 84 85 85 86 88 88 90 92

注：资料来自 J R Beck, EK Shul tz, Arch Pathol Lab Med，1986.

State Variable

Test Variable

实例 1 ： MCV 诊断缺铁性贫血

图 4 连续性资料的两组频率分布 0.3

0.2

0.1

0

0.1

0.2

0.3

55 60 65 70 75 80 85 90 95 100 105

组段上限值

异常组频率

正常组频率

实例实例 11 的的 SPSSSPSS 输入格式输入格式

State Variable

＝骨髓诊断

Test Variable ＝ MCV 结果

0 ＝正常组1 ＝异常组

Value of State Variable ： 1

SPSS的 GraphsROC Curve 界面

如果试验测量值越小患病的可能性越大时应改变默认的Options…

SPSS输出结果

Case Processing Summary

34

66

¹ÇËèÕï¶ÏPositivea

Negative

Valid N(listwise)

Smaller values of the test result variable(s) indicatestronger evidence for a positive actual state.

The positive actual state is 1.a.

SPSS输出结果

SPSS输出结果Area Under the Curve

Test Result Variable(s): mcv½á¹û

.717 .053 .000 .614 .820Area Std. Errora

AsymptoticSig.b Lower Bound Upper Bound

Asymptotic 95% ConfidenceInterval

The test result variable(s): mcv½á¹û has at least one tie between thepositive actual state group and the negative actual state group. Statisticsmay be biased.

Under the nonparametric assumptiona.

Null hypothesis: true area = 0.5b.

SPSS输出结果Coordi nates of the CurveTest Resul t Vari abl e(s): mcv 结果

Posi ti ve i f Less Than or Equal To(a) Sensi ti vi ty 1 - Specifi ci ty51 0 055 0. 029 059 0. 059 0

… … …99 1 0. 97

101. 5 1 0. 985104 1 1

The test resul t vari abl e(s): mcv 结果 has at l east one t i e between the posi t i veactual state group and the negati ve actual state group.

The smal l est cutoff val ue i s the mi ni mum observed test val ue mi nus 1, and thel argest cutoff val ue i s the maxi mum observed test val ue pl us 1. Al l the othercutoff val ues are the averages of two consecuti ve ordered observed test val ues.

MCV诊断缺铁性贫血的 ROC 曲线

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0FPR

TPR

双正态机率线工作点

实例实例 22 ：：某放射医生将已知实际分类的影像，按肯定正常、可能正常、疑似异常、可能异常、肯定异常，分别分为 1 、 2 、 3 、 4 、 5 五类。

表单个诊断试验的有序分类资料分类 1 2 3 4 5 合计正常组 35 68 49 29 12 193= nn

异常组 2 3 8 16 12 41= na

State Variable

Test Variable

Frequency Variable

实例实例 22 ：放射医生影像分类：放射医生影像分类

图 6 单个有序分类资料的两组频率分布-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

1 2 3 4 5 分类

异常组频率

正常组频率

实例实例 22 的的 SPSSSPSS 输入格式输入格式

State Variable ＝组别

Test Variable ＝诊断分类

0 ＝正常组1 ＝异常组

Value of State Variable ： 1

SPSS的 GraphsROC Curve 界面

如果试验测量值越小患病的可能性越大时应改变默认的Options…

在调用 Graphs前，必须先用 DataWeight Cases…by…: 频数

图 7 放射医生影像分类的 ROC 曲线

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0FPR

TPR

双正态机率线工作点

其他实例的 ROC 曲线 SPSS 计算

参见： http://statdtedm.6to23.com

( 诊断试验评价与数据挖掘 )

http://statdtedm.6to23.com/

推荐两本国外最新著作

Zhou XH, McClish DK, Obuchowski NA. Statistical Methods in Diagnostic Medicine. John Wiley & Sons, Inc. July 2002.

（也见：宇传华译，《诊断医学统计学》人民卫生出版社， 2005年 2月）

Pepe MS. The Statistical Evaluation of Medical Tests for Classification and Prediction . Oxford Univ Press. May 2003 .

宇传华（ [email protected]://statdtedm.6to23.com )

December 13 ， 2005

THE END

Documents

第十三章 诊断试验的评价

第十三章诊断试验的评价