Upload
morrie
View
138
Download
0
Embed Size (px)
DESCRIPTION
第二章 计量资料的统计描述 Descriptions of Measurement Data. Content. Frequency distribution Description of central tendency Measures of dispersion Normal distribution Range of reference value. 第一节 频数分布. 一、 频数分布表( frequency table ) : - PowerPoint PPT Presentation
Citation preview
第二章 计量资料的统计描述
Descriptions of Measurement Data
Content
1. Frequency distribution 2. Description of central
tendency 3. Measures of dispersion 4. Normal distribution 5. Range of reference value
第一节 频数分布 一、频数分布表( frequency table ) :例 2-1 从某单位 1999 年的职工体检资料中获得 101 名正常成年女子的血清总胆固醇( )的测量结果如下,试编制频数分布表。
mmol/L
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41
4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91
3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91
4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84
3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96
4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71
3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28
4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25
4.15 4.36 4.95 3.00 3.26
编制步骤如下:1. 求极差 : 极差( range )也称全距,即最 大值和最小值之差,记作 R 。本例 :
。
5.71 2.35 3.36(mmol/L)R
2 .确定组距 (i) :组段数通常取组 10-15 组本例组距 3 .写组段:组下限( L ):每个组段的起点组上限( U ):每个组段的终点
3.36 /10 0.336 0.30i
组 段 2.30 ~ 2.60 ~ 2.90 ~ 3.20 ~ … 5.60 ~ 5.90
2.30 ~2.60 ~
4 .分组段划记并统计频数
L X U
2.30 ~2.60 ~
组 段 频数f (1) (2)
2.30~ 1
2.60~ 3
2.90~ 6
3.20~ 8
3.50~ 17
3.80~ 20
4.10~ 17
4.40~ 12
4.70~ 9
5.00~ 5
5.30~ 2
5.60~5.90 1
合 计 101
频数表:由各组段及其频数所构成的统 计表。
二、频数分布图
三、频数表和频数分布图用途
1 .描述频数分布的类型 ( 1 )对称分布 :若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布
( 2 )偏态分布 :1 )右偏态分布( skewed to the right distribution )也称正偏态分布( positive skewness distribution ):右侧的组段数多于左侧的组段数,频数向右侧拖尾 血清转氨酶(mmol/L)
0
5
10
15
20
25
13. 5 19. 5 25. 5 31. 5 37. 5 43. 5.
图2-2 115名正常成年女子血清转氨酶的频数分布
人 数
2 )左偏态分布( skewed to the left distribution )也称负偏态分布( negative skewness distribution ):左侧的组段数多于右侧的组段数,频数向左侧拖尾
血 清 肌 红 蛋 μ白( g / m L)
0
5
10
15
20
25
2.5 12.5 22.5 32.5 42.5 52.5
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
人 数
2 .描述频数分布的特征 ① 变异的范围在 2.30~5.90
② 有明显的统计分布规律,数据主要集中在 3.50~4.70 之间,尤以组段的人数 3.80~4.10 最多,且上下组段数的频数分布基本对称。
(mmol/L)
(mmol/L)
(mmol/L)
3 .便于发现一些特大或特小的可疑值 组 段 频数f (1) (2)
2.30~ 1
2.60~ 0
2.90~ 0
3.20~ 0
3.50~ 17
3.80~ 20
4.10~ 17
4.40~ 12
4.70~ 9
5.00~ 5
5.30~ 2
5.60~5.90 1
合 计 101
4 .便于进一步做统计分析和处理
第二节 集中趋势的描述 统计上使用平均数( average )这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有 :
算术均数 几何均数 中位数
一、算术均数算术均数:简称均数( mean ) 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。
1 、计算方法( 1 )直接计算法 公式 :
1 2 nXX X X
Xn n
式中12,,,nXXX为所有观察值,n为样本含量,(希腊字母,读作
sigma)为求和的符号。
例 2-2 用直接法计算例 2-1 某单位 101 名正常成年女子的血清总胆固醇的均数。
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41
4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91
3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91
4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84
3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96
4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71
3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28
4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25
4.15 4.36 4.95 3.00 3.26
2.35 4.78 3.914.03(mmol/L)
101X
( 2 )加权法:公式 :
计算 4 , 4 , 4 , 6 , 6 , 8 , 8 , 8 ,10 的均数?
1 1 2 2 3 3
1 2 3
k k
k
fXf X f X f X f XX
f f f f f
1323
101836243
X
例 2-3 利用表 2-1 计算 101 名正常成年女子的血总胆固醇的均数。
组 段 频数f (1) (2)
2.30~ 1
2.60~ 3
2.90~ 6
3.20~ 8
3.50~ 17
3.80~ 20
4.10~ 17
4.40~ 12
4.70~ 9
5.00~ 5
5.30~ 2
5.60~5.90 1
合 计 101
式中 k 表示频数表的组段数, 及 分别表示各组段的频数和组中值,如表 2-1 第 1 个组段的组中值为,
余类推(见表 2-1 的第( 3 )栏)。在这里,频数起到了“权”( weight )的作用,即某个组段频数多,权数就大,其组中值对均数的影响也大;反之,影响则小
1 2, , , kf f f1 2, , , kX X X
(2.30 2.60) / 2 2.45
1 2.45 3 2.75 1 5.75 409.754.06(mmol/L)
1 3 1 101X
2 、应用
适用于对称分布,特别是正态分布资料。
二、 几何均数 几何均数( geometric mean ): 可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。1 、计算方法( 1 )、直接计算法
公式: 或1 2n
nG X X X 1 lglg ( )
XG
n
例 2-4 某地 5 例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为, 10 ,20 , 40 , 40,160 ,求几何均数。
5 10 20 40 40 160 34.8G
1 1lg lg10 lg 20 lg 40 lg 40 lg160lg ( ) lg ( ) 34.8
5
XG
n
( 2 )加权法公式:
1 lglg ( )
f XG
f
例 2-5 69 例类风湿关节炎( RA)患者血清 EBV-VCA-lgG抗体滴度的分布见表 2-4 第 (1)、 (2)栏,求其平均抗体滴度。
表 2-4 69例 RA患者血清 EBV-VCA-lgG抗体测定结果 抗体滴度 人数 f 滴度倒数 X lg X lgf X ⑴ ⑵ ⑶ ⑷ ⑸
1: 10
1: 20
1: 40
1: 80
1: 160
1: 320
1: 640
1: 1280
4
3
10
10
11
15
14
2
10
20
40
80
160
320
640
1280
1.0000
1.3010
1.6021
1.9031
2.2041
2.5051
2.8062
3.1072
4.0000
3.9030
16.0210
19.0310
24.2451
37.5765
39.2868
6.2144
合 计 69 — — 150.2778
故例类风湿关节炎患者血清 EBV-VCA-lgG抗体的平均滴度为 :1 : 150.6 。
1 1 1lg 150.2778lg ( ) lg ( ) lg (2.1779) 150.6
69
f XG
f
2 、应用:
适用于成等比级数的资料,特别是对数正态分布资料。
三、 中位数与百分位数(一)中位数 中位数( median ):是将变量值从小到大排列,位置居于中间的那个变量值。例 : 1 , 3 , 7 , 5 , >100
中位数为多少 ?
计算公式 : n 为奇数时
n 为偶数时
1( )
2
nM X
( ) ( 1)2 2
1
2 n nM X X
例 2-6 7名病人患某病的潜伏期分别为 2, 3, 4, 5, 6, 9, 16天,求其中位数。
本例 n=7, 为奇数
例 2-7 8 名患者食物中毒的潜伏期分别为 1,2,2,3,5,8,15,24 小时,求其中位数。本例 n=8, 为偶数
7 1 4( )
2
5( )M X X 天
8 8 4 5( ) ( 1)2 2
1 1 13 5 4( )
2 2 2M X X X X
小时
应用 适用于 :1 、各种分布类 型的资料
2 、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。
(二)百分位数 百分位数( percentile )是一种位置指标,用 来表示。一个百分位数 将全部变量值分为两部分,在不包含 的全部变量值中有 的变量值比它小, 变量值比它大。
XPXP
%X
(100 )%XXP
1 .直接计算法 设有 x 个原始数据从小到大排列,第 x百分位数的计算公式为:当 为带有小数位时:
当 为 整数时:
%nX
[ trunc( %) 1]X nXP X
%nX
( %) ( % 1)
1
2X nX nXP X X
例 2-9 对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求第 5百分位数和第 99百分位数。
患 者:
住院天数:
n=120 , 120X5%=6 ,为整数:
1 2 3 4 5 6 7 8 9 117 118 119 120
1 2 2 2 3 3 4 4 5 40 40 42 45
5 (6) (7)
1 1(3 4) 3.5( )
2 2P X X 天
例 2-9 对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求第 5百分位数和第 99百分位数。
患 者:
住院天数: ,带有小数,取整后 trunc ( 118.8 ) = 11
8
1 2 3 4 5 6 7 8 9 117 118 119 120
1 2 2 2 3 3 4 4 5 40 40 42 45
120 99% 118.8
99 (trunc(118.8) 1) (119) 42( )P X X 天
2 .频数表法 公式:
( % )XX X L
X
iP L nX f
f
式中 XL 、 Xi 和 Xf 分别为第X百分位数所在组段的下限、组距和频数,
Lf 为小于 XL 各组段的累计频数,n 为总例数。
当1%50%
2X时,公式(2-9)即为中位数的计算公式
5050 50
50
( )2 L
i nM P L f
f
例 2-10 某地 118 名链球菌咽喉炎患者的潜伏期频数表见表 2-5 第 (1)、 (2)栏,试分别求中位数及第 25 、第 75百分位数。
表2-5 118名链球菌咽喉炎患者的潜伏期
天 数 人数f 累计频数 累计频率(%) (1) (2) (3) (4)
12~ 4 4 3.4
24~ 17 21 17.8
36~ 32 53 44.9
48~ 24 77 65.3
60~ 18 95 80.5
72~ 12 107 90.7
84~ 5 112 94.9
96~ 4 116 98.3
108~ 2 118 100.0
50
12 11848 ( 53) 51 ( )
24 2M P 天
25
1236 (118 25% 21) 39.2 ( )
32P 天
75
1260 (118 75% 77) 67.7 ( )
18P 天
第三节 离散趋势的描述
例 2-11 三组同龄男孩的身高值 (cm)
甲组:90 95 100 105 110 100cmX 甲
乙组:96 98 100 102 104 100cmX 乙
丙组:96 99 100 101 104 100cmX 丙
常用统计指标:极差、四分位数间距、方差、标准差和变异系数。
一、 极差 极差,用 R表示:即一组变量值最大值与最小值之差。
110 90 20cmR 甲
104 96 8cmR 乙
104 96 8cmR 丙
二、四分位数间距 四分位数间距,用 QR表示:
QR=
下四分位数:上四分位数:
2575 PP
25LQ P
75UQ P
例 2-12 续例 2-10 。已知 P25=39.2 , P75=67.7,计算 1
18 名链球菌咽喉炎患者潜伏期的四分位数间距。 (天)
请回答:四分位数间距可以看成大小在中间的一半变量值的全距 ( R )。
67.7 39.2 28.5QR
四分位数间距可以看成一半变量值的极差。
三、方差与标准差 1 、 方差( variance )也称均方差( mean square deviation ),反映一组数据的平均离散水平。
样本方差用 表示
总体方差用2 表示 2
2 ( )X
N
2S
2 、
公式:
样本标准差用 表示 公式:
总体标准差用表示 2( )X
N
S2( )
1
X XS
n
标准差的公式还可以写成 :
利用频数表计算标准差的公式为
22 ( )
1
XX
nSn
22 ( )
1
fXfX
fS
f
例 2-12 续例 2-10 ,计算三组资料的标准差。
甲组: 5, 90 95 100 105 110 500n X 2 2 2 2 2 290 95 100 105 110 50250X
2(500)50250
5 7.91(cm)5 1
S
同理得:乙组:3.16(cm)S ,丙组:2.92(cm)S 。
例2-13 计算表2 1中101名正常成年女子的血清总胆固醇
(mmol/L)的标准差。 2101, 409.75, 1705.09f fX fX
2(409.75)1705.09
101 0.654 (mmol/L)101 1
S
四、 变异系数变异系数(coefficient of variation)记为CV ,多用于观察指标单位不
同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童
身高与成人身高变异程度的比较。
CVS
X 100%
某地 7 岁男孩身高的均数为 123.10cm ,标准差为 4.71 ;体重均数为 22.59kg ,标准差为 2.26kg,
比较其变异度?
体重 2.26
100%10.14%22.29
CV
身高 4.71
100%3.83%123.10
CV
(观察指标单位不同)
均数相差较大时:
某地区不同年龄男子身高(cm)的变异程度 年龄组 人数 均数 标准差 CV(%)
3-3.5岁 100 96.1 3.1 3.2
30-35岁 100 170.2 5.0 0.3
第四节 正态分布
图2-4 频数分布逐渐接近正态分布示意
正态分布 :又称为 Gauss 分布( Gaussian distribution )。
设想当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时,图2-4 中的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。这条曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布。在处理资料时,我们就把它看成是正态分布。
一、正态分布的概念和特征
1 .正态分布曲线的数学函数表达式 如果随机变量 的分布服从概率密度函数X
2
2
( )
21( )
2
X
f X e
则称X服从正态分布,记作2(,)XN,为X的总体均数,2为总体方差。
2 .正态分布的特征(1)在直角坐标上方呈钟型曲线,两端与X轴永不相交,且以
X为对称轴,左右完全对称。
(2)在X处,()fX取最大值,其值为()1 2f ;X越远
离,()fX值越小。
(3)正态分布有两个参数,即位置参数和形态参数。若固
定,改变值,曲线沿着X轴平行移动,其形状不变(见图2-5)。
若固定,越小,曲线越陡峭;反之,越大,曲线越平坦(见图
2-6)。
0
0. 1
0. 2
0. 3
0. 4
0. 5
-4 -3 -2 -1 0 1 2 3 4
图 2-5 正态分布位置变换示意图
0
0. 1
0. 2
0. 3
0. 4
0. 5
0. 6
0. 7
0. 8
0. 9
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
σ =0.5
σ =1
σ =2
图 2-6 正态分布形态变换示意图
( 4 )正态曲线下的面积分布有一定的规律。对公式 (2-17) 积分 :
2
2
( )
21( )
2
XX
F X e dX
①X轴与正态曲线所夹面积恒等于1或100%;
②区间的面积为68.27% ③区间96.1的面积为95.00%,
④区间58.2的面积为99.00%。见图27。
图 2-7 正态曲线面积分布示意图
二、标准正态分布
正态分布是一个分布族,对应于不同的参数 和 会产生不同位置、
不同形状的正态分布。
为了应用方便,令 : Xu 2
21( )
2
u
u e
, u
即将 2( , )X N 的正态分布转化为 (0,1)u N 的标准正态
分布(standard normal distribution),式中的 u称为标准正态变量,其
分布函数为
2
21( )
2
uu
u e du
(2-21)
根据公式(2-21)可制成附表1,欲求一定区间标准正态分布曲线下
的面积只需查表即可,且有: ( ) 1 ( )u u
例 2-14 对例 2-1,例 2-3和例 2-13已计算出101名正常成年女
子的血清总胆固醇均数 4.06X mmol/L,标准差 0.654S mmol/L。试估
计该单位正常女子血清总胆固醇在4.00 mmol/L以下者及5.00 mmol/L以
下者各占正常女子总人数的百分比。
由于此例样本含量大,故用X代替,S代替。将测量值
4.00X 、 5.00X 分别代入公式(2-19),得
2
5.00 4.061.44
0.654
u
1
4.00 4.060.09
0.654
u
查附表 1 得: ( 0.09) 0.4641 , ( 1.44) 0.0749 , (1.44)
1 0.0749 0.9251 。故该单位正常女子血清总胆固醇含量在4.00 mmol/L
以下者,估计占总人数的46.41%,在5.00mmol/L以下者,估计占总人
数的92.51%。
正态分布除了可估计频数分布外,还是许多统计方法的基础,并可应用于质量控制及制定医学参考值范围。
第五节 医学参考值范围的制定
一、基本概念 医学参考值( reference value )是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。
由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围( medical reference range )作为判定正常和异常的参考标准。
医学参考值范围涉及到采用单侧界值还是双侧界值的问题,这通常依据医学专业知识而定。 双侧 :血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧 :
1 、血清转氨酶仅过高异常 2 、肺活量仅过低异常
医学参考值范围有 、 、
等, 最常用的为 。计算医学参考值范围的常用方法:1 、正态分布法 2 、百分位数法
90% 95% 99%95%
二、方法1 、正态分布法: 许多生物医学数据服从或近似服从正态分布,如同年龄同性别儿童的身高值、体重值,同性别健康成人的红细胞数等; 有些医学资料虽然呈偏态分布,但若能通过适当的变量变换转换为正态分布,也可采用正态分布法制定参考值范围。
适用:正态分布资料
公式:
双侧1参考值范围:/2XuS
单侧1 参考值范围: X uS X uS 或
式中X为均数,S为标准差,u值可由表2-6查出。
表2-6 u界值表 参考值范围(%) 单 侧 双 侧
80
90
95
99
0.84
1.28
1.64
2.33
1.28
1.64
1.96
2.58
例2-15 估计例2-1某单位101名正常成年女子血清总胆固醇的
95%参考值范围。
因血清总胆固醇过多或过少均为异常,故按双侧估计正常成
年女子血清总胆固醇的95%参考值范围。已知血清总胆固醇均数
4.06mmol/LX , 0.654mmol/LS , 0.05 2 1.96u ,故
下 限 : 2 4 . 0 6 1 . 9 6 0 . 6 5 4 2 . 7 8 ( m m o l / L )X u S ;
上 限 : 2 4 . 0 6 1 . 9 6 0 . 6 5 4 5 . 3 4 ( m m o l / L )X u S 。
2 、百分位数法
适用:各种分布资料特别是偏态分布资料
公式:双侧1参考值范围:
2/1001002/100 ~ PP单侧1参考值范围:
100P或100100P
例 2-17 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的参考值范围。
表2-7 某年某地282名正常人尿汞值( g/L )测量结果
尿 汞 值 频 数f 累计频数 f 累计频率(%)
0~ 45 45 16.0
8.0~ 64 109 38.6
16.0~ 96 205 72.7
24.0~ 38 243 86.2
32.0~ 20 263 93.3
40.0~ 11 274 97.2
48.0~ 5 279 98.9
56.0~ 2 281 99.6
64.0~72.0 1 282 100.0
正常人的尿汞值为偏态分布,且过高为异常
应计算第 95百分位数95
95
8.0( 95% ) 40.0 (282 95% 263) 43.6( g/L)
11L
iP L n f
f
故该地正常人的尿汞值的95%医学参考值范围为43.6(g/L)。
THANK YOU !