105
第二章 第二章 数据特征与 数据特征与 统计描述 统计描述 www.med126.com

第二章 数据特征与 统计描述 - med126.com).… · 第二章 数据特征与 统计描述 ... 第一节 频数分布表与频数分布图 第二节 计量资料的常用统计指标

  • Upload
    others

  • View
    42

  • Download
    0

Embed Size (px)

Citation preview

第二章第二章 数据特征与数据特征与

统计描述统计描述

ww

w.m

ed126.com

第一节 频数分布表与频数分布图

第二节 计量资料的常用统计指标

第三节 计数资料的常用统计指标

第四节 统计图表

本章结构本章结构

ww

w.m

ed126.com

第一节 频数分布表与频数分布图

ww

w.m

ed126.com

一、频数分布表 (frequency table)

用途:用于描述资料的分布特征

频数:在一批样本中,相同情形出现的次数称为

该情形的频数。

资料类型 组段 频数

计数和等级 观察结果的所有分类

相同类别出现的次数

计量 根据观察结果重新划分

分组统计

P44 表4-1,4-2,4-3w

ww

.med126.com

表4-3 某地150名正常成年男子红

细胞数(1012/L)编号 红细胞数 编号 红细胞数

1 3.98 … …2 4.54 143 4.67

3 4.74 144 5.40

4 5.13 145 5.29

5 4.43 146 4.77

6 4.81 147 5.38

7 4.98 148 5.15

8 3.79 149 4.64

… … 150 5.19

ww

w.m

ed126.com

1. 频数表的编制步骤(1)求极差(range):即 大值与 小值之差

,又称为全距。

本例极差: R=5.88-3.79=2.09 (1012/L)

(2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一, 再略加调整。

本例i= R /10=2.09/10=0.209≈0.2。

ww

w.m

ed126.com

(3) 列出组段:第一组段的下限略

小于 小值, 后一个组段上限必须包含 大值,其它组段上限值忽略。

(4) 划记计数:用划记法将所有数

据归纳到各组段,得到各组段的频数。

ww

w.m

ed126.com

组段(1)

频数,f(2)

组中值,X(3)

fX(4)= (2)×(3)

3.7~ 1 3.8 3.83.9~ 4 4.0 16.04.1~ 11 4.2 46.24.3~ 17 4.4 74.84.5~ 26 4.6 119.64.7~ 32 4.8 153.64.9~ 26 5.0 130.05.1~ 18 5.2 93.65.3~ 10 5.4 54.05.5~ 4 5.6 22.4

1 5.8 5.8150 719.8

5.7~5.9合计

ww

w.m

ed126.com

三、频数分布图

P47

ww

w.m

ed126.com

二、频数表和频数分布图用途

1.描述频数分布的类型*

(1)对称分布 :若各组段频数的分布以频数 多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布 (图4-2)

(2)偏态分布 :

ww

w.m

ed126.com

右偏态分布(正偏态分布):频数 多组段右侧的组段数

多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。

转氨酶含量 人 数

12~ 2

15~ 9

18~ 14

21~ 23

24~ 19

27~ 14

30~ 11

33~ 9

36~ 7

39~ 4

42~45 3

表4- 115名正常成年女子血清转氨酶(mmol/L)含量分布

ww

w.m

ed126.com

血清转氨酶(mmol/L)

0

5

10

15

20

25

13.5 19.5 25.5 31.5 37.5 43.5.

图2-2 115名正常成年女子血清转氨酶的频数分布

人 数

ww

w.m

ed126.com

左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖

尾。

肌红蛋白含量 人 数

0~ 2

5~ 3

10~ 7

15~ 9

20~ 10

25~ 22

30~ 23

35~ 14

40~ 9

45~50 2

表4- 101名正常人的血清肌红蛋白( )含量分布g/mLμ

ww

w.m

ed126.com

血 清 肌 红 蛋 白(μg / m L)

0

5

10

15

20

25

2.5 12.5 22.5 32.5 42.5 52.5

图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布

人 数

ww

w.m

ed126.com

2. 描述计量资料分布的集中趋势和离散趋势

①集中趋势(central tendency):变量值集中位置。本例在组段“4.7~”。

——平均水平指标

②离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。

——变异水平指标

ww

w.m

ed126.com

3.便于发现一些特大或特小的可疑值*

组 段 频数 f (1) (2) 2.30~ 1 2.60~ 0 2.90~ 0 3.20~ 0 3.50~ 17 3.80~ 20 4.10~ 17 4.40~ 12 4.70~ 9 5.00~ 0 5.30~ 0

5.60~5.90 8 合 计 101

ww

w.m

ed126.com

4.便于进一步做统计分析和处理

ww

w.m

ed126.com

第二节 计量资料的常用统计指标

描述集中趋势的特征数

描述离散趋势的特征数

ww

w.m

ed126.com

计量资料(定量资料、数值变量资料)

总体:有限或无限个(定量)变量值

样本:从总体随机抽取的n个变量值:

X1,X2,X3,……,Xn

n为样本例数(样本大小、样本含量)

ww

w.m

ed126.com

一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集

中趋势( central tendency )。常用的

有:1. 算术均数(arithmetic mean),简称均数(mean)2. 几何均数(geometric mean)3. 中位数 (median)

ww

w.m

ed126.com

1. 均数(mean)

nX

nXXX

X n Σ=

+++=

L21

1 1 2 2 3 3

1 2 3

k k i

k i

f X f X f X f X fXXf f f f f+ + + + Σ

= =+ + + + Σ

L

L

Σ为求和符号,读成sigma,k, X , f 意义

例4-2

“权数” 例4-3

μ X符号:总体 样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算:(1)直接法

(2)频数表法

ww

w.m

ed126.com

p49,例4-3:均数=719.8/150=4.8

ww

w.m

ed126.com

2. 几何均数(geometric mean)

nX

X

nX

XXXn

X

XXXX

G

nG

nnG

−=

=+++=

=

lglg

lg)lglg(lg1lg

1

21

21

L

L

为正值,

为底的反对数表示以

为底的对数;表示以

010lg

10lg1

>

X

几何均数:变量对数值的算术均数的反对数。

ww

w.m

ed126.com

几何均数的适用条件与实例

适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料

例 血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。

10005

10lg10lg10lg10lg10lglg54321

1 =⎟⎟⎠

⎞⎜⎜⎝

⎛ ++++= −G

此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数

ww

w.m

ed126.com

频数表资料的几何均数

⎟⎟⎠

⎞⎜⎜⎝

⎛ +++=⎟

⎟⎠

⎞⎜⎜⎝

⎛=

∑∑∑ −−

i

nn

i

ii

fXfXfXf

fXf

G lglglglglg

lg 221111 L

抗体滴度⑴

人数,f⑵

滴度倒数,X⑶

lgX⑷

f·lgX⑸

1:41:81:161:32┇

1:512合计

1562┇572

481632┇512

0.60210.90311.20411.5051┇

2.7093

0.60214.51557.22463.0102┇

13.5465 72.2471

p51,例4-5:几何

均数=反对数(72.2471/40)=

64.00w

ww

.med126.com

3. 中位数(median)意义:中位数是将一批数据从小至大排

列后位次居中的数据值,反映一批观察值在位次上的平均水平。

符号:Md

适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料; ②资料有不确定数值;③资料分布不明等。

ww

w.m

ed126.com

中位数计算公式与实例

先将观察值按从小到大顺序排列,再按以下公式计算:

( )⎩⎨⎧

+=

+

+

为偶数

为奇数

nxxnx

Mdnn

n

22/12/

2/)1(

特点:仅仅利用了中间的1~2个数据

p51,例4-6:5人潜伏期:

2,3,5,8,20w

ww

.med126.com

频数表资料的中位数

m

L

ffniLMd

nMd

)%50(

)%50(

Σ−××+=

−×

+=

值间的频数所在组段下限值至上限

至该下限值的累计频数组距

所在组段下限值

下限值L 上限值U

i; fm

中位数Md

)%50( Lfn Σ−×

ww

w.m

ed126.com

潜伏期/h(1)

频数,f(2)

累计频数Σf(3)

0~ 17 176~ 46 6312~ 38 10118~ 32 13324~ 6 13930~ 0 13936~ 4 143

2 145145

42~48合计

例4-8

中位数=12+6x[(145x50%-63)/38]

=13.5(h)w

ww

.med126.com

均数、中位数二者关系

正态分布时: 均数=中位数

正偏态分布时:均数>中位数

负偏态分布时:均数<中位数

ww

w.m

ed126.com

小结:集中趋势的描述——平均数

平均数:描述一组变量值的集中位置或平均水平的指标体系。

不同的分布使用不同的指标

(算术)均数:正态或近似正态或观察值相差不

大的小样本资料

几何均数:对数正态分布或等比级数资料

中位数 :一般偏态分布(传染病发病的潜伏

期)

ww

w.m

ed126.com

二、 描述离散趋势的特征数

(变异(variation)指标)反映数据的离散度( Dispersion )。即

个体观察值的变异程度。常用的指标有:1. 极差(Range) (全距)2. 百分位数与四分位数间距

Percentile and Quartile range3. 方差 Variance4. 标准差Standard Deviation5. 变异系数 Coefficient of Variation

ww

w.m

ed126.com

盘编号 甲 乙 丙

1 440 480 4902 460 490 4953 500 500 5004 540 510 5055 560 520 510

合计 2500 2500 2500

均数 500 500 500

例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)

420

440

460

480

500

520

540

560

580

甲 乙 丙w

ww

.med126.com

1.极差(Range) (全距)minmax XXR −=

420

440

460

480

500

520

540

560

580

120 40 20

符号:R意义:反映全部变量值的变动范围。优点:简便,如说明传染

病、食物中毒的 长、短潜伏期等。

缺点:1. 只利用了两个极端值

2.n大,R也会大3.不稳定

适用范围:任何计量资料;是参考变异指标

ww

w.m

ed126.com

2.百分位数与四分位数间距Percentile and quartile range百分位数 :数据从小到大 排列;在百分

尺度下,所占百分比对应的值。记为Px。

四分位间距:

(定义:P53)Q=P75- P25

四分位半间距quartile deviation:QD=QR/2

0%

20%

40%

60%

80%

100%

0

P100(max)

P75

P50(中位数)

P25

P0(min)Px

ww

w.m

ed126.com

频数表资料的百分位数

m

Lx

x

ffxniLP

xnP

)%(

)%(

Σ−××+=

−×

+=

值间的频数所在组段下限值至上限

至该下限值的累计频数组距

所在组段下限值

下限值L 上限值U

i; fm

百分位数Px

)%( Lfxn Σ−×

ww

w.m

ed126.com

P25=6+6x[(145x25%-17)/46]=8.51(h)

P75=18+6x[(145x75%-101)/32]=19.45(h)

Q=19.45-8.51=10.94(h)

潜伏期/h(1)

频数,f(2)

累计频数Σf(3)

0~ 17 176~ 46 6312~ 38 10118~ 32 13324~ 6 13930~ 0 13936~ 4 143

2 145145

42~48合计

ww

w.m

ed126.com

百分位数的应用

确定医学参考值范围 (reference range):如95%参考值范围=P97.5-P2.5;

表示有95%正常个体的测量值在此范围。

中位数Md与四分位半间距QD一起使用,描

述偏态分布资料的特征

ww

w.m

ed126.com

3.方差方差 (variance)也称均方差(mean

square deviation),样本观察值的离均差平方

和的均值。表示一组数据的平均离散情况。

NX

XlSSX

xx

∑∑

22

2

)-(

)-()square of sum(0)-(

μσ

μ

μ

=

==

=

总体方差

离均差平方和

离均差和

( )11

)(222

2 ∑−

−−−

= ∑ ∑n

nXXn

XXS =样本方差

ww

w.m

ed126.com

样本方差为什么要除以(n-1)2

2 ( )XN

μσ Σ −=总 体 方 差

数理统计证明,n代替N后,计算出的样本方

差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。

分母为n-1,称为自由度(能自由取值的变量

的个数)。

( )2222 ( )

1 1X X nX X

Sn n

−−=

− −∑ ∑∑

样本方差 =

ww

w.m

ed126.com

4.标准差

( )222( )1 1

X X nX XS

n n−−

=− −

∑ ∑∑样本标准差 =

标准差 (standard deviation)即方差的正平方根;其单位与原变量X的单位相同。(p54)

( )1

22

−−

=∑

∑ ∑∑f

ffXfXS频数表样本标准差

2( )X XN

σ−

= ∑总体标准差

ww

w.m

ed126.com

标准差的计算

盘编号 甲 乙 丙 甲2 乙2 丙2

1 440 480 4904955005055102500

标准差 50.99 15.81 7.91

2 460 490240100230400193600

2116002500003 500 500291600

245025

313600

240100250000

4 540 510 260100270400

2500002550252601005 560 520

1251000 1250250合计 2500 2500 1260400

( )99.50

155/25001260400

1

222

=甲的标准差−−

=−

−= ∑ ∑

nnXX

S

ww

w.m

ed126.com

方差=(3476.48-719.82/150)/(150-1)= 0.1503

标准差=0.39(1012/L)(例4-12)

组段(1)

频数,f(2)

组中值,X(3)

fX(4)= (2)×(3)

3.7~ 1 3.8 3.8

3.9~ 4 4.0 16.0

4.1~ 11 4.2 46.2

4.3~ 17 4.4 74.8

4.5~ 26 4.6 119.6

4.7~ 32 4.8 153.6

4.9~ 26 5.0 130.0

5.1~ 18 5.2 93.6

5.3~ 10 5.4 54.0

5.5~ 4 5.6 22.4

1 5.8 5.8

150 719.8

5.7~5.9合计

ww

w.m

ed126.com

5.变异系数(coefficient of variation)

%100×=XSCV

符号:CV适用条件:①观察指标单位不同,如身高、体重

②同单位资料,但均数相差悬殊

均数 标准差 变异系数

青年男子 身高 170 cm 6 cm 3.5%体重 60 kg 7 kg 11.7%

意义:挑选指标时变异系数越小,指标越好。

P56 例4-13w

ww

.med126.com

变异指标小结

1.极差较粗,适合于任何分布

2.标准差与均数的单位相同, 常用,适合于近似正态分布

3.变异系数主要用于单位不同或均数相差悬殊资料

4.平均指标和变异指标分别反映资料的不同特征,

常配套使用 如 正态分布:均数、标准差;

偏态分布:中位数、四分位半间距

ww

w.m

ed126.com

练习题

p67.第1题。

p68.第3题。

ww

w.m

ed126.com

第三节 计数资料的常用统计指标

一、计数资料的数据整理

二、常用相对数指标

三、应用注意事项

ww

w.m

ed126.com

计数资料(分类资料):

总体:有限或无限个定性(分类)变量值

样本:从总体中抽取的n个定性(分类)变量值

整理为:分类个体数,即:计数资料频数表

绝对数

ww

w.m

ed126.com

一、计数资料的数据整理

计数资料:按某种属性分类,然后清点每类

的数据(以下是:孕妇分娩资料)

住院号 年龄 职业 文化程度 分娩方式 妊娠结局2025655 27 无 中学 顺产 足月2025653 22 无 小学 助产 足月2025830 25 管理人员 大学 顺产 足月2025677 24 知识分子 中学 顺产 早产2025647 30 管理人员 大学 顺产 足月2025848 32 无 小学 剖宫产 足月2019915 27 无 中学 顺产 死产2025861 29 无 大学 剖宫产 足月2024601 25 农民 中学 顺产 足月2000386 26 无 小学 顺产 足月

ww

w.m

ed126.com

按年龄(2岁一组)与职业整理

年龄 工人 管理人员 农民 商业服务 无 知识分子 总计

18 2 0 0 0 3 0 5

20 9 2 6 10 18 0 4522 28 7 10 24 70 11 15024 50 34 28 52 153 44 36126 50 43 25 45 133 70 36628 34 35 10 34 78 57 24830 11 14 11 22 39 17 11432 14 2 3 14 24 3 6034 4 2 5 3 12 2 2836 2 1 1 4 5 1 1438 3 1 1 0 2 1 840 0 0 2 0 0 0 2合计 207 141 102 208 537 206 1401

ww

w.m

ed126.com

二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治

愈人数、死亡人数等。

但绝对数通常不具有可比性:

1. 如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡

人数没有意义

2. 如2002级附二院五年制一、二大班学生人数不同时,比较两班医

学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对

数。

相对数:两个有联系的指标之比,常用的相对数有:

一、比

二、比率

三、速率

ww

w.m

ed126.com

相对比简称比,是两个有关指标之比,说明

两指标间的比例关系。

计算公式为

式中两指标可以是绝对数、相对数或平均数。

(一)比(ratio)(一)比(ratio)

ARB

=指标

指标

ww

w.m

ed126.com

(一)两个绝对数之比:

如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为

370/358×100 = 103,说明该医院该年每出生100名女婴儿,就有103名男性婴儿出生,它反映了男

性婴儿与女性婴儿出生的对比水平。

ARB

=类发生例数

类发生例数

ww

w.m

ed126.com

(二)两个率之比:如相对危险度(RR)。

例 如某地某年龄组男性吸烟和非吸烟的冠心病

死亡资料如表7-2,试分析其相对危害度。

1

2

pRp

=

240.5 2.139112.4

R = =

说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。

吸烟组 非吸烟组

死 亡 数 104 12

观 察 人 年 数 43248 10673

死亡率( 1/10 万人年) 240 .5 112 .4

表7-2 某地某年龄组男性吸烟和非吸烟的冠心病死亡资料表7-2 某地某年龄组男性吸烟和非吸烟的冠心病死亡资料

ww

w.m

ed126.com

(三)两个相对比之比:如流行病学常用的比数比(OR)。

例 服用反应停与肢体缺陷关系病例对照研究资料如表所示:

服用反应停 畸形儿组 对照组 合计

有 34(a ) 2 (b ) 36

无 16(c) 88 (d ) 104

合 计 50 90 140

/ 34 88 93.5( )/ 2 16

a cORb d

×= = = =

×疾病组的暴露比数

倍对照组的暴露比数

ww

w.m

ed126.com

比率(P57): 分子分母都是绝对数,且分子必须是分

母的一部分。无量纲,[0,1] 。1.率(rate)(强度相对数)说明某现象或某事物发生的频率或强度。

率=(实际发生数/可能发生总数)×比例基数如:治愈率、病死率、阳性率、人群患病率等

比例基数:100%、1000‰、10000/万、100000(1/10万)

等 (按习惯,使结果保留1-2位小数)例如:患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示。

(二)比率(proportion)

ww

w.m

ed126.com

2.构成比(结构相对数)(proportion):

表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。

通常以100%为比例基数。其计算公式为

如:教研室16人高级职称有4人,占25%;中级职称有8人,占50%;初级职称有4人,占25%。

100%= ×某一组成部分的观察单位数

构成比 同一事物各组成部分的观察单位总数

ww

w.m

ed126.com

(三)速率(rate):分母中含有时间量纲。

P58 例4-14

是反映单位时间内某事件出现的可能性大小,多用于面向人群的出生、死亡和发病资料的统计.

人口出生率=(某年中活产总数/该年平均人口数) ×100%

ww

w.m

ed126.com

三、应用注意事项

1、不能以构成比代替率。

ww

w.m

ed126.com

率与构成比容易误用

年龄

组⑴

受检

人数⑵

白内障例数⑶

患者年龄构成比(%)

患病率(%)⑸=(3)/(2)

56044129614922

681291359719

15.1828.7930.1321.654.24

12.1429.2545.6165.1086.36

1468 448 100.00 30.52

40~50~60~70~≥80合计

ww

w.m

ed126.com

2、计算相对数的分母不宜过小。小则直接叙述。

3、进行率的对比分析时,应注意资料可比性。如 比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。

ww

w.m

ed126.com

(1)观察对象是否同质,研究方法是否相同,观察时间是

否相等,以及地区、周围环境、风俗习惯和经济条件是否一

致或相近等。

(2)观察对象内部结构是否相同,若两组资料的年龄、

性别等构成不同,可以分别进行同年龄别、同性别的小组率

比较或对总率(合计率)进行标准化后再作比较。

ww

w.m

ed126.com

4、正确求平均率。

例: 若P1=x1/n1 ,P2=x2/n2 P3=x3/n3

P=(x1+ x2+ x3)/ n1+ n2+ n3)(正确)

P=(P1+ P2+ P3)/3 (错误)

5. 样本率(或构成比)同样存在抽样误差,故

应进行样本率(或构成比)差别的假设检验。

ww

w.m

ed126.com

第四节 统计图表

统计表(statistical table)——数

据代替文字描述,便于统计结果的精确、简洁的表达和对比分析

统计图(statistical chart)——用

图形代替数据,获得直观、形象的效果

ww

w.m

ed126.com

定义: 将统计分析的事物及指标用表格列出。特点:1.避免长篇文字叙述,便于阅读和对比分析。2.数据具体。

定义: 用点的位置, 线段的升降,直条的长短或面积的大小等 形式表达统计资料。 特点: 直观、醒目,常给人以深刻印象。

ww

w.m

ed126.com

一、 统计表

1. 统计表的结构

2. 统计表的种类

ww

w.m

ed126.com

1. 标题:

2. 标目:

3. 线条:

4. 数字:无数字用“—”表示,缺失数字用“…”表示

,数值为0者记为“0”,不要留空项。

5. 备注:

1、统计表的基本结构

ww

w.m

ed126.com

横标目名称 纵标目名称 合 计

横 标 目 数 据 区

合 计

顶 线

底 线

表 名 标 题

ww

w.m

ed126.com

表4-8 某省某工厂 1994、1998年四项检测指标异常检出率

1994年 1998年受检人数

582582582582

检测指标 受检人数 异常人数 检出率(%) 异常人数 检出率(%)血压心率TTTΔ

GPT#

519519519519

55443620

10.160.486.943.85

38392316

6.526.703.952.75

Δ:TTT(麝香草酚浊度试验), #:GPT(谷丙转氨酶)。

ww

w.m

ed126.com

2. 统计表的种类

根据分组标目的复杂程度,统计表可大致分为简单表

和复合表。

简单表(simple table):只按一个特

征或标志分组。如表4-1 。

组合表(combinative table) :按两

个或两个以上特征或标志结合起来分组。

如表4-8。

ww

w.m

ed126.com

表 2-8 某医院用两种疗法矫治假性近视眼的近期有效率 矫治方法 观察人数 近期有效人数 近期有效率(%)

新医疗法 眼保健操

32 32

16 9

50.0 28.1

简单表示例

分组标志为矫治方法

ww

w.m

ed126.com

表4-8 某省某工厂 1994、1998年四项检测指标异常检出率

1994年 1998年受检人数

582582582582

检测指标 受检人数 异常人数 检出率(%) 异常人数 检出率

(%)血压心率TTTΔ

GPT#

519519519519

55443620

10.160.486.943.85

38392316

6.526.703.952.75Δ:TTT(麝香草酚浊度试验), #:GPT(谷丙转氨酶)。

(丁建生等. 中国卫生统计 1999; 16(3):166 )

复合表示例

分组标志:不同年份不同检测指标

ww

w.m

ed126.com

例 下表是复方猪胆胶囊治疗两型老年性慢性支气管

炎的疗效比较,请对该表的绘制进行评价,并指出所存在的问题。

表 两个组的疗效观察

分型及疗效 单纯型慢性支气管炎 喘息型慢性支气管炎

指标 治愈 显效 好转 无效 治愈 显效 好转 无效

例数 60 98 51 12 23 83 65 11合计 209 12 171 11

% 94.6 94.0

ww

w.m

ed126.com

疗效 类型 例数

治愈 显效 好转 无效有效率

单纯型 221 60 98 51 12 94.6%喘息型 182 23 83 65 11 94.0

表 复方猪胆胶囊治疗两型老年慢性支气管炎患者的疗效比较

ww

w.m

ed126.com

一、 统计图

统计图(statistical chart 或statistical graph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。

1. 统计图的结构

2. 统计图的种类与绘制注意事项

ww

w.m

ed126.com

1、统计图的结构

标题:用于简明扼要地说明资料的内容,一般位于图的

下方中央位置。

图域:即制图空间,是整个统计图的视觉中心。除圆图

外,一般都是存在于特定的坐标体系下。

标目:分为纵标目和横标目,表示坐标系下纵轴与横轴

的含义。

图例:用于识别比较的统计图中各种图形所代表的含义

刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的

顺序,纵轴由下向上,横轴由左向右排列。w

ww

.med126.com

2. 统计图的种类与绘制注意事项

直条图

百分条图

圆图

线图与半对数线图

直方图

箱图

散点图

统计地图w

ww

.med126.com

((11)条图()条图(bar graphbar graph))1. 概念

条图用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示他们之间的对比关系。

2. 适用资料:相互独立的资料(资料有明确分组,不连续)。3. 分类

(1)单式条图 具有一个统计指标,一个分组因素。(2)复式条图 具有一个统计指标,两个分组因素。

ww

w.m

ed126.com

条条 图图

1998年世界不同地区爱滋病流行情况

北非及中东西欧北美洲 拉丁美洲南亚及东南亚

成人感染率

(%)

0.8

0.7

0.6

0.5

0.44

0.3

0.22

0.11

0

ww

w.m

ed126.com

表4-8 某省某工厂 1994、1998年四项检测指标异常检出率

1994年 1998年受检人数

582582582582

检测指标 受检人数 异常人数 检出率(%) 异常人数 检出率

(%)血压心率TTTΔ

GPT#

519519519519

55443620

10.160.486.943.85

38392316

6.526.703.952.75

Δ:TTT(麝香草酚浊度试验), #:GPT(谷丙转氨酶)。(丁建生等. 中国卫生统计 1999; 16(3):166 )

条条 图图

ww

w.m

ed126.com

条条 图图

某工厂职工1994年998年四项生理指标异常检出率

GPT TTT 心率 血压

检出率(

%)

12

11

10

9

8

7

6

5

4

3

2

1 0

1994年

1998年

ww

w.m

ed126.com

绘制条图注意事项

⑴ 纵轴的刻度必须从“0”开始,否

则会改变各对比组间的比例关系。

(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。

(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。

图2-10 直条图的纵轴尺度起点必须为零示意图

0

1

2

3

4

5

6

7

甲 乙

ww

w.m

ed126.com

((22)圆图)圆图((pie graphpie graph))1.概念

以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。

2.适用资料:构成比资料

ww

w.m

ed126.com

2002年某医院1402例孕妇分娩结果

分娩结果 例数 构成比(%)

过期产 21 1 死产 21 1 早产 212 15 足月 1148 83 总计 1402 100

ww

w.m

ed126.com

(3)百分条图(percentage chart)百分条图的作用与圆图相同。但更适用于多组百分比的比较。

25.70% 16.07% 15.04% 11.56% 11.41% 20.22%

0% 20% 40% 60% 80% 100%

0 20 40 60 80 100

呼吸系统病

脑血管病

恶性肿瘤

损伤与中毒

心脏疾病

其它

图2-18 我国部分县1988年的死因构成比

ww

w.m

ed126.com

不同性别某癌三种类型的构成

分化型癌 低分化腺癌 未分化型 合计男 52.3 27.8 19.9 100女 30.2 18.1 51.7 100

52.3

30.2

27.8

18.1

19.9

51.7

0% 20% 40% 60% 80% 100%

分化型癌 低分化腺癌 未分化型w

ww

.med126.com

((44)线)线 图图一、普通线图(线图)

1.概念线图(line graph)是用线段的升降来表示统计指标的变化趋势。如某事物随时间的发展变化,或某现象随另一现象变迁的情况。

2.适用资料适用于随时间变化的连续性资料。

ww

w.m

ed126.com

3.分析目的:用线段的升降表示某事物在时间上的发展变化趋势。

ww

w.m

ed126.com

某市 1949~ 1957 年儿童结核病和白喉死亡率

年份

19571956195519541953 1952195119501949

死亡率(

1/10

万)

160

140

120

100

80

60

40

20

0

结核病

白喉

ww

w.m

ed126.com

二、半对数线图二、半对数线图

1. 概念

是一种特殊的线图,其坐标纵轴是对数尺度,特别适宜作不同指标变化速度的比较。

2.适用资料适用于随时间变化的连续性资料,尤其比较数值相差悬殊的多组资料时采用。

ww

w.m

ed126.com

3.分析目的:半对数线图中线段的升降是用来表示某事物发展速度(或者说是相对比)。

ww

w.m

ed126.com

图 某市 1949~1957 年儿童结核病和白喉死亡率

年份

195719561955195419531952195119501949

死亡率之对数值

2.5

2.0

1.5

1.0

0.5

0

结核病

白喉

ww

w.m

ed126.com

普通线图(线图):纵横轴均为算术尺度,半对数图:纵轴为对数尺度,横轴为算术

尺度。

ww

w.m

ed126.com

图 2-14 某市 1949~1957 年儿童结核病和白喉死亡率

年份

195719561955195419531952195119501949

死亡

率之对

数值

2.5

2.0

1.5

1.0

0.5

0

结核病

白喉

图 2-13 某市 1949~ 1957 年儿童结核病和白喉死亡率

年份

195719561955195419531952195119501949

死亡率(

1/10

万)

160

140

120

100

80

60

40

20

0

结核病

白喉

注意:在普通线图中,结核病死亡率线条的坡度比白喉死亡率线条下降的陡峭,只能说明两种疾病的死亡率逐年变化幅度不同,不能错认为结核病死亡率的下降速度比白喉死亡率的下降速度快。在半对数线图中就不会出现这种错觉。在比较事物间的变化速度时,应选择半对数线图。

ww

w.m

ed126.com

((55)直)直 方方 图图1.概念是以直方面积描述各组频数的多少,面积的总

和相当于各组频数之和。

2.适用资料:直方图用于表达连续性资料的频数分布。

ww

w.m

ed126.com

3.制图要求:(1)一般纵轴表示被观察现象的频数(或频

率),横轴表示连续变量,以各矩形(宽为组距)的面积表示各组段频数。

(2)直方图的各直条间不留空隙;各直条间可用直线分隔,但也可不用直线分隔。

(3)组距不等时,横轴仍表示连续变量,但纵轴是每个横轴单位的频数。

ww

w.m

ed126.com

ww

w.m

ed126.com

((66)箱)箱 式式 图图

箱式图:使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。

ww

w.m

ed126.com

箱式图的箱子两端分别是上四分位数(P75)和下四分位数(P25) ,中间横线是中位数(P50)两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。显然箱子越长,数据变异程度越大。中间横线在箱子中点表明分布对称,否则不对称。

160N =

血清甘油三酯(mmol/L)

X

2.0

1.8

1.6

1.4

1.2

1.0

.8

.6

.4

ww

w.m

ed126.com

例 某地调查不同类型化妆品厂车间内粉尘数,结果绘制成图2-20。图中显示粉尘数的分布呈偏态分布,净化厂粉尘数较少,非净化厂粉尘数较多。

工厂类型

粉类非净化净化

尘粒

数(亿

) 2.0

1.8

1.6

1.4

1.2

1.0

.8

.6

.4

.2

0.0

ww

w.m

ed126.com

((77)散)散 点点 图图

1.概念散点图以直角坐标系中各点的密集程度和

趋势来表示两现象间的关系。常在对资料进行相关分析之前使用。

2.适用资料:双变量资料。

ww

w.m

ed126.com

12名女大学生身高与体重散点图

ww

w.m

ed126.com

((88)统计地图)统计地图

统计地图(statistical map):是用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。

ww

w.m

ed126.com

例 调查广东省四会市鼻咽癌高发区1990-1999年十年间鼻咽癌的发病数,按镇区计算标化发病比(SMR),标志在四会市行政地图上。

图 1990-1999年某市鼻咽癌标化发病比的地区分布w

ww

.med126.com

The end

ww

w.m

ed126.com