Upload
edythe
View
45
Download
7
Embed Size (px)
DESCRIPTION
演示课件. 普通高等教育 “ 十一五 ” 国家级规划教材. 卫生(医学)统计学. 第十章 回归与相关. 1. 回归与相关概述. 回归与相关 是研究变量之间相互关系的统计分析方法,它是一类双变量或多变量统计分析方法( 本章主要介绍双变量分析方法 ),在实际之中有着广泛的应用。如年龄与体重、年龄与血压、体重与肺活量、体重与体表面积、毒物剂量与动物死亡率、污染物浓度与污染源距离等都要运用回归与相关方法对资料进行统计分析。. 变量之间的关系: (1)直线关系(线性关系);(2)曲线关系(非线性关系)。在回归与相关分析中,直线回归与相关是最简单的一种,是本章主要内容。 - PowerPoint PPT Presentation
Citation preview
1
普通高等教育“十一五”国家级规划教材 1
演示课件
第十章 回归与相关
卫生(医学)统计学卫生(医学)统计学
普通高等教育“十一五”国家级规划教材
2
普通高等教育“十一五”国家级规划教材
回归与相关概述
回归与相关是研究变量之间相互关系的统计分析方法,它是一类双变量或多变量统计分析方法(本章主要介绍双变量分析方法),在实际之中有着广泛的应用。如年龄与体重、年龄与血压、体重与肺活量、体重与体表面积、毒物剂量与动物死亡率、污染物浓度与污染源距离等都要运用回归与相关方法对资料进行统计分析。
3
普通高等教育“十一五”国家级规划教材
变量之间的关系:(1)直线关系(线性关系);(2)曲线关系(非线性关系)。在回归与相关分析中,直线回归与相关是最简单的一种,是本章主要内容。
直线回归分析:分析两个变量间的数量关系,分析用一个变量推算另一个变量的方法 ( 建立回归方程 ) ;
直线相关分析:分析两个变量之间有无相关关系以及相关的性质(正、负相关)和相关的密切程度。
4
普通高等教育“十一五”国家级规划教材
直线回归
一、直线回归的概念 “ 回归”一词首先由英国生物统计学家S.F.Galton(1885)提出,他发现,高个子的父代其子代平均身高不是更高,而是稍矮;相反,矮个子的父代其子代平均身高不是更矮,而是稍高于其父代水平,他把这种趋向种族稳定的现象称为“回归”。目前回归的含义已经演变成变量之间的某种数量依存关系。
5
普通高等教育“十一五”国家级规划教材
由于生物间存在变异,故两相关变量之间的关系具有某种不确定性,如同性别、同年龄的人,其肺活量与体重有关,肺活量随体重的增加而增加,但体重相同的人其肺活量并不一定相等。因此,散点呈直线趋势,但并不是所有的散点均在同一条直线上,肺活量与体重的关系与严格对应的函数关系不同,它们之间是一种回归关系,称直线回归。这种关系是用直线回归方程来定量描述。因此,回归分析的任务就是通过样本数据求出回归方程,并检验方程是否成立。
6
普通高等教育“十一五”国家级规划教材
二、回归分析对资料的要求回归分析涉及到两个变量, X与 Y ,其中 X 称
自变量, Y 为因变量或反应变量。要求 X 是可以精确测量和严格控制的非随机变量,如年龄,药物浓度或剂量等; X 也可以是随机变量,如血清胆固醇的含量,血红蛋白的含量,等。 Y 要求是呈正态分布的随机变量。收集资料时, X与 Y 是成对的,一般来自同一个研究对象。一对数据缺少 X
或 Y 都不能使用,因此收集数据时要特别注意。
7
普通高等教育“十一五”国家级规划教材
三、直线回归方程的求法1 、由 X 推算 Y 的直线回归方程一般表达式 =a+bx ( 10.1 ) a 称为截距 , b 为回归系数 , 即直线的斜率。2 、回归系数 b 的统计学意义 b>0时 ,Y随 X 增大而增大, b<0时 ,Y随 X 的增大而减; b=0时, X 与 Y 无直线关系。 b 是一个重要的指标 ,它的统计学意义是: X 每增(减)一个单位, Y 平均改变 b
个单位。
Y
8
普通高等教育“十一五”国家级规划教材
lxx
lxy
XX
YYXXb
2)(
))((
3、 a和 b 的求法
XbYa 式中 、 分别是 X 、 Y 的均数; 为 X 的离均差平方和; 为 X 与 Y 的离均差积和,按下式计算。
X Y xxl
xyl
n
YXXYYYXXlxy
))(())((
9
普通高等教育“十一五”国家级规划教材
4 、回归分析的步骤例 10. 1 某地 12名一年级女大学生的体重及肺活量资料如下,试求肺活量( L) Y 对体重( kg )的直线回归方程。 体重 X 42 42 46 46 46 50 50 50 52 52 58 58
肺活量 Y 2.55 2.20 2.75 2.40 2.80 2.81 3.41 3.10 3.46 2.85 3.50 3 .00
10
普通高等教育“十一五”国家级规划教材
(1) 、绘制散点图。(见图 10.1 )
一年级女大学生体重与肺活量散点图
2
2.5
3
3.5
4
40 45 50 55 60体重( kg)
肺活
量(L
)
11
普通高等教育“十一五”国家级规划教材
(2)求 ΣX、 ΣY、 ΣX2、 ΣY2及 ΣXY ;本例: ΣX=592、 ΣY=34.83;ΣX2=29512, ΣY2=102.9833 ; ΣXY=1736.32
(3) 计算 、 、 lxx、 lyy、 lxy ;X Y
3333.4912
592
n
XX
9025.212
83.34
n
YY
12
普通高等教育“十一五”国家级规划教材
6667.30612
)592(29512
)()(
2222
n
XXXXlxx
8892.112
)83.34(9833.102
)()(
2222
n
YYYYlyy
04.1812
)3483)(592(32.1736
))((
n
YXXYlxy
13
普通高等教育“十一五”国家级规划教材
(4) 求 a 和 b ;
(5) 列出回归方程:
058826.06667.306
04.18
lxx
lxyb
000419.0)3333.49(058826.09025.2 XbYa
XY 058826.0000419.0
14
普通高等教育“十一五”国家级规划教材
四、线回归方程的图示 在 X 实测值范围内选相距较远且易读数的两个 X值,代入回归方程求出 Y 的估计值,本例取 X1=42时Y1=2.47;X2=58时 ,Y2=3.41 。在坐标上确定( 42, 2.47
)和 (58, 3.41) 两点,将这两点用直线相连,即为回归直线。所绘直线经过( , ),与 Y轴相交于 a 。(见图10.1 )
X Y
15
普通高等教育“十一五”国家级规划教材
五、回归系数 b 的假设检验(一) lyy 的分析 P(X,Y)
)YY(
)YY(
Y
)YY( Y
Y
X
图 10.2 应变量 Y 的平方和划分示意
16
普通高等教育“十一五”国家级规划教材
P 为散点图上任意一点,其 Y值被分割三段:第一段: 表示 P 点与回归直线的纵向距
离 , 即实际值 Y 与估计值 之差 , 称剩余或残差。第二段: 即估计值与均数之差,它与回归系
数的大小有关。 |b| 值越大, 的差值也越大,反之越小。当 b=0时, 则 =
也就是回归直线并不能使残差减小。第三段: ,是应变量 Y 的均数。
)YY( Y
Y
)YY(
)YY( )YY(
0)ˆ( YY)YY(
17
普通高等教育“十一五”国家级规划教材
上述三个线段的代数和为: = + +
移项得: = +
对上式两边同时平方后求和可以得到:
其中: 称总平方和,用 SS总表示, 称回归平方和,用 SS 回表示; 称剩余平方和,用SS剩表示。
1 、三种平方和的关系是: SS总 =SS回 +SS剩
Y Y )YY(
222 )ˆ()ˆ()( YYYYYY
)YY( )YY( )YY(
)YY(
2)( YY 2)ˆ( YY
2)ˆ( YY
18
普通高等教育“十一五”国家级规划教材
2 、三种平方和的意义( 1 )、 SS总,为 Y值的离均差平方和,说明未考虑
X与 Y 的回归关系时 Y总的变异。( 2 )、 SS 回,它反映在 Y 的变异中由于 X与 Y 的直
线关系而使 Y 变异减少的部分,也是在总平方和中可以用X解析的部分。 SS 回越大,说明回归效果越好。( 3 )、 SS剩,反映 X对 Y 的线性影响之外其它因素对 Y 的变异的作用,也是在总平方和中无法用 X解析的部分。 SS剩越小,说明回归方程的估计误差越小。
)YY(
2)YY(
19
普通高等教育“十一五”国家级规划教材
3 、三种平方和的自由度及其关系如下 υ总 =n-1, υ回 =1, υ剩 =n-2 υ总 =υ回 +υ剩
20
普通高等教育“十一五”国家级规划教材
(二)、 SS 回及 SS 剩的计算方法
1 、先计算 SS 剩,再反推 SS 回
SS 剩的计算采用直接法进行,见表 10.1; SS 剩 =0.8280
, SS 总 =1.8892 ,则 SS 回 =SS 总 -SS 剩 =1.8892-
0.8280=1.0612 。2 、先计算 SS 回,再反推 SS 剩
SS 回 =blxy=( lxy) 2/lxx
本例 lxx=306.6667, lxy=18.04, lyy=1.8892 ,则 SS 回 =( 18.04) 2/306.6667=1.0612
SS 剩 =SS 总 -SS 回 =1.8892-1.0612=0.8280
21
普通高等教育“十一五”国家级规划教材
表 10.1 SS 的计算 序号 X Y
1 42 2.55 2.4711 0.0789 0.00622 42 2.20 2.4711 -0.2711 0.07353 46 2.75 2.7064 0.0436 0.00194 46 2.40 2.7064 -0.3064 0.09395 46 2.80 2.7064 0.0936 0.00886 50 2.81 2.9417 -0.1317 0.01737 50 3.41 2.9417 0.4683 0.21938 50 3.10 2.9417 0.1583 0.02519 50 3.46 3.0594 0.4006 0.160510 52 2.85 3.0594 -0.2094 0.043811 58 3.50 3.4123 0.0877 0.007712 58 3.00 3.4123 -0.4123 0.1700合计 592 34.83 34.8299 0.0001 0.8280
2)ˆ( YY Y )ˆ( YY
22
普通高等教育“十一五”国家级规划教材
(三 )、 b 的假设检验方法 1 、方差分析方法 将 SS总分解为 SS 回和 SS剩两部分后,按下式
计算 F 值 :
MS 回, MS剩分别为回归均方及剩余均方,求出 F值后查 F界值表确定 P值,按所取检验水准推断结论。
21/
/ n
MS
MS
SS
SSF 剩回
剩
回
剩剩
回回 ,,
23
普通高等教育“十一五”国家级规划教材
2、 t 检验法按下列公式计算 t值:
2,/
0
.
nvlxxs
b
s
bt
xyb
22
)ˆ( 2
.
n
SS
n
YYs xy
剩
上式中, Sb 为样本回归系数的标准误, Sy.x 为剩余标准差 , 也称回归标准差 , 它表示应变量 Y 的观察值对于回归直线的离散程度; Sy.x 可以作为回归方程估计的精度指标。
24
普通高等教育“十一五”国家级规划教材
(四)、 例 10.1 回归系数 b 的假设检验 1 、方差分析方法 H0: β=0 ,即体重与肺活量之间无直线关系 H1: β≠0 ,即体重与肺活量之间有直线关系 α=0.05
前 面 已 经 算得 : SS 总 =1.8892,SS 回 =1.0612,SS 剩=0.8280,
本例 F=12.816 ,V回 =1,v剩 =10, 查附表 4, F界值表得 ,
F0.01,(10 , 1)=10.04, 因 为 F> F0.01,(10 , 1) , 故P<0.01,按 α=0.05 水准 ,拒绝 H0,接受 H1, 故可以认为一年级女大学生肺活量与体重之间有直线关系,可以使用体重推算肺活量。
25
普通高等教育“十一五”国家级规划教材
2、 t 检验方法 假设及检验水准同上 本 例 n=12 , SS 剩=0.8280, lxx=306.6667, b=0.058826
2877.0212
8280.0
2.
n
SSS XY
剩
016429.06667.306
287.0. xx
xyb l
SS
581.3016429.0
058826.0
bS
bt
26
普通高等教育“十一五”国家级规划教材
按 v=10查 t界值表得 ,t0.005,10=3.581, 由于 t=
t0.005,10 ,故 P=0.005。 α=0.05 水准 ,拒绝 H0,接受 H1, 故可以认为一年级女大学生肺活量与体重之间有直线关系。
101121 nv
580.3816.12 ,注意: tF
27
普通高等教育“十一五”国家级规划教材
六、直线回归分析的区间估计 1 、总体回归系数 β 的估计用样本回归系数 b估计总体回归系数 β ,方法如下
:β95% 可信区间是:( b-t0.05,(n-2)Sb ,b+t0.05,(n-2)Sb ) , 缩写为 b±
t0.05,(n-2)Sb
Sb 为回归系数的标准误 ,n-2 为自由度。
28
普通高等教育“十一五”国家级规划教材
例 样本回归系数 b=0.058826估计其总体回归系数 β
的 95% 可信区间。已算得 Sb=0.016429, v=12-2=10 ,查 t界值表得 t0.05(10) =2.228,按上式: 0.058826- 2.228×0.016429= 0.022222
0.058826+2.228×0.016429=0.095430
β95% 可信区间是 ( 0.022222 , 0.095430 )
29
普通高等教育“十一五”国家级规划教材
2 、 总体均数 的估计 是总体中当 X 为某定值时 Y 的总体均数,而将 X
的值代入回归方程中所求得的 为样本均数,是 的估计值。比如 , 在一年级女大学生中 (指总体 ), 体重X=50kg 的女学生 , 其平均肺活量就是 ,而 往往未知 , 可以通过 来估计,计算方法如下:
y
yYy
Y
y y
30
普通高等教育“十一五”国家级规划教材
( 1- )的可信区间是:
( -tα,n-2 , +tα,n-2 ),缩写为 ±tα,n-2
y
Y yS Y Y ySyS
2
2
.ˆ)(
)(1
XX
XX
nSS XYY
n
SSXX XYY
ˆ时,当
yS Y 是 的标准误。
31
普通高等教育“十一五”国家级规划教材
1 求当体重 X=50时 , 肺活量 95% 的可信区间。 =0.0000419+0.058826X , =49.3333 , lxx=306.6667 ,已求得 =0.2877
当 X=50时 , =0.000419+0.058826(50)=2.9417
v= V=12-2=10, t0.05,10=2.22
(2.9417-2.228×0.0838, 2.9417+2.228×0.0838)
=(2.7550,3.1284)
即 X=50时 , 肺活量总体均数 95% 可信区间是 (2.7550, 3.1284)升。
XY
0838.06667.306
)3333.4950(
12
12877.0
2
ˆ
YS
Y
32
普通高等教育“十一五”国家级规划教材
3 、个体值 Y 的容许区间 当即总体中,当 X 为某定值时,个体值 Y 的波动范 围,个体值 Y 的离散程度用 Sy (称个体值的标准差)来表示,其计算方法如下:
当 X 与 接近,且 n充分大时,可用 Sy.x 代替 Sy 。 个体值 Y的 1-α 容许区间计算方法如下: ( -tα,n-2Sy , +tα,n-2Sy ),缩写为 ±tα,n-2Sy
2
211
)XX(
)XX(
nSS X.YY
X
Y YY
33
普通高等教育“十一五”国家级规划教材
例 用上例数据,进一步计算当 X=50时,肺活量 95%
容许区间(波动范围)。
t0.05, 10=2.228,X=50时 ,=2.9417
(2.9417-2.228×0.2996, 2.9417+2.228×0.2996)
=(2.27, 3.61)
即估计总体中 , 体重是 50kg者 , 有 95% 的人其肺活量数值波动在 2.27~3.61升的范围内。
2996.06667.306
)3333.4950(
12
112877.0
2
YS
34
普通高等教育“十一五”国家级规划教材
七、直线回归方程的应用1 、描述两变量间依存的数量关系。 =0.000419+0.058826X 就是一年级女大学生肺活量
对体重依存变化的定量表达式;而 =7+2X 是定量描述7岁以内儿童体重对年龄依存关系定量表达式。
YY
2 、利用回归方程进行预测这是回归方程重要的应用方面。将预报因子(自变量 X )代入回归方程,对预报量(应变量 Y )进行估计。预报量的波动范围可按求个体值 Y 的容许区间进行计算。
35
普通高等教育“十一五”国家级规划教材
例 某地防疫站根据 10 年来乙脑发病率( 1/10万,预报量 Y )与相应前一年 7月份日照时间(小时,预报因子 X )建立回归方程,将乙脑发病率作平方根反正弦变换,即取 y=sin-1 ,求得回归方程 :
=-1.197+0.0068X , Sy.x=0.0223 , =237.43, lxx=5690, n=10 。已知 1990年 7月份日照时间 X=260 ,试估计 1991 年该地乙脑发病率 (设α=0.05 )。
Y
Y X
36
普通高等教育“十一五”国家级规划教材
1 、先求个体值 Y 的离散度 Sy
2 、求 =-1.197+0.0068( 260) =0.571
α=0.05时, t0.05, 8=2.306
95% 容许区间是:( -t0.05( n-2) Sy , +t0.05( n-2) Sy )( 0.571-2.306×0.0243, 0.571+2.306×0.0243 )=( 0.5150, 0.6270 )
y
0243.05690
)43.237260(
10
110223.0
2
YS
y
y
y
37
普通高等教育“十一五”国家级规划教材
取原函数, Y=( siny) 2 ,得乙脑发病率 95%
容许区间( 0.0000808, 0.0001197 ),故可预测该地1991 年乙脑发病率有 95% 的可能在 8.08~11.97/10 万之间。 (注:将 y还原时,角度单位定为度 )
38
普通高等教育“十一五”国家级规划教材
3 、利用回归进行统计控制 统计控制是利用回归方程进行逆估计,也就是已知
y 之后反推 x 。如要求 y 在一定范围内波动时,可按求 Y 的容许区间来推算 x 的取值来实现。
39
普通高等教育“十一五”国家级规划教材
例:某市环境监测站在交通点连续测定 30天,每天定时采样 3次,测得大气中 NO2 浓度 Y( mg/m3
)与当时汽车流量 X (辆 /小时),共 90 对数据,求得回归方程: =-0.064866+0.000133X, 剩余标准差 Sy.x=0.032522 ,若 NO2 的 最大容许浓 度 为0.15/m3 ,则汽车流量应如何控制?设 α=0.05 。
Y
40
普通高等教育“十一五”国家级规划教材
分析: NO2 的浓度以过高为异常,应求个体值 y 的单侧波动范围的上限值,其 95% 的波动范围是: +t( 0.05, v) Sy=-0.064866+0.000133X+ t( 0.05, v
) Sy
要求 NO2 的最高容许浓度为 0.15 ,即: -0.064866+0.000133X+ t( 0.05, v) Sy=0.15
单侧 t0.05 ,( 90-2) =1.662 ,以 Sy.x 代替 Sy ,带入上式-0.064866+0.000133X+ 1.662×0.032522=0.15
解上式得: X=1209.13 (辆 /小时)即只要把汽车流量控制在 1209辆 /小时以下,就有 95%
的可能使 NO2 浓度不超过 0.15mg/m3 。
Y
41
普通高等教育“十一五”国家级规划教材
八、应用直线回归分析应注意的问题 ( 1 )作回归分析要有实际意义。 ( 2 )进行直线回归分析前,应绘制散点图;作用:①看散点是否呈直线趋势;② 有无异常点; ( 3 )直线回归方程的适用范围以求回归方程时 X
的实测值范围为限;若无充分理由证明超过该范围还是直线,应避免外延。
42
普通高等教育“十一五”国家级规划教材
直线相关
一、直线相关的概念 在实际应用中若只需了解两个随机变量之间相互关
系的情况,而不要求由 X 推算 Y ,此时就宜进行直线相关分析(积差相关分析)。
1 、相关分析的目的 分析随机变量 X与 Y 是否有直线相关关系以及相关的性质和相关的密切程度等(暂不考虑 X和 Y 数量上的关系)。直线相关的性质可通过散点图直观地说明。
43
普通高等教育“十一五”国家级规划教材
44
普通高等教育“十一五”国家级规划教材
直线相关的性质 ( 1 )正相关( Y随 X 的增大而增大,如散点在一直线上,称完全正相关); ( 2 )负相关( Y随 X 的增大而减小,如散点在一直线上,称完全负相关); ( 3 )零相关:散点分布呈圆形等,反映两变量间无直线关系,也可能存在曲线关系。
45
普通高等教育“十一五”国家级规划教材
2 、相关分析对资料的要求 要求 X与 Y 均呈正态分布的随机变量,称双变量正态分布资料。
3 、相关分析方法 相关分析是通过计算相关系数 r (称积差相关系数
)来定量地描述随机变量 X与 Y 之间的关系。计算 r
之后,还要对 r 是否来自 ρ=0 的总体进行假设检验(采用 t 检验或直接查 r界值表确定 P值。
46
普通高等教育“十一五”国家级规划教材
注意:通过相关分析认为 X与 Y 有相关关系,并不一定是因果关系,可能是一种伴随关系,即 X
与 Y 同时受到另外一个因素的影响。因此,相关分析的任务就是对两变量之间的关系给以定量的描述。
47
普通高等教育“十一五”国家级规划教材
二、相关系数的计算及其意义
1、 r 的计算方法
式中 lxy称 X和 Y 的离均差积和, lxx称 X 的离均差平方和; lyy称 Y 的离均差平方和。
YYXX
XY
ll
l
YYXX
YYXXr
2__
2__
____
)()(
))((
48
普通高等教育“十一五”国家级规划教材
2 、相关系数 r 的意义 r 称为积差相关系数,没有单位,它反映具有直线
关系的两个变量间,相关关系的密切程度和相关性质的指标,取值范围是 -1≤r≤1。 r 为正表示正相关, r
为负表示负相关, r 的绝对值越大,则变量间的关系越密切; |r|=±1 ,称为完全正(或负)相关。
49
普通高等教育“十一五”国家级规划教材
3 、相关系数的计算 例 对例 10.1 的资料计算一年级女大学生体重与肺活量
的相关系数。因为体重与肺活量均是随机变量,且呈正态分布(可经
检验证明),两变量呈直线趋势(见图 10.1 ),故可进行直线相关分析。
已知: lxx=306.6667, lyy=1.8892, lxy=18.04
7495.0)8892.1)(6667.306(
04.18r
即一年级女大学生体重与肺活量的相关系数 r=0.7495
50
普通高等教育“十一五”国家级规划教材
三、相关系数的假设检验 根据样本资料计算所得的相关系数 r ,称样本相关
系数,由于存在抽样误差,尽管 r 不为 0 ,尚不能说明两变量之间有直线相关关系。因此,要对 r 是否来自ρ=0 的总体进行假设检验。可用 t 检验或直接查附表 14
, r界值表确定 P值。检验统计量 t值的计算方法如下:
22 1
2
2
1
0
r
nr
n
r
r
S
rt
r
51
普通高等教育“十一五”国家级规划教材
对例 10.8 计算所得 r 进行检验,以说明体重与肺活量是否有直线相关关系。H0: ρ=0 ,体重与肺活量之间无直线相关关系H1: ρ≠0 ,体重与肺活量之间有直线相关关系α=0.05
本例: n=12, r=0.7495 ,按式 10.17得:
ν=12-2=10 , 查 附 表 2 , t 界 值 表得, t0.01, 10=3.169, t0.005, 10=3.581
因为 t 0.005,10>t>t 0.005, 10 , 所以 0.01 >P>0.005 。
580.3
212
)7495.0(1
7495.02
t
52
普通高等教育“十一五”国家级规划教材
按 α=0.05 水准 ,拒绝 H0 ,接受 H1, 可以认为一年级女大学生体重与肺活量之间呈正的直线相关关系。 也可以按 直接查附表 14, r界值表( P264 ),确定 P值。 r0.01, 10=0.708 , r0.005, 10=0.750 。 r0.01, 10<r<r0.005, 10, 故 0.01 >P>0.005,结论同上。
2 n
53
普通高等教育“十一五”国家级规划教材
直线回归与相关的区别和联系
一、区别 1 、对资料要求不同( 1 )回归分析要求因变量是 Y服从正态分布的随机
变量, X 是可以精确测量和严格控制的变量,一般称Ⅰ型回归,即只能由 X作自变量推算 Y ;( 2 )相关分析要求两个变量 X、 Y 是均服从正态分布的随机变量,即双变量正态分布。对这种资料进行回归分析称Ⅱ型回归,可以求出两个方程 :
54
普通高等教育“十一五”国家级规划教材
由 X 推算 Y 的方程:
由 Y 推算 X 的方程: XbaY xyxy ..
YbaX yxyx ..
2 、应用不同:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关。 3 、意义不同: b 表示 X每增(减)一个单位, Y
平均改变 b 个单位; r说明具有直线关系的两个变量间相关关系的密切程度与相关的方向。 4 、算方法不同。 5 、取值范围不同; -1≤r≤1, -∞<b<+∞ 。 6、 b 有单位, r没有单位。
55
普通高等教育“十一五”国家级规划教材
二、联系1 、对一组数据若同时计算 r与 b ,则它们的正负号
是一致的。2、 r和 b 的假设检验是等价的,即对同一资料,两者的 t值相等( )。在实际中采用对 r 的检验来代替对 b 的检验。
3 、可用回归解析相关。 r 的平方,即 r2 ,称决定系数,它说明回归平方和( SS 回)占总平方和( SS总)的比重,其取值范围在0~1 之间。
br tt
56
普通高等教育“十一五”国家级规划教材
总
回
SS
SS
lyy
lxxl
lyylxx
lxy
lyylxx
lxyr xy
2222 )(
)(
总回 SSrSS 2
上式说明,当 SS总固定不变时, SS 回的大小取决于 r2。 r2越大,则 SS 回就越大; SS 回是由于引入了相关变量后使总平方和减少的部分。 SS 回越接近 SS总,则 r2越接近 1 ,说明引入相关变量的效果越好。在临床研究中,若 r2达到 0.7 以上,就可认为回归效果不错;但在实验室研究中,如标准线的配制, r2 的要求很高,达到 0.95 以上。
57
普通高等教育“十一五”国家级规划教材
可通过 r2 的大小来确定两变量间相关关系的实际意义。例如 r=0.02, n=100时,可以认为两变量间有直线相关关系,但 r2=0.04 ,表示回归平方和在总平方和中仅占 4% ,即 X对 Y 的影响仅占 4% ,实际意义不大。
58
普通高等教育“十一五”国家级规划教材
曲线直线化
一、曲线直线化的意义 在医学研究中,两变量之间的关系有时不呈直
线而呈曲线关系。如药物在体内的浓度与时间的关系,儿童年龄与身长发育的关系,等都不是简单的直线关系,这种资料就不能用直线回归分析,有时可以通过适当的变量变换使之直线化,从而扩大了直线回归的应用。
59
普通高等教育“十一五”国家级规划教材
1 、曲线拟合:就是用适当的曲线方程来描述变量之间的变化关系。
曲线拟合最基本方法是:曲线直线化,即通过适当的变量变换,使曲线关系变为直线关系,然后用直线回归分析方法求出直线方程,然后还原为曲线方程。
2 、直接使用变量变换后的直线回归:若两变量呈曲线趋势,常使用直线化回归方程,绘制标准曲线。
60
普通高等教育“十一五”国家级规划教材
二、曲线拟合步骤 1 、选定曲线类型
指数曲线示意图
61
普通高等教育“十一五”国家级规划教材
2 、将变量对数变换; 选定 X (或 K-X)或 Y(或 K-Y) 进行对数变换, K 为常量,使变换后的两变量呈直线关系。也可以将实测数据在半对数坐标纸上作直线化尝试。
指数形式: = 。 k 为常数,可正可负, k=0时, = 。对数形式:
)exp(bxak Y)exp(bxa
)exp(ˆlg bxaKY
Y
62
普通高等教育“十一五”国家级规划教材
3 、按求直线回归方程的方法求直线化方程; 4 、将直线化方程转为曲线方程,作曲线图。
表 10.3 某地氰化物浓度与污染源距离的关系 ━━━━━━━━━━━━━━━━━━━━━
与污染源 氰化物 距离 (m) 浓度 (mg/m3) X Y y=lgY Y (1) (2) (3) (4)───────────────────── 50 0.687 -0.1630 0.584 100 0.398 -0.4001 0.364 150 0.200 -.06990 0.227 200 0.121 -0.9172 0.142 250 0.090 -1.0458 0.088 300 0.050 -1.3010 0.055 400 0.020 -1.6990 0.021 500 0.010 -2.0000 0.008───────────────────── 1950(∑X) -8.2251(∑y)─────────────────────
63
普通高等教育“十一五”国家级规划教材
64
普通高等教育“十一五”国家级规划教材
1 、从表中( 1 )、( 2 )栏可见,随 X 的增加, Y 有加速减少的趋势,可选用指数曲线; 2 、在半对数纸上作图;见图 10.6 ,呈直线趋势; 3 、求直线方程; 用 X 与 y (y=lgY) 求直线化方程: a=-0.0287, b=-0.0041
y=-0.0287-0.0041X;
4 、将直线化方程转为曲线方程: lgY=-(0.0287+0.0041X)
XXY )9906.0(9361.010ˆ )0041.00287.0(
65
普通高等教育“十一五”国家级规划教材
66
普通高等教育“十一五”国家级规划教材
秩相关(等级相关)
一、等级相关分析适用资料( 1 )不服从双变量正态分布而不宜作积差相关分析; ( 2 )总体分布型未知;( 3 )原始数据用等级表示。
67
普通高等教育“十一五”国家级规划教材
)1(
61
2
2
nn
drs
二、 Spearman 等级相关 与积差相关分析一样,等级相关分析是用等级相关系数rs 来说明两个变量间是否存在直线相关关系以及相关的密切程度与相关方向。 rs 计算方法如下:
上式中, 为每对观察值 Xi 、 Yi 的秩次 Ui 、 Vi 之差, n 为对子数。
2d
68
普通高等教育“十一五”国家级规划教材
rs 为样本等级相关系数,是总体等级相关系数 ρs 的估计值,其取值范围是: -1≤rs≤1。 rs 的意义同 r 。求出 rs后还要检验 rs 是否来自 ρs=0 的总体,才能确定两变量间是否存在直线相关关系。对 rs 的假设检验可用查表法(附表 15, rs界值表)
,或用下式作 u 检验(当 n>50时,用该法)。
1 nru s
69
普通高等教育“十一五”国家级规划教材
例 10.12 某地作肝癌病因研究,调查了 10 个
乡肝癌死亡率( 1/10万)与某种食物中黄曲酶毒素相对含量(以最高就含量为 10 ),见表 10.4( 2 )、( 4 )栏。试作等级相关分析。
70
普通高等教育“十一五”国家级规划教材
表 10.4 等级相关系数计算表 黄曲霉毒素 肝癌死亡率 相对含量 ( 1/10万) 编号 X U Y V d d2 1 0.7 1 21.5 3 -2 4 2 1.0 2 18.9 2 0 0 3 1.7 3 14.4 1 2 4 4 3.7 4 46.5 7 -3 9 5 4.0 5 27.3 4 1 1 6 5.1 6 64.6 9 -3 9 7 5.5 7 46.3 6 1 1 8 5.7 8 34.2 5 3 9 9 5.9 9 77.6 10 -1 1 10 10.0 10 55.1 8 2 4 合计 42
2
71
普通高等教育“十一五”国家级规划教材
分析步骤如下:H0: ρs=0 ,即黄曲酶毒素含量与肝癌死亡率无直
线关系H1: ρs≠0 ,即黄曲酶毒素含量与肝癌死亡率有直
线关系α=0.05
分别对 X、 Y 的观察值从小到大编秩,若有相同的观察值则取平 均秩次; 求每对观察值秩次之差值d、 d2及 Σd2 。本例 Σd2=42 。
72
普通高等教育“十一五”国家级规划教材
计算 rs :
n=10 ,查附表 15, rs界值表得: rs( 0.02, 10
) =0.745, P=0.02 ,按 α=0.05 水准,拒绝 H0 ,接受H1 ,可以认为黄曲霉毒素与肝癌死亡率之间存在正相关。
745.0)110(10
)42(61
)1(
61 22
2
nn
drs
73
普通高等教育“十一五”国家级规划教材
三、 rs 的校正当 X及 Y 中,相同的秩次个数较多时(如等级资料
),宜用下式计算校正 rs 。
yx
yxs
TnnTnn
dTTnnr
2]6/)[(2]6/)[(
)(]6/)[(33
23/
上式 Tx (或 Ty) =Σ( t3-t) /12, t为 X (或 Y
) 中 相 同秩次的 个 数 。显然,当 Tx=Ty=0 时,式( 10.26 )与( 10.25 )相等。
74
普通高等教育“十一五”国家级规划教材
假设上例中,黄曲酶毒素相对含量, 1~5号乡相等,这5 个乡平均秩次皆为( 1+2+3+4+5) /5=3 ,则 t=5;6~8号乡相同,平均秩次为 7 ,则 t=3; 9~10号乡相同,平均秩次为 9.5 ,则 t=2 。而肝癌发病率没有相同的秩次,故Tx=[ ( 53-5 ) + ( 33-3 ) + ( 23-2 ) ]/12=12.5 ;Ty=0
据此假设算得 Σd2=33.5 ,则 : 783.006/)1010[()5.12(26/)1010[(
5.33)05.12(]6/)1010[(33
3/
sr
75
普通高等教育“十一五”国家级规划教材
今以 n=10 ,查附表 15, 0.02>P>0.01 。如不校正
0.01>P>0.005, 可见若相同秩次较多时,如不校正,则 rs偏大,而 P值偏小。
797.0)110(10
)5.33(61
2
sr
76
普通高等教育“十一五”国家级规划教材
秩 回 归
当资料不满足最小二乘回归分析时,可以进行秩回归分析。秩回归不要求 Y 的总体分布型, Y和 X 可以呈直线趋势或非线性趋势,仅要求 Y 的均数随着 X
的增大而增大或减小。
77
普通高等教育“十一五”国家级规划教材
一、秩回归方程的建立UbaV mm ˆ
4/)1(
4/)1(22
2
nnU
nnUVbm
)2
1)(1(
nbUbVa mmm
U、V分别是X、Y的秩次,U 、V分别是U、V均数。
由一个X值推算Y的值时,先将X转为U,带入方程求
出V,再根据V求出Y值。
78
普通高等教育“十一五”国家级规划教材
二、由 kX 求 kU
)( ijij
ikik UU
XXXX
UU
kX 处于 iX 和 jX 之 间( iX < jX ), iU 和 jU 是与 iX 和
jX 对应的秩次。 若 kX < minX 或 kX > maxX ,则令 kX = minX
或 kX = maxX
三、由 kV 求 kY
)(ˆ
ˆij
ij
ikik YY
VVVV
YY
kV 处于 iV 和 jV 之间( iV < jV ) ,iY 和 jY 是与 iV 和 jV 是
对应的 Y 的观察值。若 kV < minV 或 kV > maxV ,则令 kY = minY 或
kY = maxY
79
普通高等教育“十一五”国家级规划教材
例 10.13 用例 10.12数据求肝癌死亡率对黄曲酶毒
素相对含量的回归方程。已知某乡 X=4.5,估计该乡肝癌死
亡率。
4/)1(
4/)1(22
2
nnU
nnUVbm =
)110(10385
)110(10364
=0.7455
)2
110)(7455.01()
2
1)(1(
nba mm =1.3998
UV 7455.03998.1ˆ
80
普通高等教育“十一五”国家级规划教材
X=4.5位于4和5.1之间,iX =4, jX =5.1; iU=5, jU =6
)56(41.5
45.45
kU =5.4545
4545.57455.03998.1ˆ kV =5.4661
kU=5.4661位于5、6之间,iY =34.2, jY =46.3
)2.343.46(56
54661.52.34ˆ
kY =39.84/10万
81
普通高等教育“十一五”国家级规划教材
四、秩回归分析注意事项
1、计算 mb 不受相同秩次的影响,无需校正;
2、 在无相同秩次时 ms br ;V 对 U 的回归方程与U 对 V 的回归方程
相同。
3、 在有相同秩次时 ms br ,V 对 U 的回归方程与U 对 V 的回归方程
不相同,需要时应分别求回归方程。