Upload
leroy-alvarez
View
224
Download
0
Embed Size (px)
DESCRIPTION
第十章 线性相关与回归 ( Linear Correlation & Regression ). 要求: 掌握: 直线相关的概念、相关系数的意义、相关系数假设检验的意义;直线回归的概念、回归系数假设检验的意义;相关与回归的区别;直线相关与回归的注意事项。 了解: 相关系数及相关系数假设检验的计算方法;回归方程建立的方法与回归系数假设检验的方法。. 第一节 线性相关( linear correlation ). 一、线性相关的基本概念 二、线性相关系数 三、相关系数的显著性检验 四、进行线性相关分析的注意事项. - PowerPoint PPT Presentation
Citation preview
第十章 线性相关与回归(Linear Correlation & Regression )要求: 掌握:直线相关的概念、相关系数的意义、相关系数假设检验的意义;直线回归的概念、回归系数假设检验的意义;相关与回归的区别;直线相关与回归的注意事项。 了解:相关系数及相关系数假设检验的计算方法;回归方程建立的方法与回归系数假设检验的方法。
一、线性相关的基本概念
二、线性相关系数
三、相关系数的显著性检验
四、进行线性相关分析的注意事项
第一节 线性相关( linear correlation)
例 从男青年总体中随机抽取 11 名男青年组成样本,分别测量每个男青年的身高和前臂长编号 身高( cm) 前臂长( cm) XY X2 Y2
(X) (Y)
1 170 47 7990 28900 2209
2 173 42 7266 29929 1764
3 160 44 7040 25600 1936
4 155 41 6355 24025 1681
5 173 47 8131 29929 2209
6 188 50 9400 35344 2500
7 178 47 8366 31684 2209
8 183 46 8418 33489 2116
9 180 49 8820 32400 2401
10 165 43 7095 27225 1849
11 166 44 3174 28561 2116
合计 1891 500 86185 326081 22810
一、线性相关的基本概念
为直观地判断两个变量之间的关系,可在直角坐标系中把每对( Xi,Yi )值所代表的点绘出来,形成散点图。例如 12 名男青年身高与前臂长资料绘制的散点图如图所示:
Éí¸ß
190180170160150
Ç°±Û
³¤
52
50
48
46
44
42
40
若一个变量 X 由小到大(或由大到小),另一变量 Y 亦相应地由小到大或由大到小,则两个变量的散点图呈直线趋势,我们称这种现象为共变,也就是这两个变量之间有“相关关系”。
男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系,我们把这种关系称为直线相关。
线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况: 1. 正相关 2. 负相关 3. 无相关
二、线性相关系数 在分析两个变量 X 与 Y 之间关系时,常常要了解 X 与 Y 之间有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。 皮尔森 (Pearson) 相关系数的计算公式为:
YYXX
XY
ii
XYLL
L
YYXX
YYXXrr
.)()(
))((
22
相关系数 r 没有测量单位,其数值为 -1≤ r ≤1
相关系数的计算方法
计算时分别可用下面公式带入相关系数 r 的计算公式中
N
YXXYYYXX
N
YYYY
N
XXXX
2
22
2
22
例 从男青年总体中随机抽取 11 名男青年组成样本,分别测量每个男青年的身高和前臂长,身高和前臂长均以 cm 为单位,测量结果如下表所示,试计算身高与前臂长之间的相关系数。
编号 身高( cm) 前臂长( cm) XY X2 Y2
(X) (Y)
1 170 47 7990 28900 2209
2 173 42 7266 29929 1764
3 160 44 7040 25600 1936
4 155 41 6355 24025 1681
5 173 47 8131 29929 2209
6 188 50 9400 35344 2500
7 178 47 8366 31684 2209
8 183 46 8418 33489 2116
9 180 49 8820 32400 2401
10 165 43 7095 27225 1849
11 166 44 3174 28561 2116
合计 1891 500 86185 326081 22810
解: 11n , X =1891, 2X =89599,Y =500, 2Y =22810,
XY =86185。代入公式(10-2),得:
909.100011
1891326081
)( 222
n
XXLXX
727.8211
50022810
)( 222
n
YYLYY
455.23011
500189186185
))((
n
YXXYLXY
按公式(10-1)计算相关系数 r
8012.0909.1000
455.230
82.727r
三、相关系数的显著性检验
与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个 X 与 Y 无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。 因此要判断两个变量 X 与 Y 是否真的存在相关关系,仍需根据作总体相关系数 ρ 是否为零的假设检验。
常用的检验方法有两种 : 1. 按自由度直接查附表 11 的界值表,得到 P 值。
2n
r1
0rt
2r
2n
2. 用假设检验法,计算统计量 ,其公式为:
例 10.1 所得的 r 值检验男青年身高与前臂长之间是否存在相关关系 ?
第一种方法
1. 建立检验假设
0H : 0 ,即身高与前臂长之间不存在相关关系
1H : 0 ;即身高与前臂长之间存在相关关系
05.0
2. 计算统计量
n =11, r =0. 8012,自由度 =11-2=9,
3.查 r 界值表,得统计结论
查 r 界值表(附表 11),得 776.0)9(005.0 r ,因为 r > )9(005.0r ,故
P<0. 005,按 05.0 水准拒绝 0H 接受 1H ,可以认为男青年身高与前
臂长之间存在正相关关系。
第二种方法
1. 建立同样的检验假设
2. 计算统计量
017.4
211
8012.01
08012.02
rt
ν =11-2=9
3. 查界值表,得统计结论
查 t 界值表,得 690.3)9(005.0 t , )9(005.0ttr ,P < 0. 005,结果与
查 r界值表一致。
四、进行线性相关分析的注意事项
⒈ 线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,
散点图呈现出直线趋势时,再作分析。
⒉ 相关分析要求 x 、 y 是来自双变量正态总体的随机变量,一个变量的数值人为选定时不能作相关。
四、进行线性相关分析的注意事项
⒊ 依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。
四、进行线性相关分析的注意事项
⒋ 相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。
出现异常值时慎用相关
分层资料盲目合并易出假象
一、线性回归的基本概念
二、线性回归方程的计算
三、线性回归方程的显著性检验
四、进行线性回归分析的注意事项
第二节 线性回归( linear regression)
一、线性回归的基本概念 相关是分析两个正态变量 X 与 Y 之间的互相关系。
在相关分析中,分不清 X 与 Y何者为自变量,何者为因变量。现在假设两个变量 X 、 Y 中,当一个变量 X 改变时,另一个变量 Y 也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数 r 表示变量 Y 与 X 线性关系的密切程度,也可以用一个直线方程来表示 Y 与 X 的线性关系。根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程 li
near regression equation 。
线性回归方程的形式为: bXaY
其中
XX
XY2 L
L
)XX(
)YY)(XX(b
XbYa
Y是给定 X时 Y的估计值
b称为回归系数(regressi on coeffi ci ent)。
a 为回归直线在 Y 轴上的截距 x 取 0 时, y 的平均估计值 a > 0 ,表示直线与纵轴的交点在原点
的上方 a < 0 ,则交点在原点的下方 a = 0 ,则回归直线通过原点
b为回归系数,即直线的斜率 b>0,直线从左下方走向右上方, Y 随
X 增大而增大 b<0,直线从左上方走向右下方, Y 随
X 增大而减小 b=0, 表示直线与 X 轴平行, X 与 Y 无直线关系
b 的统计学意义是: X 每增加 (减 ) 一个单位, Y 平均改变 b 个单位
最小二乘法原理:最小二乘法原理:各点到回归线的纵向各点到回归线的纵向距离的平方和最小。距离的平方和最小。
Method of least square
使计算出的回归直线最能代表实测数据所反映出的直线趋势
二、线性回归方程的计算 例 10.3 有人研究了温度对蛙的心率的影响,得到了表 10-2 中所示的资料,试进行回归分析。
对象 温度( X ) 心率( Y )
XY X2 Y2
1 2 5 10 4 25
2 4 11 44 16 121
3 6 11 66 36 121
4 8 14 112 64 196
5 10 22 220 100 484
6 12 23 276 144 529
7 14 32 448 196 1024
8 16 29 464 256 841
9 18 32 576 324 1024
10 20 34 680 400 1156
11 22 33 726 484 1089
合计 132 246 3622 2024 6610
1.根据表 10-2 数据绘制散点图,如下图所示:
ζÈ
3020100
ÍÜÐ
ÄÂ
É
40
30
20
10
0
2. 计算回归系数与常数项
在本例中 : 132X 20242X 12X
246Y 2 6610Y 22.363Y
3622XY
2 22
( )( ) (132)(246)3622 67011 1.523
( ) 132 4402024
11
XY
XX
X YXYl nb
XlX
n
22.363 1.523 12 4.087a Y bX
ˆ 4.087 1.523Y X
则,回归方程为
3. 作回归直线
按求得的回归方程,在 X实测值的范围内(本例为 2~22)任取两个
相距较远的点 )ˆ,( 11 YXA 、 )ˆ,( 22 YXB ,连接 A、B两点即得到回归直线。
本例可取 31 X ,计算出 65.81̂ Y ; 212 X ,计算出 06.362̂ Y ,过(3,
8. 65)和(21,36. 06)两点的连线即为所求的回归直线(regressi on
l i ne)
ζÈ
3020100
ÍÜÐ
ÄÂ
É
40
30
20
10
0
ˆ 4.087 1.523Y X
三、线性回归方程的显著性检验
• 对线性回归方程要进行假设检验,就是要检验b是否为 β=0 的总体中的一个随机样本。该假设检验通常用方差分析或者 t检验,两者的检
验效果等价。
H0: β= 0 (两变量之间无直线关系) H1 : β≠0 α= 0.05
bs
bt
xx
xyxyb
l
s
xx
ss .
2
.
)(
2
)ˆ( 2
.
n
yys xy
2
22
2
)(
))(()(
)ˆ(
xx
yyxxyy
bllyy xyyy
ν= n- 2
对例 10.3 的回归方程用 t 检验进行假设检验( 1 )建立假设检验 β=0 β≠0 α=0.05( 2 )计算统计量
88.313.13
9Y Xs 3.13
0.149440
bs
1.523 010.22
0.149t
V =11- 2=
9 ( 3 )确定 P 值作结论
根据 V =9 , 0.01/ 2(9)t 3.250, P <0.01 ,拒绝H0 ,
直线回归方程的应用1. 描述两个变量之间的数量依存关系。2. 利用回归方程进行预测( 1 )由现在已知的变量值预测将来未知的
变量值 (父母身高预测子女身高)( 2 )由易测的变量值估算难测的变量值 (体重预测体表面积)3. 利用回归方程进行控制 利用回归方程进行逆估计
四、进行线性回归分析的注意事项
⒈ 只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。
⒉ 作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为 X , 以“果”的变量为 Y 。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为 X 。
⒊ 在回归分析中,因变量是随机变量,自变量既可以是随机变量( II 型回归模型,两个变量应该都服从正态分布),也可以是给定的量( I 型回归模型,这时,与每个 X 取值相对应的变量 Y必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。
四、进行线性回归分析的注意事项
⒋ 回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。
⒌ 使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之
外。
第三节
线性相关和回归的区别与联系
1. 应用情况不同 说明两变量依存变化的数量关系用回归 说明两变量间的相关关系用相关
区别
2. 资料要求不同回归:Ⅰ型回归 y 是随机正态变量, x 是一般变量,可以精确测量和控制的变量 Ⅱ型回归 双变量均为随机正态变量, 可计算两个回归方程 由 x推 y 的回归方程 由 y推 x 的回归方程相关:双变量均为随机正态变量
ˆ
ˆy.x y.x
x.y x.y
y a b x
x a b y
= +
= +
区别
3. 意义: b 表示 X 每增(减)一个单位时, Y平均改变 b 个单位; r 说明具有直线关系的两个变量间关系的密切程度与相关方向。4. 计算:
5. 取值范围: -∞< b<+∞; - 1≤r≤1
; XY XY
XX XX YY
l lb r
l l l= =
区别
1. 假设检验等价 对同一样本, r 和 b 的假设检验得到的t 值是相等的,实际应用中常以 r 的假设检验代替 b 的假设检验。
2. 方向一致 对一组数据,若同时计算 b 、 r ,则它们的正负号是一致的
联系
一、线性相关与回归的区别
⒈ 相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量( II 型回归模型,两个变量都应该服从正态分布),也可以是给定的量( I 型回归模型,这时,与每个X 取值相对应的变量 Y必须服从正态分布)。
⒉ 线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,是单向的。
二、线性相关与回归的联系
⒊ 如果对同一资料进行相关与回归分析,则得到的相关系数 r 与回归方程中的 b正负号是相同的。⒋ 在相关分析中,求出 r后要进行假设检验,同样,
在回归分析中,对 b也要进行假设检验。实际上,通过数学推导,对同一样本可以得出 r 与 b互化的公式,同一样本的这两种假设检验也是等价的。因此,由于 r 的假设检验可以直接查表,较为简单,所以可以用其代替对 b的假设检验。
⒌ 相关回归可以互相解释。
总
回归
SS
SS
l
l/l
ll
lrR
YY
XX2XY
YYXX
2XY22
R 的平方称为确定系数
( coefficient of determination )
应用确定系数,也可以从回归的角度对相关程度做进一步的了解。
二、线性相关与回归的联系