33
1 直直直直

直线相关

Embed Size (px)

DESCRIPTION

直线相关. 直线相关的掌握要点. 直线相关描述了什么问题? 直线相关分析的具体步骤是什么? 直线相关分析对资料有什么要求? 如何对这些要求进行检查或检验? 仅用样本直线相关系数能否说明相关程度? 总体相关系数非常接近 1 ,能否说明 Y=X ?. 体重. 身高. 线性相关. 例:考察身高与体重的伴随关系. 线性相关. 图中 不是每个身材较高的对象必有较重的体重,但大多数对象的体重 Y 与其身高 X 的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关 。 刻画两个随机变量之间线性相关程度 称为线性相关 ( linear correlation ). - PowerPoint PPT Presentation

Citation preview

Page 1: 直线相关

1

直线相关

Page 2: 直线相关

2

直线相关的掌握要点• 直线相关描述了什么问题?• 直线相关分析的具体步骤是什么?• 直线相关分析对资料有什么要求?• 如何对这些要求进行检查或检验?• 仅用样本直线相关系数能否说明相关程度?• 总体相关系数非常接近 1 ,能否说明 Y=X ?

Page 3: 直线相关

3

线性相关• 例:考察身高与体重的伴随关系

体重

身高

Page 4: 直线相关

4

线性相关• 图中不是每个身材较高的对象必有较重

的体重,但大多数对象的体重 Y 与其身高 X 的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关 。

•刻画两个随机变量之间线性相关程度

称为线性相关( linear correlation )

Page 5: 直线相关

5

线性相关

• 称 X 和 Y 伴随同时上升或伴随下降为线性正相关 (Linear Positive Correlation)

• X 与 Y 的反方向伴随直线变化趋势称为线性负相关 (linear negative correlation )

• X 和 Y 无任何直线伴随变化趋势,则称为零相关 ( 零线性相关 ) 。

Page 6: 直线相关

6

线性相关系数

•直线相关系数 (linear correlation coeffiecient) ,简称相关系数。

•相关系数是描述两个变量之间线性相关的程度和相关方向的统计指标。

Page 7: 直线相关

7

线性相关系数

•描述全体研究对象的两个变量之间线性相关性的相关系数称为总体相关系数,记为 。

• 描述样本资料的两个变量之间的线性相关性的相关系数为样本相关系数,简称相关系数,记为 r。

Page 8: 直线相关

8

样本相关系数的计算• 一般而言,总体相关系数是未知的,通

常用样本相关系数 r 进行估计。样本相关系数 r按下式计算:

• 上述相关系数又称为 Pearson 相关系数

2 2

( )( )

( ) ( )

X X Y Yr

X X Y Y

Page 9: 直线相关

9

相关系数性质

• 无量纲•取值范围为- 1 1 ,- 1 r 1>0 表示正相关; <0 表示负相关; = 0 表示零相关。 • || 越接近 1 ,表示相关程度越密切• || 越接近 0 ,表示相关程度越不密切

Page 10: 直线相关

10

线性相关示意图

Page 11: 直线相关

11

线性不相关示意图

Page 12: 直线相关

12

实例分析• 例:随机抽取 15 名健康成人,测定血

液的凝血酶浓度 ( 毫升 ) 及凝血时间( 秒 ) 。问:这两项指标是否线性相关 ?

编号 1 2 3 4 5 6 7 浓度 1.1 1.2 1.0 0.9 1.2 1.1 0.9 时间 14 13 15 15 13 14 16 编号 8 9 10 11 12 13 14 15 浓度 0.6 1.0 0.9 1.1 0.9 1.1 1 0.7 时间 17 14 16 15 16 14 15 17

Page 13: 直线相关

13

实例分析

• 样本相关系数计算可以简化为

( )( ) ( )( ) /xy i i i i i il x x y y x y y x n 2 2 2( ) ( ) /xx i i il x x x x n 2 2 2( ) ( ) /yy i i il y y y y n

Page 14: 直线相关

14

实例分析

• 本例: 2.82xyl

0.404xxl 22.93yyl

2.820.926

0.404 22.93xy

xx yy

lr

l l

Page 15: 直线相关

15

样本相关系数与样本量

• 样本相关系数 r的大小与样本量有关。

• 特别 n=2 ,当两个点的连线不平行与横轴和纵轴时, r= 1 或 r= - 1 。

• 样本相关系数大小不能直接评价两个变量之间的相关性。

• 通常研究者首先关心的是= 0 ?

Page 16: 直线相关

16

相关系数的检验

• 总体相关系数= 0 时,样本相关系数一般不为 0 ( 存在抽样误差 ) ,故需要作假设检验。

• Pearson 相关系数的假设检验要求 X和 Y 服从双正态分布

Page 17: 直线相关

17

相关系数的检验• H0 : = 0 H1 : 0

= 0.05

• 检验统计量

• 当= 0 为真时, t 服从自由度为 n-2 的t 分布,即 |t|>t0.05/2,n-2 时,拒绝 H0 : =0

• 可以认为两个变量呈线性相关 ( 0) 。

22

1

rt n

r

Page 18: 直线相关

18

实例分析(续)• H0 : = 0 H1 : 0 = 0.05

• 临界值 t0.05/2,15-2=2.16, |t|> t0.05/2,15-2

• 故拒绝 H0 : = 0 ,可以认为凝血酶浓度 y 及凝血时间 x 呈线性负相关 ( <0) 。

2 2

2 0.926 15 28.87

1 1 ( 0.926)

r nt

r

Page 19: 直线相关

19

相关系数的 95% 可信区间计算

•由于 0 的样本相关系数 r 呈偏态分布,故需作 z 变换 ,方法如下:

• 其中

1 1 1ln ~N( , )

2 1 3zr

zr n

1 1ln

2 1z

Page 20: 直线相关

20

相关系数的 95% 可信区间计算

z 的 95% 可信区间为

•反变换后的 95% 可信区间为

1.96 / 3z n

2( 1.96 / 3)

2( 1.96 / 3)

1

1

z n

z n

e

e

Page 21: 直线相关

21

实例的 95% 可信区间计算• Z 变换:

z 的 95% 可信区间为

1 1 1 1 ( 0.926)ln ln 1.63

2 1 2 1 ( 0.926)

rz

r

1.63 1.96 / 15 3 2.20 ~ 1.64

Page 22: 直线相关

22

• Z 的反变换 的下限为

的上限为

• 凝血酶浓度 y 及凝血时间 x 的总体相关系数的 95% 可信区间为 (-0.976,-0.787)

实例的 95% 可信区间计算2 (-2.20)

2 (-2.20)

e 1=-0.976

e 1 L

2 (-1.06)

2 (-1.06)

e 1=-0.787

e 1 U

Page 23: 直线相关

23

线性相关与直线回归的异同性

回归系数很大,相关性很弱 回归系数很小,相关性较强

Page 24: 直线相关

24

线性相关与直线回归的异同性• 回归系数 刻画了 X 变化一个单位, Y 平

均变化多少单位,与相关性没有直接联系。即:回归系数可以很大,相关性可以很弱。

• 相关系数 刻画了 X 与 Y 的相关程度,即:X 与 Y 伴随变化的同步程度,但相关系数与 X 伴随 Y 同步变化幅度没有之间联系。即:回归系数可以很小, 但同步变化的一致程度很高(相关程度可以很强 ) 。

Page 25: 直线相关

25

直线相关分析对资料的要求• 由概率论的条件概率公式,得到检验 X

和 Y 服从双正态分布的方法如下:1. 以 X 为自变量, Y 为应变量作直线回归。2. 计算其残差3. 检验残差和自变量 X 是否均服从正态分

布,并且残差与 x 没有明显的伴随趋势。• 如果残差和 X 均服从正态分布且无伴随

趋势,即可推断 X 和 Y 服从双正态分布。

Page 26: 直线相关

26

直线回归与直线相关分析的注意点

• 直线回归的任何结果都不能推断 x 与 Y的因果关系。

• x 与 Y 相关分析的结果不能推断为 x 与 Y相等关系或两个变量的一致性。

• 一般而言,相关系数检验的无效假设为=0 ,所以 P 和样本相关系数 r 的大小都不能推断总体相关系数的大小,只有通过 95% 可信区间才能估计的范围。

Page 27: 直线相关

27

直线相关和直线回归小结

• 直线相关是刻画两个变量之间的相关程度。

• 直线回归是刻画自变量 x与应变量Y的总体均数 y 的线性对应关系。

• 在直线相关分析中,两个变量都是随机变量,且要求服从双正态分布。

Page 28: 直线相关

28

直线相关和直线回归小结• 在直线回归分析中,应变量 Y 是随机变

量, x 可以是非随机变量也可以是随机变量,但即使从研究背景上考察, x 是随机变量,在直线回归模型, x 的变量值视为普通变量的取值。

• 直线回归要求固定自变量 x , Y 服从正态分布或残差服从正态分布,并且自变量 X 与残差无明显的伴随变化趋势。

Page 29: 直线相关

29

您对直线相关的要点理解吗?• 直线相关描述了什么问题?• 直线相关分析的具体步骤是什么?• 直线相关分析对资料有什么要求?• 如何对这些要求进行检查或检验?• 仅用样本直线相关系数能否说明相关程度?• 总体相关系数非常接近 1 ,能否说明 Y=X ?

Page 30: 直线相关

30

思考题• 某医生对一个患者进行连续观察其心跳次

数和体温,每小时观察一次,记录该对象的心跳次数和体温,共观察了 72 小时,为了了解心跳次数与体温的关系,假定散点图显示:这些观察值的点呈直线带状态。请问:能否作直线回归分析?或直线相关分析?为什么?

Page 31: 直线相关

31

Stata 实现• 一、用 Stata 软件计算相关系数• 绘制散点图 graph x y

• 计算 Pearson 相关系数,假设检验 p 值 pwcorr x y ,sig star(.05)

Page 32: 直线相关

32

参考文献• 赵耐青主编,十五规划教材《医学统计学》,

高教出版社 2004年 3月• 赵耐青主编,《临床研究设计与数据分析》,复旦大学出版社 2005年 8月

• John Neter. Applied linear statistical models,fourth edition. WCB:McGraw Hill,1996

Page 33: 直线相关

33

谢谢!