35
前前前前前前前前前前前前前前前前前前前 前前 前前前前前前 前前前前前前前前前前前前前前前前前前前前前前前前 ,,, 前前前前 前前前前前前前前

前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

  • Upload
    sun

  • View
    50

  • Download
    4

Embed Size (px)

DESCRIPTION

前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的. 协方差和相关系数. 在讨论这个问题之前,我们先看一个例子。. 在研究子女与父母的相象程度时,有一项是关于父亲的身高和其成年儿子身高的关系. 这里有两个变量,一个是父亲的身高,一个是成年儿子身高 . 为了研究二者关系 . 英国统计学家皮尔逊收集了 1078 个父亲及其成年儿子身高的数据 , 画出了一张散点图. 那么要问:父亲及其成年儿子身高是一种什么关系呢?. 类似的问题有:. 吸烟和患肺癌有什么关系?. 受教育程度和失业有什么关系?. - PowerPoint PPT Presentation

Citation preview

Page 1: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

协方差和相关系数

Page 2: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

在讨论这个问题之前,我们先看一个例子。

在研究子女与父母的相象程度时,有一项是关于父亲的身高和其成年儿子身高的关系 .

Page 3: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

这里有两个变量,一个是父亲的身高,一个是成年儿子身高 . 为了研究二者关系 . 英国统计学家皮尔逊收集了 1078 个父亲及其成年儿子身高的数据 , 画出了一张散点图 .

Page 4: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

那么要问:父亲及其成年儿子身高是一种什么关系呢?

类似的问题有:

吸烟和患肺癌有什么关系?

受教育程度和失业有什么关系?

Page 5: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

高考入学分数和大学学习成绩有什么关系?

为了研究诸如此类的两变量的相互关系问题,我们需要从理论上对两变量的相互关系加以研究 .

Page 6: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

这一讲就来讨论这个问题 .

Page 7: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

任意两个随机变量 X 和 Y 的协方差 , 记为 Cov(X,Y), 定义为

⑶ Cov(X1+X2,Y)= Cov(X1,Y) + Cov(X2,Y)

⑴ Cov(X,Y)= Cov(Y,X)

一、协方差

2. 简单性质

⑵ Cov(aX,bY) = ab Cov(X,Y) a,b 是常数

Cov(X,Y)=E{[ X-E(X)][Y-E(Y) ]}

1. 定义

Page 8: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

Cov(X,Y)=E(XY) -E(X)E(Y)

可见,若 X 与 Y 独立, Cov(X,Y)= 0 .

3. 计算协方差的一个简单公式由协方差的定义及期望的性质,可得

Cov(X,Y)=E{[ X-E(X)][Y-E(Y) ]}

=E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)

=E(XY)-E(X)E(Y)即

Page 9: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

若 X1,X2, …,Xn 两两独立 , ,上式化为

D(X+Y)= D(X)+D(Y)+ 2Cov(X,Y)

4. 随机变量和的方差与协方差的关系

),(2)()(1 1

ji

n

i

n

i jiii XXCovXDXD

n

i

n

iii XDXD

1 1

)()(

常用上式计算相依随机变量和的方差 .

Page 10: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

协方差的大小在一定程度上反映了 X 和Y 相互间的关系,但它还受 X 与 Y 本身度量单位的影响 . 例如:

Cov(kX, kY)=k2Cov(X,Y)

为了克服这一缺点,对协方差进行标准化 :

)()(

)]}()][({[

)()(

),(

YDXD

YEYXEXE

YDXD

YXCov

这就引入了相关系数 .

Page 11: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

二、相关系数

为随机变量 X 和 Y 的相关系数 .

定义 : 设 D(X)>0, D(Y)>0,

)()(

),(

YDXD

YXCovXY

在不致引起混淆时,记 为 .XY

Page 12: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

相关系数的性质:11 ||.

证 : 由方差的性质和协方差的定义知 ,

对任意实数 b, 有0≤D(Y-bX)= b2D(X)+D(Y)-2b Cov(X,Y )

)(

),(

XD

YXCovb 令 ,则上式为

D(Y- bX)= )(

)],([)(

2

XD

YXCovYD

])()(

)],([1)[(

2

YDXD

YXCovYD ]1)[( 2 YD

由于方差 D(Y) 是正的 , 故必有

1- ≥ 0, 所以 | |≤1.2

Page 13: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

2. X 和 Y 独立时, =0 ,但其逆不真 .

由于当 X 和 Y 独立时, Cov(X,Y)= 0.

故)()(

),(

YDXD

YXCov = 0

0但由 并不一定能推出 X 和 Y 独立 .

请看下例 .

Page 14: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

例 1 设 X 服从 (-1/2, 1/2) 内的均匀分布 ,而Y=cos X,

(请课下自行验证)因而 =0 , 即 X 和 Y 不相关 .

但 Y 与 X 有严格的函数关系,即 X 和 Y 不独立 .

不难求得,Cov(X,Y)=0 ,

Page 15: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

1.3 存在常数 a,b(b≠0 ),

使 P{Y=a+bX}=1 ,

即 X 和 Y 以概率 1 线性相关 .

Page 16: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

考虑以 X 的线性函数 a+bX 来近似表示 Y ,以均方误差

e =E{[Y-(a+bX)]2}

来衡量以 a+bX 近似表示 Y 的好坏程度 ,

e 值越小表示 a+bX 与 Y 的近似程度越好 .

用微积分中求极值的方法,求出使 e 达到最小时的 a,b .

相关系数刻划了 X 和 Y 间“线性相关”的程度 .

Page 17: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

=E(Y2)+b2E(X2)+a2- 2bE(XY)+2abE(X) - 2aE(Y)

e =E{[Y-(a+bX)]2 }

0)(2)(2)(2

0)(2)(22

2 XaEXYEXbEb

e

YEXbEaa

e

)(

),(0 XD

YXCovb 解得

)()( 00 XEbYEa

这样求出的最佳逼近为

L(X)=a0+b0X

Page 18: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

这样求出的最佳逼近为 L(X)=a0+b0X

这一逼近的剩余是

若 =0 , Y 与 X 无线性关系 ;

Y 与 X 有严格线性关系 ;,1若可见 ,

若 0<| |<1,

| | 的值越接近于 1, Y 与 X 的线性相关程度越高 ;

| | 的值越接近于 0, Y 与 X 的线性相关程度越弱 .

E[(Y-L(X))2]= D(Y)(1- )2

Page 19: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

当 ρ >0 时, L(X) 中 X 的系数大于0, 即 Y 的最佳逼近 a+ bX 随 X 增加而增加 , 这就是正向相关;反之 , ρ <0 表示负向相关,此时 Y 的最佳逼近 a+ bX随 X 增加而减小 .

E[(Y-L(X))2]= D(Y)(1- )2

Page 20: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

1.09.0 5.0

若 (X,Y)具有二维正态。 是 Y 与 X 的相关系数 . 以下画出 取几个不同值时 (X,Y) 的密度函数图 .

Page 21: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

相关系数度量的是两变量间的相互关系(“线性相关”的程度) . 但相互关系并不等于因果关系 .

Page 22: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

若某地区 18-74岁男子身高与体重的相关系数约为 0.40. 下面的结论正确还是错误,并说明理由 .

1 、较高的男子趋于较重;

2 、较重的男子趋于较高;

3 、如果多吃一些从而增加 10斤体重,你的身材会长高 . 错误

相互关系并不等于因果关系 .

Page 23: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

但对下述情形,独立与不相关等价

若 (X,Y) 服从二维正态分布,则

X 与 Y 独立 X 与 Y 不相关

前面,我们已经看到:

若 X 与 Y 独立,则 X 与 Y 不相关,

但由 X 与 Y 不相关,不一定能推出 X 与 Y 独立 .

Page 24: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

矩、协方差矩阵

在数学期望一讲中,我们已经介绍了矩和中心矩的概念 .

这里再给出混合矩、混合中心矩的概念 .

Page 25: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

协方差 Cov(X,Y) 是 X 和 Y 的二阶混合中心矩 .

称它为 X 和 Y 的 k+L阶混合(原点)矩 .

若 })]([)]({[ Lk YEYXEXE 存在,

称它为 X 和 Y 的 k+L阶混合中心矩 .

)( LkYXE

设 X 和 Y 是随机变量,若 k,L=1,2,… 存在,

可见,

Page 26: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

协方差矩阵的定义

将二维随机变量( X1,X2 )的四个二阶中心矩})]({[ 2

1111 XEXEc

)]}()][({[ 221112 XEXXEXEc

排成矩阵的形式 :

)]}()][({[ 112221 XEXXEXEc

})]({[ 22222 XEXEc

称此矩阵为( X1,X2 )的协方差矩阵 .

2221

1211

cc

cc这是一个

对称矩阵

Page 27: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

类似定义 n 维随机变量 (X1,X2, …,X

n) 的协方差矩阵 .

下面给出 n元正态分布的概率密度的定义 .

为 (X1,X2, …,Xn) 的协方差矩阵

nnnn

n

n

ccc

ccc

ccc

C

21

22221

11211

称矩阵都存在 , i, j=1,2,…,n

),( jiji XXCovc 若)]}()][({[ jjii XEXXEXE

Page 28: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

)}()(2

1exp{

||)2(

1 1212

XCXCn

f (x1,x2, …,xn)

则称 X 服从 n元正态分布 .

其中 C 是 (X1,X2, …,Xn) 的协方差矩阵 .

|C| 是它的行列式, 表示 C 的逆矩阵,1C

X 和 是 n 维列向量, 表示 X 的转置 . X

设 =(X1,X2, …,Xn) 是一个 n 维随机向量 ,

若它的概率密度为

X

Page 29: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

n元正态分布的几条重要性质1. X=(X1,X2, …,Xn) 服从 n元正态分布

a1X1+ a2 X2+ …+ an Xn 均服从正态分布 .

对一切不全为 0 的实数 a1,a2,…,an ,

Page 30: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

n元正态分布的几条重要性质2. 若 X=(X1,X2, …,Xn) 服从 n元正态分布, Y1,Y2, … , Yk 是 Xj ( j=1,2,…,n )的线性函数,

则 (Y1,Y2, … , Yk)也服从多元正态分布 .

这一性质称为正态变量的线性变换不变性 .

Page 31: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

n元正态分布的几条重要性质

3. 设 (X1,X2, …,Xn) 服从 n元正态分布,则

“X1,X2, …,Xn 相互独立”

等价于

“X1,X2, …,Xn 两两不相关”

Page 32: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

例 2 设随机变量 X 和 Y 相互独立且 X~N(1,

2),Y~N(0,1). 试求 Z=2X-Y+3 的概率密度 .

故 X 和 Y 的联合分布为正态分布, X 和Y 的任意线性组合是正态分布 .

解 : X~N(1,2),Y~N(0,1) ,且 X 与 Y 独立 ,

D(Z)=4D(X)+D(Y)=8+1=9

E(Z)=2E(X)-E(Y)+3=2+3=5

即 Z~N(E(Z), D(Z))

Z~N(5, 32)

Page 33: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

故 Z 的概率密度是

,23

1)( 18

)5( 2

z

Z ezf

z

Z~N(5, 32)

Page 34: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

这一讲我们介绍了协方差和相关系数相关系数是刻划两个变量间线性相关程度的一个重要的数字特征 .

它取值在 -1 到 1 之间 .

如果两个变量之间存在强相关,则已知一个变量的值对预测另一个变量的值将很有帮助 . 如果两个变量之间只有很弱的相关,则关于一个变量的信息对猜测另一个变量的值没有多大帮助 .

Page 35: 前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的

注意独立与不相关并不是等价的 .

当 (X,Y) 服从二维正态分布时,有

X 与 Y 独立 X 与 Y 不相关