Upload
sun
View
50
Download
4
Embed Size (px)
DESCRIPTION
前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的. 协方差和相关系数. 在讨论这个问题之前,我们先看一个例子。. 在研究子女与父母的相象程度时,有一项是关于父亲的身高和其成年儿子身高的关系. 这里有两个变量,一个是父亲的身高,一个是成年儿子身高 . 为了研究二者关系 . 英国统计学家皮尔逊收集了 1078 个父亲及其成年儿子身高的数据 , 画出了一张散点图. 那么要问:父亲及其成年儿子身高是一种什么关系呢?. 类似的问题有:. 吸烟和患肺癌有什么关系?. 受教育程度和失业有什么关系?. - PowerPoint PPT Presentation
Citation preview
前面我们介绍了随机变量的数学期望和方差,对于多维随机变量,反映分量之间关系的数字特征中,最重要的,就是现在要讨论的
协方差和相关系数
在讨论这个问题之前,我们先看一个例子。
在研究子女与父母的相象程度时,有一项是关于父亲的身高和其成年儿子身高的关系 .
这里有两个变量,一个是父亲的身高,一个是成年儿子身高 . 为了研究二者关系 . 英国统计学家皮尔逊收集了 1078 个父亲及其成年儿子身高的数据 , 画出了一张散点图 .
那么要问:父亲及其成年儿子身高是一种什么关系呢?
类似的问题有:
吸烟和患肺癌有什么关系?
受教育程度和失业有什么关系?
高考入学分数和大学学习成绩有什么关系?
为了研究诸如此类的两变量的相互关系问题,我们需要从理论上对两变量的相互关系加以研究 .
这一讲就来讨论这个问题 .
任意两个随机变量 X 和 Y 的协方差 , 记为 Cov(X,Y), 定义为
⑶ Cov(X1+X2,Y)= Cov(X1,Y) + Cov(X2,Y)
⑴ Cov(X,Y)= Cov(Y,X)
一、协方差
2. 简单性质
⑵ Cov(aX,bY) = ab Cov(X,Y) a,b 是常数
Cov(X,Y)=E{[ X-E(X)][Y-E(Y) ]}
1. 定义
Cov(X,Y)=E(XY) -E(X)E(Y)
可见,若 X 与 Y 独立, Cov(X,Y)= 0 .
3. 计算协方差的一个简单公式由协方差的定义及期望的性质,可得
Cov(X,Y)=E{[ X-E(X)][Y-E(Y) ]}
=E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)
=E(XY)-E(X)E(Y)即
若 X1,X2, …,Xn 两两独立 , ,上式化为
D(X+Y)= D(X)+D(Y)+ 2Cov(X,Y)
4. 随机变量和的方差与协方差的关系
),(2)()(1 1
ji
n
i
n
i jiii XXCovXDXD
n
i
n
iii XDXD
1 1
)()(
常用上式计算相依随机变量和的方差 .
协方差的大小在一定程度上反映了 X 和Y 相互间的关系,但它还受 X 与 Y 本身度量单位的影响 . 例如:
Cov(kX, kY)=k2Cov(X,Y)
为了克服这一缺点,对协方差进行标准化 :
)()(
)]}()][({[
)()(
),(
YDXD
YEYXEXE
YDXD
YXCov
这就引入了相关系数 .
二、相关系数
为随机变量 X 和 Y 的相关系数 .
定义 : 设 D(X)>0, D(Y)>0,
)()(
),(
YDXD
YXCovXY
称
在不致引起混淆时,记 为 .XY
相关系数的性质:11 ||.
证 : 由方差的性质和协方差的定义知 ,
对任意实数 b, 有0≤D(Y-bX)= b2D(X)+D(Y)-2b Cov(X,Y )
)(
),(
XD
YXCovb 令 ,则上式为
D(Y- bX)= )(
)],([)(
2
XD
YXCovYD
])()(
)],([1)[(
2
YDXD
YXCovYD ]1)[( 2 YD
由于方差 D(Y) 是正的 , 故必有
1- ≥ 0, 所以 | |≤1.2
2. X 和 Y 独立时, =0 ,但其逆不真 .
由于当 X 和 Y 独立时, Cov(X,Y)= 0.
故)()(
),(
YDXD
YXCov = 0
0但由 并不一定能推出 X 和 Y 独立 .
请看下例 .
例 1 设 X 服从 (-1/2, 1/2) 内的均匀分布 ,而Y=cos X,
(请课下自行验证)因而 =0 , 即 X 和 Y 不相关 .
但 Y 与 X 有严格的函数关系,即 X 和 Y 不独立 .
不难求得,Cov(X,Y)=0 ,
1.3 存在常数 a,b(b≠0 ),
使 P{Y=a+bX}=1 ,
即 X 和 Y 以概率 1 线性相关 .
考虑以 X 的线性函数 a+bX 来近似表示 Y ,以均方误差
e =E{[Y-(a+bX)]2}
来衡量以 a+bX 近似表示 Y 的好坏程度 ,
e 值越小表示 a+bX 与 Y 的近似程度越好 .
用微积分中求极值的方法,求出使 e 达到最小时的 a,b .
相关系数刻划了 X 和 Y 间“线性相关”的程度 .
=E(Y2)+b2E(X2)+a2- 2bE(XY)+2abE(X) - 2aE(Y)
e =E{[Y-(a+bX)]2 }
0)(2)(2)(2
0)(2)(22
2 XaEXYEXbEb
e
YEXbEaa
e
)(
),(0 XD
YXCovb 解得
)()( 00 XEbYEa
这样求出的最佳逼近为
L(X)=a0+b0X
这样求出的最佳逼近为 L(X)=a0+b0X
这一逼近的剩余是
若 =0 , Y 与 X 无线性关系 ;
Y 与 X 有严格线性关系 ;,1若可见 ,
若 0<| |<1,
| | 的值越接近于 1, Y 与 X 的线性相关程度越高 ;
| | 的值越接近于 0, Y 与 X 的线性相关程度越弱 .
E[(Y-L(X))2]= D(Y)(1- )2
当 ρ >0 时, L(X) 中 X 的系数大于0, 即 Y 的最佳逼近 a+ bX 随 X 增加而增加 , 这就是正向相关;反之 , ρ <0 表示负向相关,此时 Y 的最佳逼近 a+ bX随 X 增加而减小 .
E[(Y-L(X))2]= D(Y)(1- )2
1.09.0 5.0
若 (X,Y)具有二维正态。 是 Y 与 X 的相关系数 . 以下画出 取几个不同值时 (X,Y) 的密度函数图 .
相关系数度量的是两变量间的相互关系(“线性相关”的程度) . 但相互关系并不等于因果关系 .
若某地区 18-74岁男子身高与体重的相关系数约为 0.40. 下面的结论正确还是错误,并说明理由 .
1 、较高的男子趋于较重;
2 、较重的男子趋于较高;
3 、如果多吃一些从而增加 10斤体重,你的身材会长高 . 错误
相互关系并不等于因果关系 .
但对下述情形,独立与不相关等价
若 (X,Y) 服从二维正态分布,则
X 与 Y 独立 X 与 Y 不相关
前面,我们已经看到:
若 X 与 Y 独立,则 X 与 Y 不相关,
但由 X 与 Y 不相关,不一定能推出 X 与 Y 独立 .
矩、协方差矩阵
在数学期望一讲中,我们已经介绍了矩和中心矩的概念 .
这里再给出混合矩、混合中心矩的概念 .
协方差 Cov(X,Y) 是 X 和 Y 的二阶混合中心矩 .
称它为 X 和 Y 的 k+L阶混合(原点)矩 .
若 })]([)]({[ Lk YEYXEXE 存在,
称它为 X 和 Y 的 k+L阶混合中心矩 .
)( LkYXE
设 X 和 Y 是随机变量,若 k,L=1,2,… 存在,
可见,
协方差矩阵的定义
将二维随机变量( X1,X2 )的四个二阶中心矩})]({[ 2
1111 XEXEc
)]}()][({[ 221112 XEXXEXEc
排成矩阵的形式 :
)]}()][({[ 112221 XEXXEXEc
})]({[ 22222 XEXEc
称此矩阵为( X1,X2 )的协方差矩阵 .
2221
1211
cc
cc这是一个
对称矩阵
类似定义 n 维随机变量 (X1,X2, …,X
n) 的协方差矩阵 .
下面给出 n元正态分布的概率密度的定义 .
为 (X1,X2, …,Xn) 的协方差矩阵
nnnn
n
n
ccc
ccc
ccc
C
21
22221
11211
称矩阵都存在 , i, j=1,2,…,n
),( jiji XXCovc 若)]}()][({[ jjii XEXXEXE
)}()(2
1exp{
||)2(
1 1212
XCXCn
f (x1,x2, …,xn)
则称 X 服从 n元正态分布 .
其中 C 是 (X1,X2, …,Xn) 的协方差矩阵 .
|C| 是它的行列式, 表示 C 的逆矩阵,1C
X 和 是 n 维列向量, 表示 X 的转置 . X
设 =(X1,X2, …,Xn) 是一个 n 维随机向量 ,
若它的概率密度为
X
n元正态分布的几条重要性质1. X=(X1,X2, …,Xn) 服从 n元正态分布
a1X1+ a2 X2+ …+ an Xn 均服从正态分布 .
对一切不全为 0 的实数 a1,a2,…,an ,
n元正态分布的几条重要性质2. 若 X=(X1,X2, …,Xn) 服从 n元正态分布, Y1,Y2, … , Yk 是 Xj ( j=1,2,…,n )的线性函数,
则 (Y1,Y2, … , Yk)也服从多元正态分布 .
这一性质称为正态变量的线性变换不变性 .
n元正态分布的几条重要性质
3. 设 (X1,X2, …,Xn) 服从 n元正态分布,则
“X1,X2, …,Xn 相互独立”
等价于
“X1,X2, …,Xn 两两不相关”
例 2 设随机变量 X 和 Y 相互独立且 X~N(1,
2),Y~N(0,1). 试求 Z=2X-Y+3 的概率密度 .
故 X 和 Y 的联合分布为正态分布, X 和Y 的任意线性组合是正态分布 .
解 : X~N(1,2),Y~N(0,1) ,且 X 与 Y 独立 ,
D(Z)=4D(X)+D(Y)=8+1=9
E(Z)=2E(X)-E(Y)+3=2+3=5
即 Z~N(E(Z), D(Z))
Z~N(5, 32)
故 Z 的概率密度是
,23
1)( 18
)5( 2
z
Z ezf
z
Z~N(5, 32)
这一讲我们介绍了协方差和相关系数相关系数是刻划两个变量间线性相关程度的一个重要的数字特征 .
它取值在 -1 到 1 之间 .
如果两个变量之间存在强相关,则已知一个变量的值对预测另一个变量的值将很有帮助 . 如果两个变量之间只有很弱的相关,则关于一个变量的信息对猜测另一个变量的值没有多大帮助 .
注意独立与不相关并不是等价的 .
当 (X,Y) 服从二维正态分布时,有
X 与 Y 独立 X 与 Y 不相关