166
Wei-Shi Zheng [email protected] 10/28/22, Page 1 郑郑郑 Wei-Shi Jason Zheng [email protected] 郑郑郑郑郑

统计分析进阶

Embed Size (px)

DESCRIPTION

郑伟诗 Wei-Shi Jason Zheng [email protected]. 统计分析进阶. 12/1/2014 , Page 1. Wei-Shi Zheng [email protected]. 简单的自我介绍. 2011年加入中山大学,百人计划,副教授 广东省引进创新科研团队计算科学科研团队核心成员 广东省自然科学杰出青年基金获得者 研究方向:机器视觉与智能学习 计算机视觉与模式识别: 人脸和行人识别 动作识别 人群社交活动分析 机器学习(统计学习)方法:高性能机器学习 大规模的图像搜索和分类 面向大规模数据的特征提取 迁移学习. - PowerPoint PPT Presentation

Citation preview

Page 1: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 1

郑伟诗Wei-Shi Jason Zheng

[email protected]

统计分析进阶

Page 2: 统计分析进阶

简单的自我介绍

2011 年加入中山大学,百人计划,副教授 广东省引进创新科研团队计算科学科研团队核心

成员 广东省自然科学杰出青年基金获得者 研究方向:机器视觉与智能学习

计算机视觉与模式识别:人脸和行人识别动作识别人群社交活动分析

机器学习 ( 统计学习 ) 方法:高性能机器学习大规模的图像搜索和分类面向大规模数据的特征提取迁移学习

Page 3: 统计分析进阶

高性能机器学习算法?• Search your favour image

Page 4: 统计分析进阶

高性能机器学习算法?• Search your favour image

Relation between two images (far/near)?

Similarity between two images?

How to learn a metric if you are given billions of images?

Page 5: 统计分析进阶

围绕人的计算机视觉研究

• Face Recognition in the Wild– Google / Facebook

Page 6: 统计分析进阶

围绕人的计算机视觉研究

• Activity

TorsoRight-armLeft-a

rm

Right

-leg

Left-leg

Head

Page 7: 统计分析进阶

围绕人的计算机视觉研究

• Group Activity

Page 8: 统计分析进阶

围绕人的计算机视觉研究

• Culture

Page 9: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 9

回到主课 --- 数学实践课 教学理念

是一门承上启下的课 一二年级:基本的数学,如线性代数,高等代数,概率统计与分析 三四年级:专业课 尽量不讲一般的例子,但会比较理论

适当拓展一二年级的知识范围 重点 非面面俱到 侧用应用:简介,自学深入的数学知识

非真正的数学建模课 选取适合二年级学生的知识点做重点介绍 更多结合当前计算机科学的研究及应用(部分结合经济) 小学期教学不强调掌握具体算法的理论部分,但要会用(计算机应用

研究更要学会怎么用) 数计学院:数学建模

Page 10: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 10

统计分析进阶

课程安排 隐马尔可夫模型 多元统计分析:简介 多元主成分分析 SVD 分解(奇异值矩阵分解算法) 案例分析 作业:提交打印版 作业截止时间: 9 月 21 日

PPT 下载地址: http://www.eecs.qmul.ac.uk/~jason/sysu/course/maths_model

Page 11: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 11

一个例子

Object Tracking from Oxford University CVPR 2011, by Ben Benfold and Ian Reid

Page 12: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 12

一个例子

Object Tracking from Oxford University CVPR 2011, by Ben Benfold and Ian Reid

从例子中,我们至少发现: 时间序列的建模

二维及更高维特征的建模

Page 13: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 13

一个例子

人脸超分辨率分析

Page 14: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 14

I 隐马尔可夫模型

隐马尔可夫模型 (HMM) 的由来 马尔可夫性和马尔可夫链 HMM 实例 HMM 的三个基本算法

Page 15: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 15

HMM 的由来

18701870 年,俄国有机化学家年,俄国有机化学家 Vladimir V. Vladimir V. MarkovnikovMarkovnikov 第一次提出马尔科夫模型第一次提出马尔科夫模型

马尔可夫模型马尔可夫模型 马尔可夫链 马尔可夫链 隐马尔可夫模型隐马尔可夫模型

Page 16: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 16

马尔可夫性

如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性 ,或称此过程为马尔可夫过程

X(t+1) = f( X(t) ) 隐马尔可夫:只观察到 Oi, Oi 由隐含变量 Xi 的状态值决定,且 (Oi,Xi)独立。

X1 X2 XT…………

O1 O2 OT

…………

Page 17: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 17

马尔科夫链 时间和状态都离散的马尔科夫过程称为马尔科夫链 记作 {Xn = X(n), n = 0,1,2,…}

在时间集 T1 = {0,1,2,…}上对离散状态的过程相继观察的结果

链的状态空间记做 I = {a1, a2,…}, ai∈R.

条件概率 Pij ( m ,m+n)=P{Xm+n = aj|Xm = ai} 为马氏链在时刻m处于状态 ai条件下,在时刻m+n转移到状态aj 的转移概率。

Page 18: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 18

转移概率矩阵

阴天晴天 下雨

晴天 阴天 下雨

晴天 0.50 0.25 0.25

阴天 0.375 0.25 0.375

下雨 0.25 0.125 0.625

Page 19: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 19

转移概率矩阵 ( 续 )

由于链在时刻m 从任何一个状态 ai 出发,到另一时刻m+n ,必然转移到 a1 , a2… ,诸状态中的某一个,所以有

当 Pij(m,m+n) 与 m无关时,称马尔科夫链为齐次马尔科夫链,通常说的马尔科夫链都是指齐次马尔科夫链。

1

( , ) 1, 1, 2,ijj

P m m n i

Page 20: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 20

HMM 实例——实例描述

设有 N个缸,每个缸中装有很多彩球,球的颜色由一组概率分布描述。实验进行方式如下 根据初始概率分布,随机选择N个缸中的一个开始实验 根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为O1 ,并把球放回缸中

根据描述缸的转移的概率分布,随机选择下一口缸,重复以上步骤。 最后得到一个描述球的颜色的序列 O1,O2,… ,称为观察值序列 O。

Observed Ball Sequence

Urn 3

Urn 1Urn 2

Veil

Page 21: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 21

HMM 实例——约束

在上述实验中,有几个要点需要注意:

不能被直接观察缸间的转移 从缸中所选取的球的颜色和缸并不是 一一对应的 每次选取哪个缸由一组转移概率决定

Page 22: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 22

HMM 概念

HMM的状态是不确定或不可见的,只有通过观测序列的随机过程才能表现出来

观察到的事件与状态并不是一一对应,而是通过一组概率分布相联系

HMM是一个双重随机过程,两个组成部分: 马尔可夫链:描述状态的转移,用转移概率描述。 一般随机过程:描述状态与观察序列间的关系, 用观察值概率描述。

Page 23: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 23

Markov 链( , A )

随机过程( B )

状态序列 观察值序列

q1, q2, ..., qT o1, o2, ..., oT

HMM 的组成示意图

HMM组成

Page 24: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 24

HMM 的基本要素 用模型五元组 =( N, M, π , A, B )用来描述 HMM ,或简写为 =(π , A , B)

参数 含义 实例

N 状态数目 缸的数目

M 每个状态可能的观察值数目 彩球颜色数目

A 与时间无关的状态转移概率矩阵

在选定某个缸的情况下,选择另一个缸的概率

B 给定状态下,观察值概率分布 每个缸中的颜色分布

初始状态空间的概率分布 初始时选择某口缸的概率

Page 25: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 25

HMM需解决的问题

问题 1 :给定观察序列 O=O1,O2,…OT,以及模型 , 如何计算 P(O|λ)?

问题 2 :给定观察序列 O=O1,O2,…OT以及模型λ, 如何选择一个对应的状态序列 S = q1,q2,…qT ,使得 S 能够最为合理的解释观察序列 O?

问题 3 :如何调整模型参数 , 使得P(O|λ)最大?

( , , )A B

( , , )A B

Page 26: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 26

解决问题 1 的基础方法

给定一个固定的状态序列 S=(q1 , q2 , q3…)

表示在 qt 状态下观测到 Ot 的概率

计算量相当大

1 21 21

( | , ) ( | , ) ( ) ( ) ( )t

T

t t q q q Tt

P O S P O q b O b O b O

)( tq Obt

S

( | ) ( | , ) ( | )P O P O S P S 所有

Page 27: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 27

解决问题 1: 前向法

定义前向变量

初始化:

递归:

终结:

1 2( ) ( , , , | ) 1t t t ii P O O O q t T

1 1( ) ( ) 1i ii b O i N

1 11

( ) [ ( ) ] ( ) 1 1,1N

t t ij j ti

j i a b O t T j N

N

iT iOP

1

)()/(

Page 28: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 28

前向法示意图

1 ... t t+1 ...

a1jt

1

qN

.qi

.qj

.

.q1

tN

ti aNj

aij1

jt

N=5, M=100, => N=5, M=100, => 计算量计算量 30003000

Page 29: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 29

解决问题 1 后向法

与前向法类似 定义后向变量

初始化:

递归:

终结:

( ) 1 1T i i N

1 11

( ) ( ) ( ) 1, 2,...,1,1N

t ij j t tj

i a b O j t T T i N

N

iii iObOP

111 )()()|(

1),|,,,,()( 21 TtqOOOPi itTttt

Page 30: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 30

解决问题 2: Viterbi 算法 目的:给定观察序列 O以及模型 λ, 如何选择

一个对应的状态序列 S ,使得 S 能够最为合理的解释观察序列 O?

N 和 T 分别为状态个数和序列长度定义:

我们所要找的,就是 T 时刻最大的 所代表的那个状态序列

1 2 11 2 1 1, 2, ,

, ,...( ) max [ ... , , | ]

tt t t t

q q qi P q q q q i O O O

( )T i

Page 31: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 31

解决问题 2: Viterbi 算法

初始化:

递归:

终结:

求 S 序列:

Ni1,0)(

Ni1),()(

1

11

i

Obi ii

NjTtaij

NjTtObaij

ijtNi

t

tjijtNi

t

1,2],)([maxarg)(

1,2),(])([max)(

11

11

*

1

*

1

max[ ( )]

arg max[ ( )]

Ti N

T Ti N

P i

q i

1,...,2,1),( *11

* TTtqq ttt

Page 32: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 32

解决问题 3: Baum-Welch 算法 ( 模型训练算法 )

目的:给定观察值序列 O,通过计算确定一个模型 , 使得 P(O| )最大。

算法步骤:1. 初始模型(待训练模型) 0,

2. 基于 0 以以以以以以以以以以以以以 以

3. 如果 log P(O|) - log(P(O|0) < Delta ,说明训练已经达到预期效果, 算法结束。4. 否则,令 0 以以以以以以以以

Page 33: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 33

Baum-Welch 算法 ( 续 ) 定义:

1

1 1

1 11 1

i1

1

i1

i j

( , )

( , ) ( , | , )

( ) ( ) ( )

( ) ( ) ( )

( ) ( , ) S

( ) S

( , )

t

t t t

t ij j t t

N N

t ij j t ti j

N

t tj

T

tt

t

i j

i j P s i s j X

i a b O j

i a b O j

i i j t

i

i j

给定模型 和观察序列条件下,从到的转移概率定义为

时刻处于状态 的概率

整个过程中从状态 转出的次数(number of t i me)的预期

1

i j1

S ST

t

从 跳转到 次数的预期

Page 34: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 34

Baum-Welch 算法 ( 续 2) 参数估计:

,O

expected number of times in state and observing symbolˆ ( )expected number of times in state

( )

( )t

j

tt k

tt

j kb k

j

j

j

Reestimate :

expected count of transitions from i to jˆ

expected count of stays at i

( , )

( , )

ij

tt

tt j

a

i j

i j

1t 1 ( )i iS i 当=时处于 的概率

Page 35: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 35

案例:基于 HMM 的语音分析

我们平时在说话时,脑子就是一个信息源。我们的喉咙(声带),空气,就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过来的信号。

根据声学信号来推测说话者的意思,就是语音识别。这样说来,如果接收端是一台计算机而不是人的话,那么计算机要做的就是语音自动识别。同样,在计算机中,如果我们要根据接收到的英语信息,推测说话者的汉语意思,就是机器翻译; 如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思,那就是自动纠错。如果我们要根据输入的汉语词语片段推测出每个片段的语法含义 ,那就是自动词法标注。

Page 36: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 36

基于 HMM 的语音分析

那么怎么根据接收到的信息来推测说话者真正想表达的意思呢?可以利用叫做“隐含马尔可夫模型” ( Hidden Markov Model )来解决问题。

以自动词法标注为例,当我们观测到词语片断 o1,o2,o3 时,我们要根据这组信号推测出发送的词语语法片断 s1,s2,s3。显然,我们应该在所有可能的语法片断中找最有可能性的一个。用数学语言来描述,就是在已知 o1,o2,o3,... 的情况下,求使得条件概率 P (s1,s2,s3,...|o1,o2,o3....) 达到最大值的那个语法片断 s1,s2,s3,...

Page 37: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 37

基于 HMM 的语音分析

当然,上面的概率不容易直接求出,于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项,可以把上述公式等价变换成:P(o1,o2,o3,...|s1,s2,s3....) * P(s1,s2,s3,...)其中P(o1,o2,o3,...|s1,s2,s3....) 表示某个语法片断序列 s1,s2,s3...被读成 o1,o2,o3,... 的可能性 , 而P(s1,s2,s3,...) 表示字串 s1,s2,s3,... 本身能够成为一个合乎情理的语法片断序列的可能性,所以这个公式的意义是用发送信号为 s1,s2,s3...这个数列的可能性乘以 s1,s2,s3...本身是一个语法片断序列的可能性,得出概率。

Page 38: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 38

基于 HMM 的语音分析

我们在这里做两个假设:第一, s1,s2,s3,... 是一个马尔可夫链,也就是说, si 只由 si-1 决定 ;第二, 第 i 时刻的接收信号 oi 只由发送信号 si 决定(又称为独立输出假设 , 即 P(o1,o2,o3,...|s1,s2,s3....) = P(o1|s1) * P(o2|s2)*P(o3|s3)...。

满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用“隐含”这个词,是因为状态 s1,s2,s3,... 是无法直接观测到的。

Page 39: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 39

基于 HMM 的语音分析

隐含马尔可夫模型的应用远不只在自动词法标注和语音识别中。

在上面的公式中,如果我们把 s1,s2,s3,... 当成中文,把 o1,o2,o3,... 当成对应的英文,那么我们就能利用这个模型解决机器翻译问题; 如果我们把 o1,o2,o3,...当成扫描文字得到的图像特征,就能利用这个模型解决印刷体和手写体的识别。

Page 40: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 40

HMM 的罐子比喻 (L.R.Rabiner,1989)

Page 41: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 41

基于 HMM 的词性标注

问题:已知单词序列 w1w2…wn ,求词性序列 c1c2…cn

HMM 模型: 将词性为理解为状态 将单词为理解为输出值

训练:统计词性转移矩阵 [aij] 和词性到单词的输出矩阵 [bik]

求解

Page 42: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 42

基于 HMM 的词性标注

Page 43: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 43

基于 HMM 的词性标注

Page 44: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 44

基于 HMM 的词性标注

Page 45: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 45

基于 HMM 的词性标注

Page 46: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 46

基于 HMM 的词性标注

Page 47: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 47

词性转移矩阵(用于转移概率计算)

Page 48: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 48

词语词性频度表(用于输出概率计算)

Page 49: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 49

词性频度表

Page 50: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 50

算法标注示例

Page 51: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 51

隐马尔可夫模型的其他应用(不限于)

语音识别 音字转换 词性标注( POS Tagging ) 组块分析 基因分析 一般化:任何与线性序列相关的现象

Page 52: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 52

进一步的资料

工具箱:http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html

HMM at Wikipedia :http://en.wikipedia.org/wiki/Hidden_Markov_model

建议教材:http://www.shokhirev.com/nikolai/abc/alg/hmm/hmm.html

后续课程 : 随机过程 (数计学院,岭南学院) ***通讯及网络分析、图像分割、视频处理等 ***

Page 53: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 53

II 多元统计简介

1. 多元分布的基本概念

2. 多元正态分布

3. 多元线性回归分析

4. 主成分分析

Page 54: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 54

假定所讨论的是多个变量的总体,所研究的数据是同时观测 个指标(即变量),又进行了 次观测得到的,把这 个指标表示为 常用向量

若观测了 n 个个体,则可得到如下数据。

多元分布的基本概念

Page 55: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 55

表示第 个样品的观测值。 表示对 第个变量 的 n 次观测数值。

可用矩阵语言表示为 :

多元分布的基本概念

Page 56: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 56

1.随机向量 X 的均值设 定义随机向量 X 的均值为 :

当 为常数矩阵时,推出如下性质:

1 1

2 2

( )

( )( )

( )p p

E X

E XE X

E X

多元分布的基本概念

Page 57: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 57

2 、随机向量 自协方差阵

X 的广义方差

多元分布的基本概念

Page 58: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 58

3 、随机向量 X 和 Y 的协差阵设 分别为 p 维

和 q 维随机向量,它们之间的协方差阵定义为一个 p×q 矩阵,其元素是 cov(Xi,Yj) ,即

多元分布的基本概念

Page 59: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 59

当 A 、 B 为常数矩阵时,有如下性质:

( 3)设 X 为 p 维随机向量,期望和协方差存在记

则 对于任何随机向量 X ,其协差阵∑都是对称阵,同时总是非负定(也称半正定)的。

多元分布的基本概念

Page 60: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 60

若随机向量 的协差阵存在 , 且每个分量的方差大于零,则 X 的相关阵定

义为 :

也称为分量 与 之间的(线性)相关系数。

4 、随机向量 X 的相关阵

多元分布的基本概念

Page 61: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 61

在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常需将每个指标“标准化”,即做如下变换

多元分布的基本概念

Page 62: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 62

多元正态分布是一元正态分布的推广。迄今为止 , 多元分析的主要理论都是建立在多元正态总体基础上的 , 本节将介绍多元正态分布的定义,并简要给出它的基本性质。

多元正太分布

Page 63: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 63

定义 1 : 若 p 元随机向量 的概率密度函数为:

则称 遵从 p 元正态分布,也称X 为 p 元正态变量。记为

|∑|为协差阵∑的行列式。

多元正太分布

Page 64: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 64

定理 设 则

这个跟一元统计是差不多的,只是均值换成平均向量,方差换成协方差矩阵

多元正太分布

Page 65: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 65

1 、如果正态随机向量 的协方差阵∑是对角阵,则 X 的各分量是相互独立的随机变量。

2 、多元正态分布随机向量 X 的任何一个分量子集的分布(称为 X 的边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布。

多元正太分布的性质

Page 66: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 66

例如,设 有密度

容易验证,

但 显然不是正态分布。

多元正太分布的性质

Page 67: 统计分析进阶

3 、多元正态向量的任意线性变换仍然服从多元正态分布

Wei-Shi [email protected]

04/19/23, Page 67

4 、若 , 则

多元正太分布的性质

Page 68: 统计分析进阶

多元正太分布的性质

Wei-Shi [email protected]

04/19/23, Page 68

条件分布和独立性

, 我们希望求给定 的条件分布,即 的分布。下一个定理指出:正态分布的条件分布仍为正态分布。

设 p≥2,将 X 、 μ和 Σ剖分如下:

Page 69: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 69

定理: 设 ,Σ>0,则

多元正太分布的性质

Page 70: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 70

均值向量的估计 在一般情况下 , 设样本矩阵为:

设样品 相互独立 , 同遵从于 P 元正态分布 , 而且 n>p,Σ>0,则总体参数均值μ的估计量是

多元正太分布的参数估计

Page 71: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 71

即均值向量μ的估计量 , 就是样本均值向量 . 这可由极大似然法推导出来。

多元正太分布的参数估计

Page 72: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 72

协方差阵的估计总体参数协差阵 Σ的极大似然估计是

多元正太分布的参数估计

Page 73: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 73

其中 L 是离差阵,它是每一个样品(向量)与样本均值(向量)的离差积形成的 n 个 阶对称阵的和。同一元相似, 不是 Σ的无偏估计,为了得到无偏估计我们常用样本协差阵

作为总体协差阵的估计。

多元正太分布的参数估计

Page 74: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 74

多元线性回归分析

1.多元线性回归的数学模型

2.模型参数的最小二乘估计

Page 75: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 75

模型的理论假设模型的理论假设设设 pxxx ,,, 21 是 是 ) 2 ( p 个自变量(解释变量),

y是因变量,则多元线性回归模型的理论假设是是因变量,则多元线性回归模型的理论假设是

,22110 ppxxxy ),,0(~ 2 N

其中,其中, p ,,,, 210 是是 1p 个未知参数,个未知参数, 0 称称

为回归常数,为回归常数, p ,,, 21 称为回归系称为回归系 数数 ),0(~ 2 N

为随机误差为随机误差 ..

多元线性回归分析

Page 76: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 76

模型的建立模型的建立

求求 p p 元线性函数 元线性函数

ppxxxEy 22110

的经验回归方程的经验回归方程

,ˆˆˆˆˆ 22110 ppxxxy

其中,其中, y 是是 Ey 的统计估计,的统计估计, p ˆ,,ˆ,ˆ,ˆ

210 分别是分别是

,,,,, 210 p 的统计估计,称为经验回归系数的统计估计,称为经验回归系数 ..

多元线性回归分析

Page 77: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 77

设对变量向量设对变量向量 yxxx p ,,,, 21 的的 n次观测得到的样本次观测得到的样本

数据为数据为 ),,,,,( 21 iipii yxxx ). 1 ( ,,2,1 pni 为了今后讨论为了今后讨论

方便,我们引进矩阵方便,我们引进矩阵

,2

1

ny

y

y

y

,

1

1

1

1

221

111

npn

p

p

xx

xx

xx

X

,

ˆ

ˆ

ˆ

ˆ 1

0

p

.2

1

n

多元线性回归分析

Page 78: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 78

于是,多元线性回归模型的数据结构为于是,多元线性回归模型的数据结构为

Xy

称为多元样本回归方程,其中称为多元样本回归方程,其中 ,1)( npXrank

21~ (0 , )n n n nN I 且各个且各个 i 相互独立相互独立 .. 由于矩阵 由于矩阵 X 是是

样本数据,样本数据, X 的数据可以进行设计和控制,因此,矩阵的数据可以进行设计和控制,因此,矩阵

X 称为回归设计矩阵或资料矩称为回归设计矩阵或资料矩阵阵 ..

多元线性回归分析

Page 79: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 79

⑴ 条件 npXrank 1)( 表明, X 是一个满稚矩

阵,即矩阵 X 列向量(解释变量)间线性无关,样本容量

的个数应当大于解释变量的个数 . 违反该假设时,称模型存在多重共线性问题 .

⑵ 条件 21~ (0 , )n n n nN I

且各个 i 相互独立

,0)( iE , ,0

,),cov(

2

ji

jiji

. ,,2,1, nji

多元线性回归分析

Page 80: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 80

当当 jiji ),var()var( 时,称时,称回归模型存在异方差回归模型存在异方差 .. 当当 jiji ,0),cov( 时,时,称回归模型存在自相关称回归模型存在自相关 ..

当模型违反上述假设后,就不能使用最小二乘法估计来求解回归系数 . 解决方法可参考回归分析相关教材。先介绍模型符合假设时的参数估计方法 .

多元线性回归分析

Page 81: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 81

参数估计的准则参数估计的准则

定义离差平方和定义离差平方和

),,,( 10 pQ

n

iii yEy

1

2))((

n

iippi xxyi

1

2110 )(

求求 p ˆ,,ˆ,ˆ10 使得 使得

),,,,(min)ˆ,,ˆ,ˆ( 10,,,

1010

pp QQp

多元线性回归分析:最小二乘法

Page 82: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 82

称称 p ˆ,,ˆ,ˆ10 为模型参数为模型参数 p ,,, 21 的最小二乘估的最小二乘估

计,称计,称

ippiii xxxy ˆˆˆˆˆ 22110

为因变量为因变量 ),,2,1( niyi 的的回归拟合值,简称回归值或 回归拟合值,简称回归值或

拟合值拟合值 .. 称称

iii yye ˆ

为因变量为因变量 ),,2,1( niyi 的的残差残差 ..

多元线性回归分析:最小二乘法

Page 83: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 83

当满足元线性回归模型理论假设的条件时,模型参数 当满足元线性回归模型理论假设的条件时,模型参数

p ,,, 21 的最小二乘解为的最小二乘解为

.ˆ 1yXXX TT

可以证明 可以证明

, )ˆ( E

12 )()ˆcov( XX T

多元线性回归分析:最小二乘法

Page 84: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 84

),,(~ˆ 2 jjjj cN ,2,1 pj

其中其中 .)( 1

ppijT cXX

由此可见,由此可见, Tp )ˆ,,ˆ,ˆ(ˆ

10 是是 Tp ),,,( 10

的无偏估计的无偏估计 .. 协方差阵协方差阵 )ˆcov( 反映出估计量反映出估计量 的波动大的波动大

小小 ,, 由于由于 )ˆcov( 是是 2 右乘一个矩阵右乘一个矩阵 ,)( 1XX T 所以所以 的的

波动大小可以由抽样过程中进行控制波动大小可以由抽样过程中进行控制 .. 同一元线性回归分同一元线性回归分

析一样,在多元线性回归中,析一样,在多元线性回归中, 样本抽样要尽可能的分散样本抽样要尽可能的分散 ..

多元线性回归分析:最小二乘法

Page 85: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 85

主成分分析

主成分回归

主成分分析

Page 86: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 86

汇报什么? 假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。

如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?

当然不能。 你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。

主成分分析—例子

Page 87: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 87

每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量的数据;

各个学校的研究、教学等各种变量的数据等等。 这些数据的共同特点是变量很多,在如此多的变量之中,

有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。

介绍两种把变量维数降低以便于描述、理解和分析的方法 : 主 成 分 分 析 ( principal component analysis )和因子分析( factor analysis )。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。

主成分分析—例子

Page 88: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 88

一项十分著名的工作是美国的统计学家斯通 (stone) 在1947 年 关 于 国民经济的 研 究。他曾利用美国 1929 一1938 年各年的数据,得到了 17 个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。

88

一个经济学的例子:

主成分分析—例子

Page 89: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 89

在进行主成分分析后,竟以 97.4%的精度,用三新变量就取代了原 17 个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入 F1 、总收入变化率 F2 和经济发展或衰退的趋势 F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入 I 、总收入变化率 I 以及时间 t 因素做相关分析,得到下表:

主成分分析—例子

Page 90: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 90

  F1 F2 F3 i i t

F1 1          

F2 0 1        

F3 0 0 1      

i 0.995 -0.041

0.057 l    

Δi -0.056 0.948 -0.124

-0.102 l  

t -0.369 -0.282

-0.836

-0.414 -0.112

1

Page 91: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 91

主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。

在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。

主成分分析—例子

Page 92: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 92

成绩数据 : 100 个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。

主成分分析—例子

Page 93: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 93

从本例可能提出的问题

目前的问题是,能不能把这个数据的 6 个变量用一两个综合变量来表示呢?

这一两个综合变量包含有多少原来的信息呢?

能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。

主成分分析—例子

Page 94: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 94

主成分分析 例中的的数据点是六维的;也就是说,每个观测值是 6维空间中的一个点。我们希望把 6维空间用低维空间表示。

先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的)

那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。

主成分分析—例子

Page 95: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 95

当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。

但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。

如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。

椭圆(球)的长短轴相差得越大,降维也越有道理。

几何分析

主成分分析—例子

Page 96: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 96-4 -2 0 2 4

-4-2

02

4

主成分分析—例子

Page 97: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 97

主成分分析 对于多维变量的情况和二维类似,也有高维的椭球,只

不过无法直观地看见罢了。 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。

注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分 (principal component)。

主成分分析—例子

Page 98: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 98

主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。

很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。

主成分分析—例子

Page 99: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 99

(1) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。

在力求数据信息丢失最少的原则下,对高维的变量空间降维,寻找主成分,即研究指标体系的少数几个线性组合,这些综合指标将尽可能多地保留原来指标变异方面的信息。 要讨论的问题是:

主成分分析—例子

Page 100: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 100

( 2) 选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。

( 3)如何解释主成分所包含的实际意义。

Page 101: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 101

数学模型与几何解释

假设我们所讨论的实际问题中,有 p 个指标,我们把这 p 个指标看作 p 个随机变量,记为X1 , X2 ,…, Xp ,主成分分析就是要把这 p 个指标的问题,转变为讨论 p 个指标的线性组合的问题,而这些新的指标 F1 , F2 ,…, Fk(k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。

Page 102: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 102

pppppp

pp

pp

XuXuXuF

XuXuXuF

XuXuXuF

2211

22221122

12211111

这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合 Fi。

主成分分析—例子

Page 103: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 103

满足如下的条件:

1222

21 piii uuu

pjijiFFCov ji ,,,,,,),( 210

)()( 21 pFVarFVarFVar )(

主成分之间相互独立,即无重叠的信息。即

主成分的方差依次递减,重要性依次递减,即

每个主成分的系数平方和为 1。即

主成分分析—例子

Page 104: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 104

2x

1x

1F

2F

••

•••

•• ••

• •

••

••

• ••

••

••

••

•••

主成分分析的几何解释

平移、旋转坐标轴

主成分分析—例子

Page 105: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 105

为了方便,我们在二维空间中讨论主成分的几何意义。 设有 n 个样品,每个样品有两个观测变量 xl和 x2 ,在由

变量 xl和 x2 所确定的二维平面中, n 个样本点所散布的

情况如椭圆状。由图可以看出这 n 个样本点无论是沿着 xl

轴方向或 x2轴方向都具有较大的离散性,其离散的程度

可以分别用观测变量 xl 的方差和 x2 的方差定量地表示。

显然,如果只考虑 xl和 x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。

主成分分析—例子

Page 106: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 106

主成分分析的几何解释

平移、旋转坐标轴

2x

1x

1F

2F

••

•••

•• •••

••

••

• •

•• •

••

••

••

主成分分析—例子

Page 107: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 107

如果我们将 xl 轴和 x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴 Fl 和 F2。 Fl

和 F2 是两个新变量。

主成分分析—例子

Page 108: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 108

旋转变换的目的是为了使得 n 个样品点在 Fl轴方向上的离 散程度最大,即 Fl 的方差最大。变量 Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量 F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到 Fl轴上,对数据中包含的信息起到了浓缩作用。

主成分分析—例子

Page 109: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 109

Fl , F2除了可以对包含在 Xl , X2 中的信息

起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在 Fl轴上,而 F2轴上的方差很小。 Fl 和 F2 称

为原始变量 x1 和 x2 的综合变量。 F简化了系统

结构,抓住了主要矛盾。

主成分分析—例子

Page 110: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 110

主成分分析数学基础简介

一、两个线性代数的结论 1 、若 A 是 p 阶实对称阵,则一定可以找到正交阵 U ,使

pp

p

00

00

00

2

1

AUU 1

pii .2.1, 其中 是 A 的特征根。

Page 111: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 111

2 、若上述矩阵的特征根所对应的单位特征向量为

pppp

p

p

uuu

uuu

uuu

21

22221

11211

),,( p1 uuU

则实对称阵 属于不同特征根所对应的特征向量是正交的,即有

p1 uu ,,

AIUUUU

主成分分析数学基础简介

Page 112: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 112

(一) 第一主成分

设 X 的协方差阵为

221

22221

11221

ppp

p

p

由于 Σx 为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵 U ,使得

p

0

01

UΣU X

主成分分析数学基础简介

Page 113: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 113

其中 1 , 2 ,…, p 为 Σx 的特征根,不妨假设 1 2 … p 。而 U 恰好是由特征根相对应的特征向量所组成的正交阵。

pppp

p

p

uuu

uuu

uuu

21

22221

11211

),,( p1 uuU

piii uuu ,,, 21iU

i

Pi ,,2,1

下面我们来看,是否由 U 的第一列元素所构成为原始变量的线性组合是否有最大的方差。

主成分分析数学基础简介

Page 114: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 114

设有 P 维正交向量

1 11 1 1p pF a X a X a X

1

2

1

1111)( aUUaaa

p

FV

121111 ,,, paaa a

1

2

p

1

2

1 1 2 p 1

p

u

ua u ,u , ,u a

u

主成分分析数学基础简介

Page 115: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 115

p

ii

1

21 )( ua

p

iii

11 auua

aUUa 1 aa 1 1

1

p

i i ii

a u u a

2

1

( )p

i ii

a u

等号成立:1' 1,

' 0, 2,...i

a u

a u i p

主成分分析数学基础简介

Page 116: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 116

当且仅当 a1 =u1 时,即 时,有最大的

方差 1。因为 Var(F1)=u’1xu1=1。

如果第一主成分的信息不够,则需要寻找第二主成分。

pp XuXuF 11111

主成分分析数学基础简介

Page 117: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 117

(二) 第二主成分在约束条件 下,寻找第二主成分 0),cov( 21 FF

pp XuXuF 21122

因为

所以

0),cov(),cov( 121122121 uuuuxuxuFF

则,对 p 维向量 ,有

012 uu

p

iii

p

iiiiuuFV

1

22

122222 )()( uuuuuu

p

ii

2

22 )( uu2

2u

主成分分析数学基础简介

Page 118: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 118

p

iii

122 uuuu2

22 uUUu 2 222 uu 2

pp XuXuXuF 22221122 所以如果取线性变换: 则 的方差次大。2F

类推

pppppp

pp

pp

XuXuXuF

XuXuXuF

XuXuXuF

2211

22221122

12211111

主成分分析数学基础简介

Page 119: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 119

写为矩阵形式: XUF

pppp

p

p

uuu

uuu

uuu

21

22221

11211

),,( p1 uuU

),,,( 21 pXXX X

主成分分析数学基础简介

Page 120: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 120

一、均值 UU )( xE

二、方差为所有特征根之和

p

iiFVar

1

)( 222

2121 pp

说明主成分分析把 P 个随机变量的总方差分解成为P 个不相关的随机变量的方差之和。 协方差矩阵的对角线上的元素之和等于特征根之和。

tr(cov(F))=tr(U’cov(X)U)=tr(cov(X))

120

主成分分析 - 性质

Page 121: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 121

1 )贡献率:第 i 个主成分的方差在全部方差中所占比重 ,称为贡献率 ,反映了原来 P 个指标多大的信息,有多大的综合能力 。

p

iii

1

2 )累积贡献率:前 k 个主成分共有多大的综合能力,用这 k 个主成分的方差和在全部方差中所占比重

来描述,称为累积贡献率。

p

ii

k

ii

11

121

主成分分析 - 性质

Page 122: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 122

我们进行主成分分析的目的之一是希望用尽可

能少的主成分 F1 , F2 ,…, Fk ( k≤p)代替原来的

P 个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量 80%

以上的信息量为依据,即当累积贡献率≥ 80%时的主成分的个数就足够了。最常见的情况是主成分为 2 到

3 个。

主成分分析 - 性质

Page 123: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 123

原始变量与主成分之间的相关系数pmmj ,,,2,1

1 11 12 1 1

2 21 22 2 2

1 2

p

p

p p p pp p

x u u u F

x u u u F

x u u u F

XUF XUF

ppjjjj xuxuxuF 2211

主成分分析 - 性质

Page 124: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 124

1 1 2 2( , ) ( , )i j i i ip p j ij jCov x F Cov u F u F u F F u

i

jij

ji

jijji

uuFx

),(

可见, 和 的相关的密切程度取决于对应线性组合系数的大小。

ix jF

主成分分析 - 性质

Page 125: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 125

原始变量被主成分的提取率

前面我们讨论了主成分的贡献率和累计贡献率,他们度量了 F1,

F2,……, Fm分别从原始变量 X1, X2,…… XP中提取了多少信息。

那么 X1, X2,…… XP各有多少信息分别 F1, F2,……, Fm被提取了。

应该用什么指标来度量?我们考虑到当讨论 F1分别与 X1, X2,…… XP

的关系时,可以讨论 F1分别与 X1, X2,…… XP的相关系数,但是由于相关系数有正有负,所以只有考虑相关系数的平方。

主成分分析 - 性质

Page 126: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 126

1 1 2 2( ) ( )i i i ip pVar x Var u F u F u F 2 2 2 2 21 1 2 2i i im m ip p iu u u u 则

jiju 2

22 / ijiju

如果我们仅仅提出了 m 个主成分,则第 i 原始变量信息的被提取率为:

m

jij

m

jiijji u

1

2

1

22 /

是 Fj 能说明的第 i 原始变量的方差

是 Fj 提取的第 i 原始变量信息的比重

主成分分析 - 性质

Page 127: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 127

例 设 的协方差矩阵为 321 ,, xxx

200

052

021

解得特征根为 83.51 00.22 17.03 ,,

000.0

924.0

383.0

1U

1

0

0

2U

000.0

383.0

924.0

3U

第一个主成分的贡献率为 5.83/( 5.83+2.00+0.17) =72.875% ,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。

127

主成分分析 - 性质

Page 128: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 128

Xi 与 F1 的相关系数

平方 Xi 与 F2 的相关系数

平方 信息提取率

xi

1 0.925 0.855 0 0 0.855

2 -0.998 0.996 0 0 0.996

3 0 0 1 1 1

11),( ii Fx 21i 2

2i22 ),( ii Fx i

925.01383.0*83.52111111 u

998.05)924.0(*22221112 u

013

主成分分析 - 性质

Page 129: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 129

总结:主成分分析的步骤

在实际问题中, X 的协方差通常是未知的,样品有

1 2 ( 1 2 )l l l plx x x l n

X , , , ,, ,

ppjjl

n

liilx xxxx

n

))((

11ˆ

1

第一步:由 X 的协方差阵 Σx ,求出其特征根,即解

方程 ,可得特征根 。021 p

一、基于协方差矩阵

0 Σ I

Page 130: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 130

第二步:求出分别所对应的特征向量 U1 , U2 ,…, Up , piii uuu ,,, 21iU

第三步:计算累积贡献率,给出恰当的主成分个数。

)(21 pkkiF ,,,, XU ii

第四步:计算所选出的 k 个主成分的得分。将原始数据的中心化值 :

代入前 k 个主成分的表达式,分别计算出各单位k 个主成分的得分,并按得分值的大小排队。

ppiii xxxxxx ,,, 2211* XXX ii

总结:主成分分析的步骤

Page 131: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 131

例一 应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,做到“知己知彼,百战不殆”,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的 5C 方法,5C 的目的是说明顾客违约的可能性。

主成份分析 - 案例分析

Page 132: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 132

1 、品格(用 X1 表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。

2 、能力(用 X2 表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的能力越强。同时,还应注意顾客流动资产的质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。

3 、资本(用 X3 表示),指顾客的财务势力和财务状况,表明顾客可能偿还债务的背景。

4 、附带的担保品(用 X4 表示),指借款人以容易出售的资产做抵押。

5 、环境条件(用 X5 表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。

主成份分析 - 案例分析

Page 133: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 133

首先并抽取了 10 家具有可比性的同类企业作为样本,又请8位专家分别给10 个企业的 5 个指标打分,然后分别计算企业 5 个指标的平均值,如表。

76.5 81.5 76 75.8 71.7 85 79.2 80.3 84.4 76.5

70.6 73 67.6 68.1 78.5 94 94 87.5 89.5 92

90.7 87.3 91 81.5 80 84.6 66.9 68.8 64.8 66.4

77.5 73.6 70.9 69.8 74.8 57.7 60.4 57.4 60.8 65

85.6 68.5 70 62.2 76.5 70 69.2 71.7 64.9 68.9;

主成份分析 - 案例分析

Page 134: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 134

COV = cov(X');[COEFF, latent, explained] = pcacov(X)

COEFF (特征向量 )= 0.4664 0.1948 -0.4613 0.2780 -0.6741 0.4828 0.7253 0.0527 -0.0552 0.4848 0.4646 -0.5341 -0.4883 -0.3744 0.3469 0.3963 -0.3732 0.3781 0.7203 0.2046 0.4202 -0.1072 0.6348 -0.5105 -0.3852

Latent(特征根 ) = 533.3213 47.4022 18.4800 12.9058 7.9303

explained (累计贡献率 )= 86.0141 7.6450 2.9805 2.0814 1.2790

主成份分析 - 案例分析

Page 135: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 135

第一主成份的贡献率为 86% ,第一主成份 Z1=0.466X1+0.483X2+0.465X3+0.396X4+0.42X5

的各项系数大致相等,且均为正数,说明第一主成份对所有的信用评价指标都有近似的载荷,是对所有指标的一个综合测度,可以作为综合的信用等级指标。可以用来排序。将原始数据的值中心化后,代入第一主成份 Z1 的表示式,计算各企业的得分,并按分值大小排序 :

在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。

序号 1 2 3 4 5 6 7 8 9 10

得分 10.017 3.198 -0.695 -8.674

1.727 8.044 -2.151

-4.032 -4.522

-2.912

排序 1 3 5 10 4 2 6 8 9 7

主成份分析 - 案例分析

Page 136: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 136

例二 基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的 3 个证券和石油产业的 2 个证券做了 100周的收益率调查。下表是其相关系数矩阵。

1 )利用相关系数矩阵做主成分分析。 2 )决定要保留的主成分个数,并解释意义。

1 0.577 0.509 0.0063 0.0037

0.577 1 0.599 0.389 0.52

0.509 0.599 1 0.436 0.426

0.0063 0.389 0.436 1 0.523

0.0037 0.52 0.426 0.523 1

主成份分析 - 案例分析

Page 137: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 137

>> [U,D] = eig(A)

U =

0.5954 0.2143 0.0586 -0.6906 0.3452

-0.6208 0.4206 -0.3556 -0.1691 0.5317

-0.2238 -0.7419 0.3442 -0.1382 0.5118

0.1347 0.4293 0.6258 0.4998 0.3951

0.4381 -0.2062 -0.6000 0.4748 0.4244

D =

0.2112 0 0 0 0

0 0.3795 0 0 0

0 0 0.5179 0 0

0 0 0 1.2360 0

0 0 0 0 2.6553

主成份分析 - 案例分析

Page 138: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 138

根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。

1.主成分分析能降低所研究的数据空间的维数。即用研究 m维的 Y 空间代替 p维的 X 空间 (m<p) ,而低维的 Y 空间代替 高维的 x 空间所损失的信息很少。即:使只有一个主成分 Yl(即 m= 1) 时,这个Yl仍是使用全部 X 变量 (p 个 ) 得到的。例如要计算 Yl

的均值也得使用全部 x 的均值。在所选的前 m 个主成分中,如果某个 Xi 的系数全部近似于零的话,就可以把这个 Xi删除,这也是一种删除多余变量的方法。

主成分分析主要有以下几方面的应用

Page 139: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 139

2.有时可通过因子负荷 (uij) 的结构,弄清 X 变量间的某些关系。

3. 多维数据的一种图形表示方法。我们知道当维数大于 3 时便不能画出几何图形,多元统计研究的问题大都多于 3 个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出 n 个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。

主成分分析主要有以下几方面的应用

Page 140: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 140

4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量 x做回归分析。

5.用主成分分析筛选回归变量。回归变量的选择有着重要的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

主成分分析主要有以下几方面的应用

Page 141: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 141

Matlab: 主成分分析

求特征值: eig

排序: sort

pca

Page 142: 统计分析进阶

矩阵的奇异值分解 (SVD)

奇异值分解,设 rArank nm )( AAT 0i则半正定阵 的特征值

称 ii 为 A 的奇异值。

nm

D

00

定理:设

,, 021 r ),(diag rD 21其中

则存在正交阵 nnmm VU , TVUA Σ使得

Page 143: 统计分析进阶

OO

ODVAAV rTT

2

1

0

0

)(

OO

ODVVAA

V

V 2

21

2

1 ),(T

T

T

),( 21 VVV 其中 V 是正交阵。令

矩阵的奇异值分解 (SVD)

Page 144: 统计分析进阶

0222

211

AVOAVAV

DAVAV

,TT

TT

T

T

),(2

121

V

VVVAAVVA T

由前式可知

TT2211 VAVVAV

T11VAV

TT111

11 DVUDVDAV

111

DAVU其中

矩阵的奇异值分解 (SVD)

Page 145: 统计分析进阶

1U ),( 21 UUU 扩充成交阵把即求解方程 01 xU T 的基础解系,

2U再规范正交化即得

T

T

),(Σ2

121

V

V

OO

ODUUVU T

T

T

),(2

11

V

VODU

ADVU T11

矩阵的奇异值分解 (SVD)

Page 146: 统计分析进阶

例、求

的奇异值分解。

12

21

11

A

矩阵的奇异值分解 (SVD)

Page 147: 统计分析进阶

解: 75

61

16

61

16

AAEAA TT

57 21 , 257 21 )(,, Arank

00

50

07

5

7,=D

矩阵的奇异值分解 (SVD)

Page 148: 统计分析进阶

标准正交化 :

1

1

2

1

1

1

2

1,

TVV

11

11

2

1=

1

1

00

11

11

1155 22 ,AAE T,

1

1

00

11

11

1177 11 ,AAE T,

矩阵的奇异值分解 (SVD)

Page 149: 统计分析进阶

111

DAVU

1

50

07

11

11

2

1

12

21

11

5173

5371

072

2

1=

3

1

5

35

1

3

1

5

01

-

,

-

单位化得解 xU T

矩阵的奇异值分解 (SVD)

Page 150: 统计分析进阶

例 6、求

的奇异值分解。

222

111A

矩阵的奇异值分解 (SVD)

Page 151: 统计分析进阶

555

555

555

222

111

21

21

21

AAT

解:

15015

555

555

5552 ,,

AAE T

000

001515151 ,, D=

矩阵的奇异值分解 (SVD)

Page 152: 统计分析进阶

1

1

1

000

110

101

1055

5105

5510

1515 1 ,, AAE T

1

0

1

0

1

1

000

000

111

555

555

555

0 32 ,,AAT,=

标准正交化:

1

0

1

2

1

0

1

1

2

1

1

1

1

3

1,,

矩阵的奇异值分解 (SVD)

Page 153: 统计分析进阶

TVV

200

011

011

2

1

2

1

5

1

10

1

0

1

1

022

011

2

1111 DAVU

1

2

5

1

1

2011 单位化得解扩充 ,, xUU T

TVUAU

12

21

5

1

矩阵的奇异值分解 (SVD)

Page 154: 统计分析进阶

对于一幅用 像素矩阵 表示的图像,如果传送所有 个数据,显然数据量太大。因此我们希望传送少一些的数据,并且在接收端还能重构原图像。如果我们从矩阵 的 SVD

中选择 个奇异三元组 来逼近原图像,即用 个数值代替像素矩阵 。那么在接收端,我们可得到

( , , )i i iu v

A

m n

m n

A

k

( 1)m n k A

SVD应用 - 图像压缩

Page 155: 统计分析进阶

从而在接收端近似地重构出原图像。此时,图像的压缩比为

( 1)

m n

m n k

1

( )k

Tk i i i

i

AA u v

SVD应用 - 图像压缩

Page 156: 统计分析进阶

SVD应用 - 图像压缩

Page 157: 统计分析进阶

SVD应用 - 图像压缩

Page 158: 统计分析进阶

SVD应用 - 图像压缩

Page 159: 统计分析进阶

SVD应用 - 图像压缩

Page 160: 统计分析进阶

SVD应用 - 图像压缩

Page 161: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 161

进一步学习

后续基础课程:多元统计,高等统计学(数计学院)

后续专业课程:模式识别、机器学习、(现代)数字图像处理、生物信息学、人工智能

Page 162: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 162

回顾开头的例子

Page 163: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 163

假设每个被检测的人第 n 时刻的位置是 xn

n+1 时刻的位置 xn+1有如下的建模:

回顾开头的例子

马尔可夫性 多元统计分析

Page 164: 统计分析进阶

Exercise I: :最高成绩得分100

1. 下载阅读论文:Title: Face recognition using eigenfaces (http://www.cs.ucsb.edu/~mturk/Papers

/mturk-CVPR91.pdf)

Authors: M. Turk and A. Pentland

CVPR 1991

参考: http://scholar.fju.edu.tw/%E8%AA%B2%E7%A8%8B

%E5%A4%A7%E7%B6%B1/upload/058029/content/991/D-7604-07699-E.pdf

2. 对 ORL 数据库,自行设计一套人脸识别算法

Page 165: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 165

作业要求 自行分组,每组最多 5 人 作业打印 9 月 22 日,由各班班长收集作业,交到学院 413房间,找李翔同学

每组成员给出各自的贡献比例 抄袭上届作业者,本次作业为 0 分(上届有过)

Page 166: 统计分析进阶

Wei-Shi [email protected]

04/19/23, Page 166

That is all!

谢谢大家!