46
四川大学 2017 – 2018 学年第二学期 统计计算 2018 4 10

统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Embed Size (px)

Citation preview

Page 1: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

四川大学 2017 – 2018学年第二学期

统计计算

2018年 4月 10日

Page 2: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

目录

1 引言线性模型回归分析最小二乘法

2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析

Page 3: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

目录

1 引言线性模型回归分析最小二乘法

2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析

Page 4: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

线性模型

线性模型是数理统计学中一种非常重要的模型,其理论成果十分丰富,完善,应用十分广泛. 内容主要包括:

1 回归分析: 研究变量之间的相互关系, 建立变量之间的经验公式,以达到预测和控制的目的.

2 方差分析: 分析哪些因素对指标起显著影响,

并希望知道这些因素在什么时候起最好的影响.

Page 5: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

线性回归分析

前已述及, 回归分析的基本问题是寻找因变量与自变量之间的函数关系 f .

函数 f 的可选范围如果太广, 将很难甚至无法得到. 为此,通常将这个可选集合缩小到线性函数类这一可处理的范围.

线性回归分析的基本问题: 在某种优化准则下寻求最能逼近观测数据的线性函数.

Page 6: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

研究线性模型的重要性

1 从工具方面来说线性问题在数学上有成熟的处理方法, 相关成果非常丰富.

2 从应用方面来说(a)大量线性问题;

(b)许多非线性问题可完全转化为线性情形;

(c)不能转化的也可采用线性化方法化成线性模型.

Page 7: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

研究线性模型的重要性 (续)

1 部分非线性可以完全转化为线性;

2 一元多项式回归可化为多元线性模型;

3 一元非线性函数可用多项式逼近, 因而也可线性化;

4 将上面的 2, 3 推广到多元情形: 多元多项式;

多元非线性函数用多项式逼近;

5 复杂的确定性函数的线性组合.

Page 8: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

目录

1 引言线性模型回归分析最小二乘法

2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析

Page 9: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

变量之间的关系

1 确定关系.

2 相关关系 (这是我们所关心的). 一个实际的例子: 第 320页例 5.1.

因为有随机项, 不可能获得完全精确的函数关系, 只能在某种优化准则下寻求某个函数最能逼近真实数据.

Page 10: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

回归问题

回归分析是处理因变量 y 与自变量 x1, · · · ,xp之间相关关系的一种有效的统计方法.

回归分析的基本问题是如何找出适当的函数f (x1, · · · ,xp),使得

y = f(x1, · · · ,xp) + ê,

其中 ê 为随机误差项 (不可观测), 因此不可能获得完全精确的函数关系, 只能在某种优化准则下寻求某个函数最能逼近真实数据.

Page 11: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

变量的类型

研究的手段: 从数据出发,通过观测数据寻找自变量与因变量之间的相关关系.

变量的类型: 因变量 y 是观测得到的,应是随机变量. 对自变量而言,有两种看法.

Page 12: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

回归分析的分类

回归分析的基本问题是建立因变量与自变量之间的某种函数关系 f . 根据函数关系可分为:

1 线性回归分析2 非线性回归分析

Page 13: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

回归问题的分类

根据自变量和因变量的个数来分类:

1 一个自变量对一个因变量: 一对一回归分析2 多个自变量对一个因变量: 多对一回归分析3 多个自变量对多个因变量: 多对多回归分析

实际中最多的是第 2 种, 这就是常见的多元回归分析.

Page 14: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

多元线性回归问题的数学模型

教材第 297页 §1开始部分.

1 线性模型: (1.1)式;

2 矩阵形式: Y = XÔ + ê;3 基本假设: ê ∼ N(0,ã2In);

4 待估参数: Ô, ã2.

Page 15: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

多元线性回归问题的数学模型 (续)

回归分析的主要任务:

1 参数 Ô 和 ã2 的估计;

2 参数 Ô 的线性函数的统计检验;

3 预测问题;

4 回归自变量的筛选.

Page 16: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

目录

1 引言线性模型回归分析最小二乘法

2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析

Page 17: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

参数 Ô和 ã2的估计问题

对 Ô 的估计方法有很多, 最常用的是最小二乘方法.

称 Ô̂ 是参数 Ô 的最小二乘估计,如果

Ô̂ = argminÔ∈�q∥Y −XÔ∥2

2.

称 Q = ∥Y −XÔ̂∥2 为最小二乘残差平方和.

Page 18: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

参数 Ô和 ã2的估计问题 (续)

最小二乘方法的特点:

1 不要求更多的统计性质;

2 具有良好的性能;

3 计算方便.

Page 19: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

参数 Ô和 ã2的估计问题 (续)

对 ã2 的估计: Q/(n − q)是 ã2 的无偏估计.

Page 20: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

回归系数 Ô线性假设的统计假设检验

假设H0 : LÔ = Õ,

其中 L ∈�s×q, rankL = s,且 Õ ∈�s 已知.

Page 21: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

回归系数 Ô线性假设的统计假设检验 (续)

构造统计量

F =(QH0

−Q)/s

Q/(n − q),

其中 QH0是 H0 成立时的最小二乘残差,即

QH0=min

LÔ=Õ∥Y −XÔ∥2.

Page 22: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

回归系数 Ô线性假设的统计假设检验 (续)

可以证明: 在假设 ê ∼ N(0,ã2In) 下, 当 H0

成立时,有F

H0∼ F(s,n − q).

Page 23: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

回归方程和回归系数的显著性检验

检验问题: 第 301页的 H0 和 H(i)

0.

1 回归方程的显著性检验:

L = Im,Õ = 0;

2 回归系数的显著性检验:

L = [0, · · · ,0,1,0, · · · ,0],Õ = 0.

Page 24: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

回归方程和回归系数的显著性检验 (续)

检验统计量:

F =U/m

Q/(n − q)H0∼ F(m,n − q)

Fi =Pi

Q/(n − q)H

(i)

0∼ F(1,n − q), i = 1, · · · ,m,

其中, U = QH0−Q,Pi = Qi −Q.

因此,关键是计算 QH0和 Qi .

Page 25: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

回归方程和回归系数的显著性检验 (续)

命题考虑假设

H0 : Ls×qÔq×q = Õq×1,

其中 rankL = s. 在假设 H0 下必有

QH0−Q = (LÔ̂ −Õ)T

(L(XTX)(1,2)LT

)(1,2)(LÔ̂ −Õ).

该命题给出了 U = QH0−Q 的直接计算方法.

还需考虑 Qi 的计算方法.

Page 26: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

问 题?

Page 27: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

目录

1 引言线性模型回归分析最小二乘法

2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析

Page 28: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

目录

1 引言线性模型回归分析最小二乘法

2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析

Page 29: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Ô̂和 Q 的计算

先构造矩阵

S = [X |Y]T[X |Y] =[XTX XTY

YTX YTY

]其中, X ∈�n×q,q = m +1.

Page 30: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Ô̂和 Q 的计算 (续)

对 S 使用广义消去变换 G2Ti ,可得

(G2Tq) · · ·(G2T1)S =[(XTX)(1,2) (XTX)(1,2)XTY

−YTX(XTX)(1,2) YTY − YTX(XTX)(1,2)XTY

].

Page 31: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Ô̂和 Q 的计算 (续)

由于Ô̂ = (XTX)(1,2)XTY

是 Ô 的一个最小二乘估计,且

Q = ∥Y −XÔ̂∥22

= (Y −X(XTX)(1,2)XTY)T

· (Y −X(XTX)(1,2)XTY)

= YTY − YTX(XTX)(1,2)XTY

Page 32: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Ô̂和 Q 的计算 (续)

因此,

(G2Tq) · · ·(G2T1)S =

[(XTX)(1,2) Ô̂−Ô̂T Q

]即由消去变换就可同时求出 Ô̂ 和 Q.

Page 33: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Ô̂和 Q 的计算 (续)

特别地, 若 rankX = q, 即 X 是满列秩的,

XTX 可逆, 于是广义消去变换成为通常的消去变换,且

Tq · · ·T1S =

[(XTX)−1 Ô̂−Ô̂T Q

]其中 Ô̂ = (XTX)−1XTY.

Page 34: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Ô̂和 Q 的计算 (续)

综合以上分析可得 Ô̂ 和 Q 的算法:

1 教材第 299页定理 2.1 (满列秩情形);

2 教材第 300页定理 2.2 (一般情形).

Page 35: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

假设检验

检验问题: 第 301页.

1 回归方程的显著性检验:

L = I ,Õ = 0;

2 回归系数的显著性检验:

L = [0, · · · ,0,1,0, · · · ,0],Õ = 0.

Page 36: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

假设检验 (续)

检验统计量 (第 301页):

F =(QH0

−Q)/m

Q/(n −m −1),Fi =

Qi −QQ/(n −m −1)

,

其中1 Q 表示全部变量均在线性回归模型中时的最小二乘残差平方和;

2 QH0表示全部变量均不在线性回归模型中时

的最小二乘残差平方和;

3 Qi 表示变量 xi 未在回归模型中时的最小二乘残差平方和.

Page 37: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

假设检验 (续)

在假设 H0和 H(i)

0分别成立的条件下,可以证

明检验统计量的分布满足:

F ∼ F(m,n −m −1),Fi ∼ F(1,n −m −1).

以下考虑 F 和 Fi 的计算, 关键是 QH0−Q 和

Qi −Q 的计算.

Page 38: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

QH0的直接计算

命题考虑假设

H0 : Ls×qÔq×1 = Õs×1,

其中 rankL = s. 在假设 H0 成立下必有

QH0−Q = (LÔ̂ −Õ)T

(L(XTX)(1,2)LT

)(1,2)(LÔ̂ −Õ).

上述命题给出了 QH0−Q 的一种直接计算方

法.

Page 39: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

作业

教材第 343页 6.1.

Page 40: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Qi 的计算

下面考虑 Qi 的计算方法.

这里采用消去变换.

Page 41: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Qi 的计算 (续)

回忆: 当全部自变量均在线性模型中时, Q 是通过 q = m +1 个消去变换 Tq · · ·T1S 获得的. 即是说: 变量 x1, · · · ,xq 在模型中时, 就需要施行消去变换 T1, · · · ,Tq .

因此, 当假设 H(i)

0: Ôi = 0成立时, 变量 xi 未

出现在模型中, 则不施行消去变换 Ti ; 反之, 若 xi出现在模型中,则需施行消去变换 Ti .

Page 42: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

Qi 的计算 (续)

定理第 301页定理 2.3.

定理第 302页定理 2.4.

Page 43: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

目录

1 引言线性模型回归分析最小二乘法

2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析

Page 44: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

用 Cholesky分解作回归分析

设 S 为对称正定阵, 可对 S 进行 Cholesky

分解为 [XTX XTY

YTX YTY

]=

[TT 0

tTy tyy

][T ty0T tyy

],

其中 T 为 q × q 阶上三角阵. 于是

XTX = TTT ,

XTY = TTty ,

YTY = tTy ty + t2yy .

Page 45: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

用 Cholesky分解作回归分析 (续)

从而

Ô̂ = (XTX)−1XTY = T−1ty ,

Q = t2yy ,

QH0−Q = (LÔ̂ −Õ)T

(LT−1T−TLT

)−1(LÔ̂ −Õ).

于是可得教材第 303页算法 2.1.

注: 对于 QH0−Q, 教材 (2.7) 式需要计算非

三角矩阵之逆, 计算复杂度较高, 因此考虑将其分解后再处理.

Page 46: 统计计算informath.drivehq.com/sc/SC-6-1.pdf · 线性模型 回归分析 最小 ... 称q=∥y−xÔˆ∥2 为最小二乘残差平方和. ... 法. 作业 教材第343

问 题?