Upload
hoangtuyen
View
263
Download
0
Embed Size (px)
Citation preview
四川大学 2017 – 2018学年第二学期
统计计算
2018年 4月 10日
目录
1 引言线性模型回归分析最小二乘法
2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析
目录
1 引言线性模型回归分析最小二乘法
2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析
线性模型
线性模型是数理统计学中一种非常重要的模型,其理论成果十分丰富,完善,应用十分广泛. 内容主要包括:
1 回归分析: 研究变量之间的相互关系, 建立变量之间的经验公式,以达到预测和控制的目的.
2 方差分析: 分析哪些因素对指标起显著影响,
并希望知道这些因素在什么时候起最好的影响.
线性回归分析
前已述及, 回归分析的基本问题是寻找因变量与自变量之间的函数关系 f .
函数 f 的可选范围如果太广, 将很难甚至无法得到. 为此,通常将这个可选集合缩小到线性函数类这一可处理的范围.
线性回归分析的基本问题: 在某种优化准则下寻求最能逼近观测数据的线性函数.
研究线性模型的重要性
1 从工具方面来说线性问题在数学上有成熟的处理方法, 相关成果非常丰富.
2 从应用方面来说(a)大量线性问题;
(b)许多非线性问题可完全转化为线性情形;
(c)不能转化的也可采用线性化方法化成线性模型.
研究线性模型的重要性 (续)
1 部分非线性可以完全转化为线性;
2 一元多项式回归可化为多元线性模型;
3 一元非线性函数可用多项式逼近, 因而也可线性化;
4 将上面的 2, 3 推广到多元情形: 多元多项式;
多元非线性函数用多项式逼近;
5 复杂的确定性函数的线性组合.
目录
1 引言线性模型回归分析最小二乘法
2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析
变量之间的关系
1 确定关系.
2 相关关系 (这是我们所关心的). 一个实际的例子: 第 320页例 5.1.
因为有随机项, 不可能获得完全精确的函数关系, 只能在某种优化准则下寻求某个函数最能逼近真实数据.
回归问题
回归分析是处理因变量 y 与自变量 x1, · · · ,xp之间相关关系的一种有效的统计方法.
回归分析的基本问题是如何找出适当的函数f (x1, · · · ,xp),使得
y = f(x1, · · · ,xp) + ê,
其中 ê 为随机误差项 (不可观测), 因此不可能获得完全精确的函数关系, 只能在某种优化准则下寻求某个函数最能逼近真实数据.
变量的类型
研究的手段: 从数据出发,通过观测数据寻找自变量与因变量之间的相关关系.
变量的类型: 因变量 y 是观测得到的,应是随机变量. 对自变量而言,有两种看法.
回归分析的分类
回归分析的基本问题是建立因变量与自变量之间的某种函数关系 f . 根据函数关系可分为:
1 线性回归分析2 非线性回归分析
回归问题的分类
根据自变量和因变量的个数来分类:
1 一个自变量对一个因变量: 一对一回归分析2 多个自变量对一个因变量: 多对一回归分析3 多个自变量对多个因变量: 多对多回归分析
实际中最多的是第 2 种, 这就是常见的多元回归分析.
多元线性回归问题的数学模型
教材第 297页 §1开始部分.
1 线性模型: (1.1)式;
2 矩阵形式: Y = XÔ + ê;3 基本假设: ê ∼ N(0,ã2In);
4 待估参数: Ô, ã2.
多元线性回归问题的数学模型 (续)
回归分析的主要任务:
1 参数 Ô 和 ã2 的估计;
2 参数 Ô 的线性函数的统计检验;
3 预测问题;
4 回归自变量的筛选.
目录
1 引言线性模型回归分析最小二乘法
2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析
参数 Ô和 ã2的估计问题
对 Ô 的估计方法有很多, 最常用的是最小二乘方法.
称 Ô̂ 是参数 Ô 的最小二乘估计,如果
Ô̂ = argminÔ∈�q∥Y −XÔ∥2
2.
称 Q = ∥Y −XÔ̂∥2 为最小二乘残差平方和.
参数 Ô和 ã2的估计问题 (续)
最小二乘方法的特点:
1 不要求更多的统计性质;
2 具有良好的性能;
3 计算方便.
参数 Ô和 ã2的估计问题 (续)
对 ã2 的估计: Q/(n − q)是 ã2 的无偏估计.
回归系数 Ô线性假设的统计假设检验
假设H0 : LÔ = Õ,
其中 L ∈�s×q, rankL = s,且 Õ ∈�s 已知.
回归系数 Ô线性假设的统计假设检验 (续)
构造统计量
F =(QH0
−Q)/s
Q/(n − q),
其中 QH0是 H0 成立时的最小二乘残差,即
QH0=min
LÔ=Õ∥Y −XÔ∥2.
回归系数 Ô线性假设的统计假设检验 (续)
可以证明: 在假设 ê ∼ N(0,ã2In) 下, 当 H0
成立时,有F
H0∼ F(s,n − q).
回归方程和回归系数的显著性检验
检验问题: 第 301页的 H0 和 H(i)
0.
1 回归方程的显著性检验:
L = Im,Õ = 0;
2 回归系数的显著性检验:
L = [0, · · · ,0,1,0, · · · ,0],Õ = 0.
回归方程和回归系数的显著性检验 (续)
检验统计量:
F =U/m
Q/(n − q)H0∼ F(m,n − q)
Fi =Pi
Q/(n − q)H
(i)
0∼ F(1,n − q), i = 1, · · · ,m,
其中, U = QH0−Q,Pi = Qi −Q.
因此,关键是计算 QH0和 Qi .
回归方程和回归系数的显著性检验 (续)
命题考虑假设
H0 : Ls×qÔq×q = Õq×1,
其中 rankL = s. 在假设 H0 下必有
QH0−Q = (LÔ̂ −Õ)T
(L(XTX)(1,2)LT
)(1,2)(LÔ̂ −Õ).
该命题给出了 U = QH0−Q 的直接计算方法.
还需考虑 Qi 的计算方法.
问 题?
目录
1 引言线性模型回归分析最小二乘法
2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析
目录
1 引言线性模型回归分析最小二乘法
2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析
Ô̂和 Q 的计算
先构造矩阵
S = [X |Y]T[X |Y] =[XTX XTY
YTX YTY
]其中, X ∈�n×q,q = m +1.
Ô̂和 Q 的计算 (续)
对 S 使用广义消去变换 G2Ti ,可得
(G2Tq) · · ·(G2T1)S =[(XTX)(1,2) (XTX)(1,2)XTY
−YTX(XTX)(1,2) YTY − YTX(XTX)(1,2)XTY
].
Ô̂和 Q 的计算 (续)
由于Ô̂ = (XTX)(1,2)XTY
是 Ô 的一个最小二乘估计,且
Q = ∥Y −XÔ̂∥22
= (Y −X(XTX)(1,2)XTY)T
· (Y −X(XTX)(1,2)XTY)
= YTY − YTX(XTX)(1,2)XTY
Ô̂和 Q 的计算 (续)
因此,
(G2Tq) · · ·(G2T1)S =
[(XTX)(1,2) Ô̂−Ô̂T Q
]即由消去变换就可同时求出 Ô̂ 和 Q.
Ô̂和 Q 的计算 (续)
特别地, 若 rankX = q, 即 X 是满列秩的,
XTX 可逆, 于是广义消去变换成为通常的消去变换,且
Tq · · ·T1S =
[(XTX)−1 Ô̂−Ô̂T Q
]其中 Ô̂ = (XTX)−1XTY.
Ô̂和 Q 的计算 (续)
综合以上分析可得 Ô̂ 和 Q 的算法:
1 教材第 299页定理 2.1 (满列秩情形);
2 教材第 300页定理 2.2 (一般情形).
假设检验
检验问题: 第 301页.
1 回归方程的显著性检验:
L = I ,Õ = 0;
2 回归系数的显著性检验:
L = [0, · · · ,0,1,0, · · · ,0],Õ = 0.
假设检验 (续)
检验统计量 (第 301页):
F =(QH0
−Q)/m
Q/(n −m −1),Fi =
Qi −QQ/(n −m −1)
,
其中1 Q 表示全部变量均在线性回归模型中时的最小二乘残差平方和;
2 QH0表示全部变量均不在线性回归模型中时
的最小二乘残差平方和;
3 Qi 表示变量 xi 未在回归模型中时的最小二乘残差平方和.
假设检验 (续)
在假设 H0和 H(i)
0分别成立的条件下,可以证
明检验统计量的分布满足:
F ∼ F(m,n −m −1),Fi ∼ F(1,n −m −1).
以下考虑 F 和 Fi 的计算, 关键是 QH0−Q 和
Qi −Q 的计算.
QH0的直接计算
命题考虑假设
H0 : Ls×qÔq×1 = Õs×1,
其中 rankL = s. 在假设 H0 成立下必有
QH0−Q = (LÔ̂ −Õ)T
(L(XTX)(1,2)LT
)(1,2)(LÔ̂ −Õ).
上述命题给出了 QH0−Q 的一种直接计算方
法.
作业
教材第 343页 6.1.
Qi 的计算
下面考虑 Qi 的计算方法.
这里采用消去变换.
Qi 的计算 (续)
回忆: 当全部自变量均在线性模型中时, Q 是通过 q = m +1 个消去变换 Tq · · ·T1S 获得的. 即是说: 变量 x1, · · · ,xq 在模型中时, 就需要施行消去变换 T1, · · · ,Tq .
因此, 当假设 H(i)
0: Ôi = 0成立时, 变量 xi 未
出现在模型中, 则不施行消去变换 Ti ; 反之, 若 xi出现在模型中,则需施行消去变换 Ti .
Qi 的计算 (续)
定理第 301页定理 2.3.
定理第 302页定理 2.4.
目录
1 引言线性模型回归分析最小二乘法
2 基于正规方程的回归分析方法用消去变换作回归分析用 Cholesky分解作回归分析
用 Cholesky分解作回归分析
设 S 为对称正定阵, 可对 S 进行 Cholesky
分解为 [XTX XTY
YTX YTY
]=
[TT 0
tTy tyy
][T ty0T tyy
],
其中 T 为 q × q 阶上三角阵. 于是
XTX = TTT ,
XTY = TTty ,
YTY = tTy ty + t2yy .
用 Cholesky分解作回归分析 (续)
从而
Ô̂ = (XTX)−1XTY = T−1ty ,
Q = t2yy ,
QH0−Q = (LÔ̂ −Õ)T
(LT−1T−TLT
)−1(LÔ̂ −Õ).
于是可得教材第 303页算法 2.1.
注: 对于 QH0−Q, 教材 (2.7) 式需要计算非
三角矩阵之逆, 计算复杂度较高, 因此考虑将其分解后再处理.
问 题?