Upload
ting
View
86
Download
7
Embed Size (px)
DESCRIPTION
线性回归中的模型选择. 多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的? 否 因为: 预测准确性: 当回归模型中变量增多时,预测的偏差的低但方差高(过拟合) 可解释性 :当回归模型中的预测子数目很多时,模型很难解释 希望找到效果更明显的少数预测子. 模型选择. 模型选择 模型评估:用一些指标来衡量每个模型 解析计算: AIC/BIC/MDL 模拟计算:交叉验证 /bootstap 模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型 模型空间不大:穷举搜索 否则:贪心搜索 前向 / 后向 / 双向逐步 - PowerPoint PPT Presentation
Citation preview
1
线性回归中的模型选择 多元回归分析中,输入特征可能有许多,这些特
征对模型都是必须的? 否
因为: 预测准确性:当回归模型中变量增多时,预测的偏差
的低但方差高(过拟合) 可解释性:当回归模型中的预测子数目很多时,模型
很难解释
希望找到效果更明显的少数预测子
2
模型选择 模型选择
模型评估:用一些指标来衡量每个模型 解析计算: AIC/BIC/MDL 模拟计算:交叉验证 /bootstap
模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型 模型空间不大:穷举搜索 否则:贪心搜索
前向 / 后向 / 双向逐步 上述模型选择是离散的,亦称子集选择。另一类方法为连
续的收缩方法 岭回归 Lasso
3
回顾:线性回归模型 假定 不依赖于 x:
其中 模型类型:参数模型 损失:平方误差损失 参数选择:训练数据上的最小平方误差(最小二乘,在高
斯噪声假设下, = 极大似然 ) 计算:矩阵求逆 /QR 分解 模型选择: AIC/BIC
2| X x V
0
p
i i i ij j ij
Y X X
y X
2| 0, |i i i iX X E V
4
回顾:线性回归模型 最小二乘参数估计的结果:
点估计:
偏差:
方差:
的无偏估计为:
1ˆ T T
X X X y
12ˆ T
X XV
E
2
2 2
1
1ˆˆ
1
n
iin p
5
回顾:线性回归模型 预测结果:
点估计:
偏差:
方差
其中 是固有的,与参数的估计 无关。对不同的估计 ,得到的预测的方差不同( 不同)
22 2ˆ ˆ ˆ|n Y Y X x MSE Y E
ˆˆ |Y X x x x E E
ˆMSE Y
ˆˆ ˆ|Y X x r x x
ˆˆ |Y X x x V V
2
6
子集选择 只保留变量的一个子集,将其余变量从模型中删除
(将其系数置为 0 )
当 p 较小时,可穷尽搜索最佳子集 对每个 ,其中 p 为变量的总数目,找出容
量为 k 的子集,计算每个模型的得分( AIC/BIC ) 具体算法参考 Furnival&Wilson 1974 容量较大的最佳子集不必包含容量较小的最佳子集
1,2,...,k p
7
AIC : Akaike Information Criterion
AIC 为模型 M 测试误差的一个估计:
其中 为在模型 M 对应的训练集数据的对数似然函数, p 为模型 M 中特征的数目
我们选择测试误差 最小的模型,等价于选择下述表达式最大的模型
Akaike, Hirotugu (December 1974). "A new look at the statistical model identification". IEEE Transactions on Automatic Control 19 (6):
2 2AIC M l M p
l M
AIC M
l M p
训练集上的拟合度 模型复杂度
8
AIC : Akaike Information Criterion
当假设高斯噪声时,
这样导出 AIC 另一种表示:
其中 为从一个低偏差估计的 MSE 估计 低偏差估计:复杂模型,即包括所有特征的模型
2
2 21
1 1ˆ2n
i ii
l M y f x RSS M
2
2
2
12 2 2
ˆ
ˆ = 2
AIC M l M p RSS M p
RSS M p
9
BIC : Bayesian Information Criterion
类似 AIC ,可用于极大对数似然实现的拟合中
所以
最小化 BIC ,等价于最大化
最小描述长度( MDL )的结论同 BIC
( ) 2 logBIC M l M n p
2ˆ2
ˆ ˆ( ) logˆ tr
n pBIC M R M n
n
Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics, 6, 461-464.
log
2
nl M p
10
前向逐步回归 从截距开始,每次增加一个特征
计算增加特征后每个模型的 AIC ,假设当前模型有 k 个输入特征,则其 AIC 为:
选择 AIC 最小的模型
直到 AIC 不再变小
2 2AIC M l M k
11
后向逐步回归 从包含所有特征的模型开始,每次去掉一个特征
计算去掉特征后每个模型的 AIC 选择 AIC 最小的模型
直到 AIC 不再变小
12
例:前列腺癌—后向逐步回归
所有变量都用: k = 8
去掉一个变量, k = 7 ,去掉变量后的 AIC 分别为
去掉最小 AIC 对应的特征,即去掉 gleason
2ˆ( ) 29.4264, 0.5074RSS M
2ˆ2 58l M RSS M
( ) 2 2 74AIC M l M k
lcavol lweight age lbphlbph svisvi lcplcp gleasongleason pgg45pgg45
100.7971100.7971 79.566879.5668 73.948673.9486 76.226576.2265 78.097278.0972 75.485475.4854 72.021572.0215 75.020175.0201
13
例:前列腺癌—后向逐步回归(续)
最小 AIC 为 72.0215 ,再继续去掉一个变量: k = 6
此时最小的 AIC ( 72.1945 )也比 72.0215 大, 不过也没比 72.0215 大多少
所以根据 AIC 准则,用后向逐步回归最后选择的模型为 k=7
lcavol lweight age lbphlbph svisvi lcplcp pgg45pgg45
99.364899.3648 77.915077.9150 72.194572.1945 74.230574.2305 76.262776.2627 73.487173.4871 74.703774.7037
14
例:前列腺癌—后向逐步回归(续)
如果不停止,而是继续后向逐步回归,直到删除所有特征,则接下来删除的特征及其对应的 AIC 分别为 k=7, 删除 gleason, AIC= 72.0215 k=6, 删除 age, AIC= 72.1945 k=5, 删除 lcp, AIC= 73.2095 k=4, 删除 pgg45, AIC= 72.6790 k=3, 删除 lbph, AIC= 74.8309 k=2, 删除 svi, AIC= 77.1088 k=1, 删除 lweight, AIC= 89.7667 k=0, 删除 lcavol, AIC= 189.7727
15
例:前列腺癌—后向逐步回归(续)
:模型与训练集的拟合程度 模型越复杂,与训练数据拟合得越好,但可能过拟合
AIC :测试误差的估计,与训练集的拟合程度和模型复杂度都有关
22l M RSS M
16
例:前列腺癌—前向逐步回归
不用任何变量: k = 0
增加一个变量, k = 1 ,增加变量后的 AIC 分别为
增加最小 AIC 对应的特征,即 lcavol
2ˆ( ) 96.2814, 0.5074RSS M
2ˆ2 189.7227l M RSS M
( ) 2 2 189.7227AIC M l M k
lcavol lweight age lbphlbph svisvi lcplcp gleasongleason pgg45pgg45
89.766789.7667 147.0938147.0938 181.9385181.9385 132.9199132.9199 178.6525178.6525 146.3563146.3563 169.5205169.5205 153.6764153.6764
17
例:前列腺癌—前向逐步回归(续)
最小 AIC 为 89.2667 ,再继续增加一个变量: k =2
增加最小 AIC 对应的特征,即 lweight
再继续增加一个变量: k =3
增加最小 AIC 对应的特征,即 svi
lweight age lbphlbph svisvi lcplcp gleasongleason pgg45pgg45
77.108877.1088 91.701891.7018 82.825682.8256 87.399087.3990 91.646591.6465 91.560891.5608 89.587889.5878
age lbphlbph svisvi lcplcp gleasongleason pgg45pgg45
78.567578.5675 76.986676.9866 74.803974.8039 79.104779.1047 78.254678.2546 75.841275.8412
18
例:前列腺癌—前向逐步回归(续)
最小 AIC 为 74.8039 ,再继续增加一个变量: k =4
增加最小 AIC 对应的特征,即 lbph
再继续增加一个变量: k =5
此时 AIC 不再变小,最终选择的模型为 k=4
age lbphlbph lcplcp gleasongleason pgg45pgg45
76.4183 76.4183 72.679072.6790 75.554175.5541 76.210576.2105 75.160875.1608
age lcplcp gleasongleason pgg45pgg45
73.633373.6333 73.709073.7090 74.327974.3279 73.209573.2095
19
测试误差的模拟计算 模型评估与选择:
1 、选择模型调整参数的值 2 、估计给定模型的预测性能
最好有一个独立的测试集 对 1 ,校验集 对 2 ,测试集
但通常没有足够多的数据来构造校验集 / 测试集,在这种情况下,我们通过重采样技术来模拟校验集。 交叉验证和 bootstrap 是重采样技术的两个代表
20
K-折交叉验证 用于估计模型的调整参数 (如子集的容量 k ) 思想与 jackknife 类似
将数据分成容量大致相等的 K份(通常 K=5/10 )
21
K-折交叉验证 对每个 ,取调整参数为 ,每次留出第 k份数据,其余 K-1份数据用于训练,得到参数的估计 ,并计算第 k份数据的预测误差:
交叉验证的误差为
对多个不同的 ,计算其对应的误差 ,最佳模型为 最小的模型。
1,2,...,k K
ˆ k
1
1 K
kk
CVK
E
2
1 ˆth
kk i ii k part
y xn k
E
CV
CV
22
K-折交叉验证 在子集选择的例子中, 为子集的容量
为子集容量为 的最佳子集的系数(训练数据为除了第 k份数据的其他 K-1份数据)
为该最佳子集的测试误差的一个估计
K-折交叉验证的测试误差的估计为
ˆ k
k E
1
1 K
kk
CVK
E
23
例:前列腺癌—交叉验证
10折交叉验证, K=10 训练集: 67 个数据点 校验集:每次从 67 个训练数据中留出 7 个数据点( 10-折)
最佳模型:测试误差在最小测试 误差的一倍以内的最简单模型
最小测试误差最佳模型
最佳测试误差 +1倍方差
24
回顾:线性回归模型 预测结果:
点估计:
偏差:
方差:
在所有的无偏估计中,最小二乘估计的方差最小 但可能存在有偏估计,其 MSE 比最小二乘估计的
MSE 小
22 2ˆ ˆ ˆ|n Y Y X x MSE Y E
ˆˆ |Y X x x x E E
ˆˆ ˆ|Y X x r x x
ˆˆ |Y X x x V V
2 2 ˆ ˆbias Y Y V
25
岭回归(Ridge Regression)
现在考虑我们要最小化一个修正的函数:
由原来 RSS 加上一项惩罚权向量大小的项, 是一个复杂度参数,控制收缩量 /正则量
等价于:
其中 s取代了 的功能 解为:
仍然是 y 的线性组合 如果输入时正交的 :
2
2
1 0 1
p pnT T
ridge i ij j ji j j
RSS
RSS y X
y X y X
正则项
2
2
1 0 1
ˆ arg min , p pn
ridgei ij j j
i j j
y X s
满足
1ˆ ridge T TIX X X y
ˆ ˆ , 0 1,ridge LS 为 的函数
26
岭回归:为什么? 当矩阵 奇异时,最小二乘的结果变得很坏
当自变量系统中存在多重相关性时,它们的系数确定性变差,这种不确定性增加了方差(如一个大的权重可以被一个相关的特征上的负权重平衡)
当矩阵 A奇异时,一些特征值 ,从而使得 很大,表示 与 β 之间的偏差很大。同时 也很大,表示结果不稳定
岭回归在矩阵 求逆之前,将一个正的常数加到 A的对角线上,使得问题非奇异
12ˆ ~ , TN X X
22
1
1ˆp
j j
E
24
21
1ˆp
j j
V
,其中 为矩阵 的特征值j TA X X
TA X X
0j 2
E 2
V
TA X X 1ˆ ridge T TIX X X y
27
岭回归:为什么? 从贝叶斯的观点:正则项可视为参数的先验
如果假设 ,并且每个 都符合先验分布 ,岭回归也可以被看作是从后验分布得到的。那么 的负 log 后验密度就是 ,其中
2~ ,Ti iy N x
j 20,N
redgeRSS 2 2
28
奇异值分解 (SVD)
U 的列生成 X 的列空间, V 的列生成 X 的行空间
用 SVD 的形式分解:
1 2, ...Tpd d d X = UDV D为对角矩阵,且
: , : , :n p n p p p X U V的正交矩阵 的正交矩阵
y 相对 U 基的坐标
y 相对 U 基的收缩坐标
越小的基,收缩得越多
越小的基,收缩得越多
jd
模型的复杂度参数(有效自由度):
1ˆˆ T T Ty X X X X X y UU y
1 12ˆˆ ridge T T Ty X X X X I X y UD D I DU y
2
21
pj
j jj j
d
d
u u y
2
21
pj
j j
ddf
d
29
与主成分的关系 用 SVD 的形式:
特征向量 为 X 的主成分方向
2T TX X = VD V 特征值分解jv
主成分X 列向量的线性组合
归一化的主成分
j j j jz Xv u d 2j
j j
dz Xv
n V V
较小的 值对应有较小方差的 X 的列空间方向,收缩最多2jd
岭回归假设在高方差的输入方向上,响应会变化大,因此避免小方差的X 上的 Y 的大的变化
30
与主成分的关系 X 的 SVD 分解:
所以
X进行 SVD 分解后,对所有的 λ都可利用
TX = UDV
1ˆ ridge T TIX X X y
2T TX X = VD V
1ˆ ridge T TIX X X y
12 T TV D I V DU y
12 TV D I DU y
31
例:前列腺癌——岭回归
1T Tdf tr X X X I X
2
21
pj
j j
d
d
32
例:前列腺癌——岭回归
最佳测试误差最佳模型
最佳测试误差 +1倍方差
33
Lasso
类似岭回归,最小化
等价于
将岭回归中的惩罚项 用 代替 使得解为 y 的非线性组合,计算时用二次规划算法 如果 t 选择为足够小,会使得一些系数等于 0 。
2
1 0 1
p pn
i ij j ji j j
RSS
y X
正则项
1 1
ˆ arg min , pn
Tlassoj
i j
t
y X y X 满足
j2j
选择最小期望测试误差的 t
34
例:前列腺癌—— Lasso
最佳测试误差最佳模型
最佳测试误差 +1倍方差
1
ˆp
jj
s t
35
例:前列腺癌—— Lasso
Lasso会使某些系数 =0而岭回归不会
36
例:前列腺癌——不同正则化方法
37
收缩估计族 考虑标准
不同 q 对应的 的轮廓线为
在贝叶斯框架下, 可视为 的负的 log先验
2
1 1
ˆ arg min , pn q
i i ji j
Y X s
满足
1
pq
jj
q
j j
38
收缩估计族 在贝叶斯框架下, Lasso 、岭回归和最佳子集选
择表现为选择的先验分布不同
估计的结果都为贝叶斯估计:众数(最大后验) 岭回归同时也是后验均值(高斯分布的众数也是均
值)
39
下节课内容 概率密度估计
[Wasserman] Chp19
40
RegularizationRegularization Regularization: add model complexity penalty to Regularization: add model complexity penalty to
training error.training error.
for some constant Cfor some constant C Now Now Regularization forces weights to be small, but does it Regularization forces weights to be small, but does it
force weights to be exactly force weights to be exactly zerozero? ? is equivalent to removing feature f from the modelis equivalent to removing feature f from the model
41
LL11 vs L vs L22 regularization regularization
42
LL11 vs L vs L22 regularization regularization To minimize , we can solve To minimize , we can solve
by (e.g.) gradient descent. by (e.g.) gradient descent.
Minimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms
43
LL11 vs L vs L22 regularization regularization To minimize , we can solve To minimize , we can solve
by (e.g.) gradient descent. by (e.g.) gradient descent.
Minimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms
44
LL11 vs L vs L22 regularization regularization To minimize , we can solve To minimize , we can solve
by (e.g.) gradient descent. by (e.g.) gradient descent.
Minimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms
45
LL11 vs L vs L22 regularization regularization To minimize , we can solve To minimize , we can solve
by (e.g.) gradient descent. by (e.g.) gradient descent.
Minimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms w is forced into the corners—many components 0w is forced into the corners—many components 0
Solution is Solution is sparsesparse
46
LL11 vs L vs L22 regularization regularization To minimize , we can solve To minimize , we can solve
by (e.g.) gradient descent. by (e.g.) gradient descent.
Minimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms
47
LL11 vs L vs L22 regularization regularization To minimize , we can solve To minimize , we can solve
by (e.g.) gradient descent. by (e.g.) gradient descent.
Minimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms LL22 regularization does not promote sparsity regularization does not promote sparsity Even without sparsityEven without sparsity, regularization promotes generalization, regularization promotes generalization
—limits expressiveness of model—limits expressiveness of model
48
Lasso Regression Lasso Regression [Tibshirani ‘94][Tibshirani ‘94]
Simply linear regression with an LSimply linear regression with an L1 1 penalty for penalty for
sparsity.sparsity.
Two big questions:Two big questions: 1. How do we perform this minimization? 1. How do we perform this minimization?
With LWith L22 penalty it’s easy—saw this in a previous lecture penalty it’s easy—saw this in a previous lecture
With LWith L11 it’s not a least-squares problem any more it’s not a least-squares problem any more
2. How do we choose C?2. How do we choose C?
49
Least-Angle RegressionLeast-Angle Regression Up until a few years ago Up until a few years ago
this was not trivialthis was not trivial Fitting model: optimization Fitting model: optimization
problem, harder than least-problem, harder than least-squaressquares
Cross validation to choose C: Cross validation to choose C: must fit model for every must fit model for every candidate C valuecandidate C value
Not with LARS! (Least Not with LARS! (Least Angle Regression, Hastie et Angle Regression, Hastie et al, 2004)al, 2004) Find trajectory of w for all Find trajectory of w for all
possible C values possible C values simultaneously, as efficiently simultaneously, as efficiently as least-squaresas least-squares
Can choose exactly how Can choose exactly how many features are wantedmany features are wanted
Figure taken from Hastie et al (2004)