线性回归中的模型选择

1

线性回归中的模型选择多元回归分析中，输入特征可能有许多，这些特

征对模型都是必须的？否

因为：预测准确性：当回归模型中变量增多时，预测的偏差

的低但方差高（过拟合）可解释性：当回归模型中的预测子数目很多时，模型

很难解释

希望找到效果更明显的少数预测子

2

模型选择模型选择

模型评估：用一些指标来衡量每个模型解析计算： AIC/BIC/MDL 模拟计算：交叉验证 /bootstap

模型搜索：在模型空间中搜索，找到在某个衡量指标下最优的模型模型空间不大：穷举搜索否则：贪心搜索

前向 / 后向 / 双向逐步上述模型选择是离散的，亦称子集选择。另一类方法为连

续的收缩方法岭回归 Lasso

3

回顾：线性回归模型假定不依赖于 x:

其中模型类型：参数模型损失：平方误差损失参数选择：训练数据上的最小平方误差（最小二乘，在高

斯噪声假设下， = 极大似然）计算：矩阵求逆 /QR 分解模型选择： AIC/BIC

2| X x V

0

p

i i i ij j ij

Y X X

y X

2| 0, |i i i iX X E V

4

回顾：线性回归模型最小二乘参数估计的结果：

点估计：

偏差：

方差：

的无偏估计为：

1ˆ T T

X X X y

12ˆ T

X XV

E

2

2 2

1

1ˆˆ

1

n

iin p

5

回顾：线性回归模型预测结果：

点估计：

偏差：

方差

其中是固有的，与参数的估计无关。对不同的估计，得到的预测的方差不同（不同）

22 2ˆ ˆ ˆ|n Y Y X x MSE Y E

ˆˆ |Y X x x x E E

ˆMSE Y

ˆˆ ˆ|Y X x r x x

ˆˆ |Y X x x V V

2

6

子集选择只保留变量的一个子集，将其余变量从模型中删除

（将其系数置为 0 ）

当 p 较小时，可穷尽搜索最佳子集对每个，其中 p 为变量的总数目，找出容

量为 k 的子集，计算每个模型的得分（ AIC/BIC ）具体算法参考 Furnival&Wilson 1974 容量较大的最佳子集不必包含容量较小的最佳子集

1,2,...,k p

7

AIC ： Akaike Information Criterion

AIC 为模型 M 测试误差的一个估计：

其中为在模型 M 对应的训练集数据的对数似然函数， p 为模型 M 中特征的数目

我们选择测试误差最小的模型，等价于选择下述表达式最大的模型

Akaike, Hirotugu (December 1974). "A new look at the statistical model identification". IEEE Transactions on Automatic Control 19 (6):

2 2AIC M l M p

l M

AIC M

l M p

训练集上的拟合度模型复杂度

8

AIC ： Akaike Information Criterion

当假设高斯噪声时，

这样导出 AIC 另一种表示：

其中为从一个低偏差估计的 MSE 估计低偏差估计：复杂模型，即包括所有特征的模型

2

2 21

1 1ˆ2n

i ii

l M y f x RSS M

2

2

2

12 2 2

ˆ

ˆ = 2

AIC M l M p RSS M p

RSS M p

9

BIC ： Bayesian Information Criterion

类似 AIC ，可用于极大对数似然实现的拟合中

所以

最小化 BIC ，等价于最大化

最小描述长度（ MDL ）的结论同 BIC

( ) 2 logBIC M l M n p

2ˆ2

ˆ ˆ( ) logˆ tr

n pBIC M R M n

n

Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics, 6, 461-464.

log

2

nl M p

10

前向逐步回归从截距开始，每次增加一个特征

计算增加特征后每个模型的 AIC ，假设当前模型有 k 个输入特征，则其 AIC 为：

选择 AIC 最小的模型

直到 AIC 不再变小

2 2AIC M l M k

11

后向逐步回归从包含所有特征的模型开始，每次去掉一个特征

计算去掉特征后每个模型的 AIC 选择 AIC 最小的模型

直到 AIC 不再变小

12

例：前列腺癌—后向逐步回归

所有变量都用： k = 8

去掉一个变量， k = 7 ，去掉变量后的 AIC 分别为

去掉最小 AIC 对应的特征，即去掉 gleason

2ˆ( ) 29.4264, 0.5074RSS M

2ˆ2 58l M RSS M

( ) 2 2 74AIC M l M k

lcavol lweight age lbphlbph svisvi lcplcp gleasongleason pgg45pgg45

100.7971100.7971 79.566879.5668 73.948673.9486 76.226576.2265 78.097278.0972 75.485475.4854 72.021572.0215 75.020175.0201

13

例：前列腺癌—后向逐步回归（续）

最小 AIC 为 72.0215 ，再继续去掉一个变量： k = 6

此时最小的 AIC （ 72.1945 ）也比 72.0215 大，不过也没比 72.0215 大多少

所以根据 AIC 准则，用后向逐步回归最后选择的模型为 k=7

lcavol lweight age lbphlbph svisvi lcplcp pgg45pgg45

99.364899.3648 77.915077.9150 72.194572.1945 74.230574.2305 76.262776.2627 73.487173.4871 74.703774.7037

14


如果不停止，而是继续后向逐步回归，直到删除所有特征，则接下来删除的特征及其对应的 AIC 分别为 k=7, 删除 gleason, AIC= 72.0215 k=6, 删除 age, AIC= 72.1945 k=5, 删除 lcp, AIC= 73.2095 k=4, 删除 pgg45, AIC= 72.6790 k=3, 删除 lbph, AIC= 74.8309 k=2, 删除 svi, AIC= 77.1088 k=1, 删除 lweight, AIC= 89.7667 k=0, 删除 lcavol, AIC= 189.7727

15


：模型与训练集的拟合程度模型越复杂，与训练数据拟合得越好，但可能过拟合

AIC ：测试误差的估计，与训练集的拟合程度和模型复杂度都有关

22l M RSS M

16

例：前列腺癌—前向逐步回归

不用任何变量： k = 0

增加一个变量， k = 1 ，增加变量后的 AIC 分别为

增加最小 AIC 对应的特征，即 lcavol

2ˆ( ) 96.2814, 0.5074RSS M

2ˆ2 189.7227l M RSS M

( ) 2 2 189.7227AIC M l M k

lcavol lweight age lbphlbph svisvi lcplcp gleasongleason pgg45pgg45

89.766789.7667 147.0938147.0938 181.9385181.9385 132.9199132.9199 178.6525178.6525 146.3563146.3563 169.5205169.5205 153.6764153.6764

17

例：前列腺癌—前向逐步回归（续）

最小 AIC 为 89.2667 ，再继续增加一个变量： k =2

增加最小 AIC 对应的特征，即 lweight

再继续增加一个变量： k =3

增加最小 AIC 对应的特征，即 svi

lweight age lbphlbph svisvi lcplcp gleasongleason pgg45pgg45

77.108877.1088 91.701891.7018 82.825682.8256 87.399087.3990 91.646591.6465 91.560891.5608 89.587889.5878

age lbphlbph svisvi lcplcp gleasongleason pgg45pgg45

78.567578.5675 76.986676.9866 74.803974.8039 79.104779.1047 78.254678.2546 75.841275.8412

18

例：前列腺癌—前向逐步回归（续）

最小 AIC 为 74.8039 ，再继续增加一个变量： k =4

增加最小 AIC 对应的特征，即 lbph

再继续增加一个变量： k =5

此时 AIC 不再变小，最终选择的模型为 k=4

age lbphlbph lcplcp gleasongleason pgg45pgg45

76.4183 76.4183 72.679072.6790 75.554175.5541 76.210576.2105 75.160875.1608

age lcplcp gleasongleason pgg45pgg45

73.633373.6333 73.709073.7090 74.327974.3279 73.209573.2095

19

测试误差的模拟计算模型评估与选择：

1 、选择模型调整参数的值 2 、估计给定模型的预测性能

最好有一个独立的测试集对 1 ，校验集对 2 ，测试集

但通常没有足够多的数据来构造校验集 / 测试集，在这种情况下，我们通过重采样技术来模拟校验集。交叉验证和 bootstrap 是重采样技术的两个代表

20

K-折交叉验证用于估计模型的调整参数（如子集的容量 k ）思想与 jackknife 类似

将数据分成容量大致相等的 K份（通常 K=5/10 ）

21

K-折交叉验证对每个，取调整参数为，每次留出第 k份数据，其余 K-1份数据用于训练，得到参数的估计，并计算第 k份数据的预测误差：

交叉验证的误差为

对多个不同的，计算其对应的误差，最佳模型为最小的模型。

1,2,...,k K

ˆ k

1

1 K

kk

CVK

E

2

1 ˆth

kk i ii k part

y xn k

E

CV

CV

22

K-折交叉验证在子集选择的例子中，为子集的容量

为子集容量为的最佳子集的系数（训练数据为除了第 k份数据的其他 K-1份数据）

为该最佳子集的测试误差的一个估计

K-折交叉验证的测试误差的估计为

ˆ k

k E

1

1 K

kk

CVK

E

23

例：前列腺癌—交叉验证

10折交叉验证， K=10 训练集： 67 个数据点校验集：每次从 67 个训练数据中留出 7 个数据点（ 10-折）

最佳模型：测试误差在最小测试误差的一倍以内的最简单模型

最小测试误差最佳模型

最佳测试误差 +1倍方差

24

回顾：线性回归模型预测结果：

点估计：

偏差：

方差：

在所有的无偏估计中，最小二乘估计的方差最小但可能存在有偏估计，其 MSE 比最小二乘估计的

MSE 小

22 2ˆ ˆ ˆ|n Y Y X x MSE Y E

ˆˆ |Y X x x x E E

ˆˆ ˆ|Y X x r x x

ˆˆ |Y X x x V V

2 2 ˆ ˆbias Y Y V

25

岭回归(Ridge Regression)

现在考虑我们要最小化一个修正的函数：

由原来 RSS 加上一项惩罚权向量大小的项，是一个复杂度参数，控制收缩量 /正则量

等价于：

其中 s取代了的功能解为：

仍然是 y 的线性组合如果输入时正交的 :

2

2

1 0 1

p pnT T

ridge i ij j ji j j

RSS

RSS y X

y X y X

正则项

2

2

1 0 1

ˆ arg min , p pn

ridgei ij j j

i j j

y X s

满足

1ˆ ridge T TIX X X y

ˆ ˆ , 0 1,ridge LS 为的函数

26

岭回归：为什么？当矩阵奇异时，最小二乘的结果变得很坏

当自变量系统中存在多重相关性时，它们的系数确定性变差，这种不确定性增加了方差（如一个大的权重可以被一个相关的特征上的负权重平衡）

当矩阵 A奇异时，一些特征值，从而使得很大，表示与 β 之间的偏差很大。同时也很大，表示结果不稳定

岭回归在矩阵求逆之前，将一个正的常数加到 A的对角线上，使得问题非奇异

12ˆ ~ , TN X X

22

1

1ˆp

j j

E

24

21

1ˆp

j j

V

，其中为矩阵的特征值j TA X X

TA X X

0j 2

E 2

V

TA X X 1ˆ ridge T TIX X X y

27

岭回归：为什么？从贝叶斯的观点：正则项可视为参数的先验

如果假设，并且每个都符合先验分布，岭回归也可以被看作是从后验分布得到的。那么的负 log 后验密度就是，其中

2~ ,Ti iy N x

j 20,N

redgeRSS 2 2

28

奇异值分解 (SVD)

U 的列生成 X 的列空间， V 的列生成 X 的行空间

用 SVD 的形式分解：

1 2, ...Tpd d d X = UDV D为对角矩阵，且

: , : , :n p n p p p X U V的正交矩阵的正交矩阵

y 相对 U 基的坐标

y 相对 U 基的收缩坐标

越小的基，收缩得越多

越小的基，收缩得越多

jd

模型的复杂度参数（有效自由度）：

1ˆˆ T T Ty X X X X X y UU y

1 12ˆˆ ridge T T Ty X X X X I X y UD D I DU y

2

21

pj

j jj j

d

d

u u y

2

21

pj

j j

ddf

d

29

与主成分的关系用 SVD 的形式：

特征向量为 X 的主成分方向

2T TX X = VD V 特征值分解jv

主成分X 列向量的线性组合

归一化的主成分

j j j jz Xv u d 2j

j j

dz Xv

n V V

较小的值对应有较小方差的 X 的列空间方向，收缩最多2jd

岭回归假设在高方差的输入方向上，响应会变化大，因此避免小方差的X 上的 Y 的大的变化

30

与主成分的关系 X 的 SVD 分解：

所以

X进行 SVD 分解后，对所有的 λ都可利用

TX = UDV


2T TX X = VD V


12 T TV D I V DU y

12 TV D I DU y

31

例：前列腺癌——岭回归

1T Tdf tr X X X I X

2

21

pj

j j

d

d

32

例：前列腺癌——岭回归

最佳测试误差最佳模型


33

Lasso

类似岭回归，最小化

等价于

将岭回归中的惩罚项用代替使得解为 y 的非线性组合，计算时用二次规划算法如果 t 选择为足够小，会使得一些系数等于 0 。

2

1 0 1

p pn

i ij j ji j j

RSS

y X

正则项

1 1

ˆ arg min , pn

Tlassoj

i j

t

y X y X 满足

j2j

选择最小期望测试误差的 t

34

例：前列腺癌—— Lasso

最佳测试误差最佳模型


1

ˆp

jj

s t

35

例：前列腺癌—— Lasso

Lasso会使某些系数 =0而岭回归不会

36

例：前列腺癌——不同正则化方法

37

收缩估计族考虑标准

不同 q 对应的的轮廓线为

在贝叶斯框架下，可视为的负的 log先验

2

1 1

ˆ arg min , pn q

i i ji j

Y X s

满足

1

pq

jj

q

j j

38

收缩估计族在贝叶斯框架下， Lasso 、岭回归和最佳子集选

择表现为选择的先验分布不同

估计的结果都为贝叶斯估计：众数（最大后验）岭回归同时也是后验均值（高斯分布的众数也是均

值）

39

下节课内容概率密度估计

[Wasserman] Chp19

40

RegularizationRegularization Regularization: add model complexity penalty to Regularization: add model complexity penalty to

training error.training error.

for some constant Cfor some constant C Now Now Regularization forces weights to be small, but does it Regularization forces weights to be small, but does it

force weights to be exactly force weights to be exactly zerozero? ? is equivalent to removing feature f from the modelis equivalent to removing feature f from the model

41

LL11 vs L vs L22 regularization regularization

42

LL11 vs L vs L22 regularization regularization To minimize , we can solve To minimize , we can solve

by (e.g.) gradient descent. by (e.g.) gradient descent.

Minimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms

43




44




45



Minimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms w is forced into the corners—many components 0w is forced into the corners—many components 0

Solution is Solution is sparsesparse

46




47



Minimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms LL22 regularization does not promote sparsity regularization does not promote sparsity Even without sparsityEven without sparsity, regularization promotes generalization, regularization promotes generalization

—limits expressiveness of model—limits expressiveness of model

48

Lasso Regression Lasso Regression [Tibshirani ‘94][Tibshirani ‘94]

Simply linear regression with an LSimply linear regression with an L1 1 penalty for penalty for

sparsity.sparsity.

Two big questions:Two big questions: 1. How do we perform this minimization? 1. How do we perform this minimization?

With LWith L22 penalty it’s easy—saw this in a previous lecture penalty it’s easy—saw this in a previous lecture

With LWith L11 it’s not a least-squares problem any more it’s not a least-squares problem any more

2. How do we choose C?2. How do we choose C?

49

Least-Angle RegressionLeast-Angle Regression Up until a few years ago Up until a few years ago

this was not trivialthis was not trivial Fitting model: optimization Fitting model: optimization

problem, harder than least-problem, harder than least-squaressquares

Cross validation to choose C: Cross validation to choose C: must fit model for every must fit model for every candidate C valuecandidate C value

Not with LARS! (Least Not with LARS! (Least Angle Regression, Hastie et Angle Regression, Hastie et al, 2004)al, 2004) Find trajectory of w for all Find trajectory of w for all

possible C values possible C values simultaneously, as efficiently simultaneously, as efficiently as least-squaresas least-squares

Can choose exactly how Can choose exactly how many features are wantedmany features are wanted

Figure taken from Hastie et al (2004)

Documents

线性回归中的模型选择