第五章自变量的选择

第五章自变量的选择

§5.1 引言 • 在实际问题中可以提出许多可能对因变量有影响的自变量，如何从中选择确实有影响的自变量来建立回归方程是一个十分重要的问题。如果方程中包含的自变量过多，那么不仅使用不便，还可能削弱估计和预测的精度，而自变量过少或选得不恰当，又会使所建立的模型与实际有偏离而不能使用。然而，自变量的选择又是一个十分复杂的问题，而涉及的计算量都很大，本章的目的是对自变量选择作一些理论分析，提出一些变量选择准则，并介绍有关的计算方法。

§5.2 自变量选择的后果在多元线性回归模型中，自变量的选择实质上就是模型的选

择。现设一切可供选择的变量是 t个 ,它们组成的回归模型称为全模型（记 1tm ）：

),0(~ 2nn IN

XY

其中：Y 是 1n 的观测值，是 1m 未知参数向量，X 是 mn

结构矩阵，并假定 X 的秩为m。

现从 txxx ,,, 21 这 t 个变量中选 t 变量，不妨设

txxx ,,, 21 ，那么对全模型中的参数和结构矩阵 X 可作如下

的分块（记： 1tp ）：

qp , ， qp XXX

下面的回归模型称为选模型：

),0(~ 2n

pp

IN

XY

其中：Y 是 1n 的观测值， p 是 1p 未知参数向量， pX 是 pn

结构矩阵，并假定 pX 的秩为 p。

自变量的选择问题可以看成是这样二个问题：

• 究竟应用全模型还是用选模型；• 若用选模型，则究竟应包含多少变量最适合。如果全模型为真，而我们用了选模型，这就表示在方程中丢掉了部分有用变量，相反，如果选模型为真，而我们选用了全模型，这就表示在方程中引入了一些无用变量，下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。

为了讨论方便起见，先引入几个记号：

全模型中参数 2, 的估计：

1ˆ ( ) 'X X X Y

2 11ˆ [ ( ) ]

( )Y I X X X X Y

n R X

其中： )(XR 为矩阵 X 的秩。在点 )( 1 txxx 点上的预

测值为 ˆy x

在选模型中参数 2, 的估计：

1

2 1

( )

1[ ( ) ]

( )

p p p p

p p p p pp

X X X Y

Y I X X X X Yn R X

在 ),(),()( 11 tppqp xxxxxxx 上的预测值

ppp xy ~~

为了证明下面的定理，先给出：

分块矩阵求逆公式：

设 A为非奇异的对称矩阵，且

DC

CBA ，

其中： qqDqpCppB :,:,: ，

则当 1B 或 1D 存在时有：

1111

111

111

11

111

1

11

11

11

111

)(

)(

CBCDBCD

CDBBCCDBB

CDBCDDBCD

CDBCCDB

DC

CBA

均方误差的概念

对无偏估计常用 ˆVar 来衡量估计量的好坏，而对有偏估计则相

应采用均方误差

)~

)(~

(~ EMSE

定理 5.2.1（对估计的影响）

（1）全模型为真时， ˆE ，除了 0q 或 0qp XX 外，

ppE ~

（2） ˆ( ) ( )p pD D 为非负定矩阵；

（3）当 qˆ( ) q qD 为非负定矩阵时，

)~

)(~

()ˆp ppppED （为非负定矩阵；

（4）时等号成立。仅当 0,ˆ~q

22 EE p

记：

DC

CB

XXXX

XXXXXX

qqpq

qppˆ

p ，

11

111 ˆDC

CBXX ）（

其中： pp XXB qp XXC qq XXD

证明：

（1）现认为全模型（5. 1）为真，则 ˆE （已证）；

1

1

1

1

1

( )

( ) ( ) ( )

( ) ( )

( )

p p p p

p

p p p p p p p qq

p p p p p q q

p P p p q q

p q

E X X X EY

X X X X X X X X X

X X X X X

X X X X

B C

只有当时或 0X0 p qq X ，才有 pE p

~，即 p

~ 在一般

情形下不再是无偏估计。因此，描述估计的好坏不能用有效性来

作为衡量标准。在估计是有偏的情况下，一般可用均方误差作为

标准。

（2）由1 11 2 2

1 1

ˆˆ( )

ˆp

q

B CD D X X

C D

（） ,知： 2

1ˆ( )pD B

又： 1 2 1 2( )p p pD X X B （）

由分块矩阵的逆可知： 111

11

BBCCDBB ，

11 1 11 ( ) (1 ( ) ) 0q p p p p qD D C B C X X X X X X

。

再利用：1 1 1

1 1

1 1 11 ( ) (1 ( ) )q q p p p q

B B CD C B B

D D C B C X X X X X X

为非负定矩阵

有： 211

12121

ˆ BCCDBBBD p ，且

1 1 21

ˆp pD D B CD C B 为非负定矩阵。

注：假如全模型为真的话，若误用选模型的话，从参数估计 p~ 的方差来

说反而减少了。

（3）由 qpp CBE 1~ 可知，

1 1

[( )( ) ]

( )( ) [( )( ) ]

( ) ( )( )

( )

p p p p

p p p p p p p p

p p p p p

p q q

E

E E E E E E

D E E

D B C C B

故有：

1 1

1 1 2 1 11

1 2 11

1 1

ˆ( ) [( )( ) ]

ˆ( )

( )

ˆ( )

p p p p p

p p q q

q q

q q

q q q

D E

D D B C C B

B CD C B B C C B

B C D C B

B C D C B

为非负定矩阵。

上述性质可说明被丢掉的自变量对应变量的

影响确实存在（ 0q ），但 q 难于准确估计或

影响不大，而回归系数的方差过大（方差过大可用

ˆ( ) 0q q qD 来表示），为了减少估计的均方

误差，删去这些变量对模型是有利的。

（4） 22ˆ E （已证明），

2 1p

1{ (I ( ) ) }

( ) p p p pp

E E Y X X X X Yn R X

11{( ( ) ) }

( ) p p p pp

tr I X X X X EYYn R X

1 21{( ( ) )( )}

( ) p p p p np

tr I X X X X I X Xn R X

2 11( ( ) )( )

( ) p p p pp

tr I X X X X X Xn R X

2 11( ( ) )

( ) p p P pp

X I X X X X Xn R X

2 1[ )( )( )]

( ) p p q q p p p q qp

X X I H X Xn R X

2 1[ ( ) ]

( ) q q p q qp

X I H Xn R X

上式的证明中用到

0)(,0)(,0)( ppppppp XHIHIXXHIX 。

由于 pI H 为非负定矩阵，故有： 0])1([ qqpqq XHX ，

由此可得：

222 ˆ~ EE p 。

从（4）可知，当全模型为真时，而实际上用了选模型，那么，用 2~p

不再是 2 的无偏估计，并且 22~ pE 。

定理 5.2.2（对预测的影响）

（1）当全模型为真，则 xyE ˆ ，除 0q 外 xyE p ~

（2） )~

()ˆ( ppxyDxyD

（3）当 ˆ( )q q qD 为非负定矩阵时， 2)~

()ˆ( ppxyExyD

证明：（1） xyE ˆ （已证明）。

qppp

qqpppppppp

CBxx

XXXXxxExE

1

1p )(

~y~

。

xx pp pq y~E0时，当 ,否则 xpy~E

（2）利用定理 5. 2. 1中的符号，有：

q

p

qp x

x

DC

CBxx

xXXxxDxDyxyD

11

112

12

)(1

))(1(ˆ)ˆ(

]1[ 11112

qqqppqpp xDxxCxxCxxBx

又 11

111

BCCDBBB

qqqppq

pppp

xDxxCxxCx

xBCCDBxxBxxyD

12

12

12

11

1212 ]1[)ˆ(

)1(

)(~

)~

(12

122

pp

ppppppppp

xBx

xXXxxDxDyxyD

)~

()ˆ( ppxyDxyD

][ 111

11

112

qqqppqpp xDxxCDBxxCDxxBCCDBx

0)()( 11

12 qpqp xxBCDxxBC

(3)由于 22 )]~

([)~

()~

( pppppp xyExyDxyE 又:

qpqqppppp CBXXXXE 11)(~

)()()]~

[(

)(

)~

(

112

11

1

pqqqpqpp

qpqqpqq

qppppp

xBCxxBCxxyE

xBCxCBxx

CBxxxxyE

2

2 1 11

1

1 2 11

ˆ( ) ( )

[( ) ( )]

[( ) ( )]

( ) ( )( ) 0

p p

q p q p

q p q q q p

q p q q q p

D y x E y x

x C B x D x C B x

x C B x x C Bx

x C B x D x C B x

注:由上述定理说明,若全模型为真的而误用选模型 ppx ~ 作为

值的预测的话,所得的估计是有偏的.但预测方差会有所下降。

而对有偏的估计，一般可用均方差去表明估计的好坏,在均方误差的意义下，预测的均方误差也是会下降。所以删去一些影响不

大，但回归系数方差过大的变量（用 ˆ( )q q qD 为非负定矩

阵来表示）,对预测精度的提高是有利的.

综合以上所述,一般我们尽可能使模型的变量少而精,要引入对 y有显著影响的变量,而对 y并不很显著的变量要删除,这

样不仅对估计而且对预测也有利.

§5.3 自变量选择准则若一个多元回归的问题中有 t可供选择的自变量，那么所有可能的回

归方程有 12 t 个，下面给出一些自变量选择的准则，希望能从 12 t 个回

归方程中选择一个最合理的方程. 先给出一些记号：

对全模型，记：

SST

SSERXXXXHYHIYSSE 1,)(,)( 21

对选模型，记：

SST

SSERXXXXHYHIYSSE p

pppppppp 1,)(,)( 21

前面已说明对一切 p有 22pp RRSSESSE ，即全模型

的残差平方和总达到最小，而复相关系数总达到最大，因此

残差平方和和复相关系数均不能作为选择变量的准则。下面

从不同的角度给出自变量选择的准则。

从模型拟合角度考虑.

准则 1 平均残差平方和达到最小.

pn

SSEPp

2~

pSSE 随 p的增加而减少,但 pn 也随 p的增加而减少。但前面的

ix ，由于其对 y的作用很显著,使 pSSE 减少得较快,能使pn

SSE p

随的 p

增加而减少,但当 ix 对 y的作用不明显时, 随差 p的增加， pSSE 减少的

很慢，而pn

1随 p的增加继续增加，这就使 ( )PSSE n p 随 p的增加

而增加，取 ( )PSSE n p 的最小值所对应的 p。当然相应入选 p个变量

是所有 t个变量是所有自变量中最显著的。（其显著性由计算 t统计量或 F

统计量得出）。

准则 2 修正的复相关系数 2PR 达到最大。

其中 2PR 的定义为，

)1(

)(12

nSST

pnSSER P

P pn

nR p

1)1(1 2

可以证明在 0q 时， 22qpp RR ，故取 2

pR 达到最大的方程为好。

从预测角度考虑。

为了叙述方便，先给出下面记号。记：

nqnp

qp

qp

nxx

xx

xx

x

x

x

X22

11

'

'2

'1

其中:

iq

ipi x

xx ， ni 2,1

从而有

qqpq

qppp

XXXX

XXXXXX

其中： 'ipippp xxXX ， '

iqipqp xxXX ，

'ipiqpq xxXX ， '

iqiqqq xxXX

准则 3 预测偏差的方差 pJJ 达到最小

2~)( pp pnJJ

前节中已计算 ppxyD ~' = 21' ))(1( pppp xXXx ，所以在

n个样本点上的预测偏差的平方和为： ' ' 1 2( ) (1 ( ) )i ip p ip p p ip

i i

D y x x X X x

2'12 )(

iipippp xxXXtrn

2)( pn

2 是未知参数，用 2~p 作为 2 的估计。

准则 4 平均预测均方误差 pS 达到最小。

2~1

1pp pn

S

由于 py~ 不一定是 Ey的无偏估计，从而预测偏差

的方差改用均方误差来描述。

准则 5 pC 统计量

22

s

SSEnpC p

p

其中 2s 是全模型中 2 的无偏估计.

考虑在 n个样本点上，用选模型作预测时，预测值与期望值的相对偏差平方和为：

i

ipipi

iip xxEyyJ 22

22

)~

(1

)~(1

而 i

ipippippipp xxExExEEJ ])~

()~~

([1 22

2

)(

1ˆ 212

II

i i i

ipppipippippip xXXxxDxxDI 121 )(

~~

i iipipppipippp xxxxtrxxxxtr 1212 )()( p2

n

iipip xxEI

1

22 )

~(

n

iqiqqip xCBx

1

21 )(

n

iqiqipiqipq xCBxxxBC

1

11 ))((

qiqiqiqipipiqipip

n

iq xxxxBCCBxxcBxxBC )( 1111

1

qiqiq

n

iiqipipiqipipq xxxxBCCBxxCBxxBC )(

1

1111

qq DCBCCBCCBBBC )1111

qq CBCD )( 1

))(~( 22 pnE p

由此可知：

npESSE

nPPNE

pnpnEEJ

p

p

pp

2

)2()(~1

)2()(~1

2

22

2

22

2

故选2

2s

SSEnpC p

p 。

从上面 pC 统计量的定义可知，要选 pC 值小，并且 PC p 的回归方

程。

准则 6 预测平方和 pPRESS 达到最小。

先给出 PRESS 的定义。设 n 组数据的回归模型为

XY 。现考虑在建立回归方程时略去第 i组数据

n

i

ii

y

y

y

y

Y

1

1

1

)(

n

i

ii

x

x

x

x

x

1

1

1

)(

对应的 1n 组数据的回归模型为 )()( ii XY 。此时的最

小二乘估计为 )()(1)()()( )(ˆ iiiii YXXX

用 )(ˆ i 去预测第 i 点，此时的预测偏差为 )( ie

)()( ˆ iii

i xye

定义预测平方和为 2)( iePRESS

记: )()()()( ˆ iiii xye 为全模型用除 i点之外，剩下的 1n 个

点作参数估计后，对 i点的预测的偏差； iih 为 XXXXH 1)(

的第 i个对角元即 )(1)( iiii xXXxh 。

显然，

ii

n

jiijj

n

ijj

jjii xxXXxxxxxxXX

11

)()(

iiii

n

jjj

n

ijj

jjii yxYXyxyxyxYX

11

)()(

故有

)()(1)()()( )( iiiiii

i YXXXxye

)()( 1iiiiii yxYXxxXXxy

)](1

)()()[(

111

iiii

iiii yxYX

h

XXxxXXXXxy

ii

iiiii

ii

iii

iiiii

h

yxXXxxXXx

h

YXXXxxXXx

yxXXxYXXXxy

1

)()(

1

)()(

)()(1111

11

ii

iii

ii

iiiiiiii h

yh

h

xhyhe

11

ˆ 2

ii

iii

ii

iiiiiiii h

yh

h

yhxyhe

11

)ˆ( 22

ii

iiiiii

h

eheh

1

)1(

ii

i

h

e

1

pPRESS 为选模型的预测平方和为 2)( ipp ePRESS ，

由上述的推导可知，iip

ipip h

ee

1)( ，其中， ipe 为选模型的对应

的第 i点残差， iiph 相应为 ppppp XXXXH 1)( 的第 i个对角

元。

极大似然估计出发

在正态条件下，的最小二乘估计与极大似然估计是

一致的。

准则 7 AIC准则

AIC准则的定义：

AIC - 2（模型的对数似然估计函数的极大值）+2（模型中独立参数的个数）

当误差为正态的条件下，全模型的对数似然函数为：

)()(2

1)2ln(

2),,(

222

XYXY

nLL

而和 2 的极大似然估计为：

)()(ˆ 1 YXXXL n

SSEL 2

从而对数似然函数的极大值为：

2)ln(

2)/2ln(

22)2ln(

2max

nSSE

nn

nn

n

SSEnL

略去常数不计，则有：

mSSEnAIC 2ln

对选模型而言，有：

pSSEnAIC pp 2ln

§5.6 逐步回归的思想

• 当可供选择的自变量太多时，当然可用前面所述的自变量选择的准则去选择好的方程，但很复杂，因此很不实用。为此需要找一些简便的方法找到较好的方程。

后退法（backward）

先建立 t元线性回归方程，再对系数逐一检验，删去不

显著变量中偏回归平方和最小的变量，重新先建立 1t 元线

性回归方程，再对每一个系数作检验，直到方程中所含回归

变量均显著为止。

向前法（forward）

先从 t个变量中选一个与 y相关最密切的变量，（可选相

关系数最大的）建立一元线性回归方程，再从留下的变量中

找一个与 y “ ”的偏相关系数最大的变量，建立二元线性

回归方程，直到余下的变量与 y的偏相关系数均不显著为

止。由于偏相关系数检验几计算较复杂，且不能保证最后所

得的回方程系数均为显著，故使用不太普遍。

逐步回归（stepwise）

目前使用最多的是逐步回归。其基本思想是变量一

一引入，对此要引入的变量用偏回归平方和作 F 检验，

显著时才引入；而一旦新的变量引入后又要对老的变量

重新检验，若它变成不显著了就要将它从方程中剔除，

直到没有变量可剔除也没有变量可引入为止。最后对入

选的变量建立线性回归方程。

其步骤如下：

（1）选第一个变量。

计算 t个变量的偏回归平方程 )1(jv ;,2,1 tj ；

令 )1()1(1 max j

jk vv ；

用 21

)1(11 svF k 对 1kx 的回归系数进行检验。若显著，则引入 1kx ；

建立 1kx 的一元线性回归方程。

（2）选第二个变量

计算剩下的 1t 个变量的偏回归平方程，

)2(jv tj ,2,1 1kj 。

令 )2(

1

)1(2 max j

kjk vv

；

用 2)2(

21 svF k 对 2kx 的回归系数进行检验。若显著，则

引入 2kx ；

建立关于 1kx ， 2kx 的二元线性回归方程。

（3）在第二步引入 2kx 后，必须对 1kx 的系数重新进行检验

计算 )2(1kv ；

计算 2)2(

11 svF k 对 1kx 的回归系数重新检验。若显著，

则保留 1kx 若不显著则删除；

(4)重复上面各步，直到没有变量可引入也没有变量可删除为止。

SAS 中实现自变量的选择proc reg;model y= 自变量 / 选项 ;选项 1： selection=____.可选择的方法有：forward: 向前法backword: 后退法stepwise ：逐步回归法adjrsq ：调整后的 R^2cp: cp 统计量none ：全模型

选项 2slentry=value; 对 forward和 stepwise 方法

规定变量选入回归模型里的显著性水平。对 forward 方法缺省值是 0.50,对 stepwise是 0.15.

slstay=value; 对 backward和 stepwise 方法规定变量保留在模型里的显著性水平。对backward 方法缺省值是 0.10 ，对stepwise是 0.15.

仅用于 selection=adjrsq或 cp 的任选项

mse ：平均残差平方和aic： AIC 信息量bic: BIC 信息量jp ：预测偏差的总方差sp ：平均预测均方误差

• PRESS 方法可在selection=forward,backward,stepwise 时在outest 数据集中输出。例如：

proc reg data=… outest= 新数据集 press;

model y=x1-x4/selection=stepwise;

run;

例子 5.1 (pp.124)data page124;input x1-x4 y;cards;7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.4;proc reg;model y=x1 x2 x3 x4/selection=stepwise;run;

AIC 准则proc reg;

model y=x1 x2 x3 x4/selection=cp aic;

run;

JP 统计量准则proc reg;

model y=x1 x2 x3 x4/selection=cp jp;

run;

Documents

第五章 自变量的选择

第五章自变量的选择