74
第第第 第第第第第第

第五章 自变量的选择

Embed Size (px)

DESCRIPTION

第五章 自变量的选择. §5.1 引言. 在实际问题中可以提出许多可能对因变量有影响的自变量,如何从中选择确实有影响的自变量来建立回归方程是一个十分重要的问题。如果方程中包含的自变量过多,那么不仅使用不便,还可能削弱估计和预测的精度,而自变量过少或选得不恰当,又会使所建立的模型与实际有偏离而不能使用。然而,自变量的选择又是一个十分复杂的问题,而涉及的计算量都很大,本章的目的是对自变量选择作一些理论分析,提出一些变量选择准则,并介绍有关的计算方法。. §5.2 自变量选择的后果. 自变量的选择问题可以看成是这样二个问题 :. 究竟应用全模型还是用选模型; - PowerPoint PPT Presentation

Citation preview

Page 1: 第五章 自变量的选择

第五章 自变量的选择

Page 2: 第五章 自变量的选择

§5.1 引言 • 在实际问题中可以提出许多可能对因变量有影响的自变量,如何从中选择确实有影响的自变量来建立回归方程是一个十分重要的问题。如果方程中包含的自变量过多,那么不仅使用不便,还可能削弱估计和预测的精度,而自变量过少或选得不恰当,又会使所建立的模型与实际有偏离而不能使用。然而,自变量的选择又是一个十分复杂的问题,而涉及的计算量都很大,本章的目的是对自变量选择作一些理论分析,提出一些变量选择准则,并介绍有关的计算方法。

Page 3: 第五章 自变量的选择

§5.2 自变量选择的后果 在多元线性回归模型中,自变量的选择实质上就是模型的选

择。现设一切可供选择的变量是 t个 ,它们组成的回归模型称为全模型(记 1tm ):

),0(~ 2nn IN

XY

其中:Y 是 1n 的观测值, 是 1m 未知参数向量,X 是 mn

结构矩阵,并假定 X 的秩为m。

Page 4: 第五章 自变量的选择

现 从 txxx ,,, 21 这 t 个变 量中选 t 变 量,不妨设

txxx ,,, 21 ,那么对全模型中的参数 和结构矩阵 X 可作如下

的分块(记: 1tp ):

qp , , qp XXX

Page 5: 第五章 自变量的选择

下面的回归模型称为选模型:

),0(~ 2n

pp

IN

XY

其中:Y 是 1n 的观测值, p 是 1p 未知参数向量, pX 是 pn

结构矩阵,并假定 pX 的秩为 p。

Page 6: 第五章 自变量的选择

自变量的选择问题可以看成是这样二个问题:

• 究竟应用全模型还是用选模型;• 若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。

Page 7: 第五章 自变量的选择

为了讨论方便起见,先引入几个记号:

全模型中参数 2, 的估计:

1ˆ ( ) 'X X X Y

2 11ˆ [ ( ) ]

( )Y I X X X X Y

n R X

其中: )(XR 为矩阵 X 的秩。 在点 )( 1 txxx 点上的预

测值为 ˆy x

Page 8: 第五章 自变量的选择

在选模型中参数 2, 的估计:

1

2 1

( )

1[ ( ) ]

( )

p p p p

p p p p pp

X X X Y

Y I X X X X Yn R X

在 ),(),()( 11 tppqp xxxxxxx 上的预测值

ppp xy ~~

Page 9: 第五章 自变量的选择

为了证明下面的定理,先给出:

分块矩阵求逆公式:

设 A为非奇异的对称矩阵,且

DC

CBA ,

其中: qqDqpCppB :,:,: ,

Page 10: 第五章 自变量的选择

则当 1B 或 1D 存在时有:

1111

111

111

11

111

1

11

11

11

111

)(

)(

CBCDBCD

CDBBCCDBB

CDBCDDBCD

CDBCCDB

DC

CBA

Page 11: 第五章 自变量的选择

均方误差的概念

对无偏估计常用 ˆVar 来衡量估计量的好坏,而对有偏估计则相

应采用均方误差

)~

)(~

(~ EMSE

Page 12: 第五章 自变量的选择

定理 5.2.1(对估计的影响)

(1) 全模型为真时, ˆE ,除了 0q 或 0qp XX 外,

ppE ~

(2) ˆ( ) ( )p pD D 为非负定矩阵;

(3) 当 qˆ( ) q qD 为非负定矩阵时,

)~

)(~

()ˆp ppppED ( 为非负定矩阵;

(4) 时等号成立。仅当 0,ˆ~q

22 EE p

Page 13: 第五章 自变量的选择

记:

DC

CB

XXXX

XXXXXX

qqpq

qppˆ

p ,

11

111 ˆDC

CBXX )(

其中: pp XXB qp XXC qq XXD

Page 14: 第五章 自变量的选择

证明:

(1)现认为全模型(5. 1)为真,则 ˆE (已证);

1

1

1

1

1

( )

( ) ( ) ( )

( ) ( )

( )

p p p p

p

p p p p p p p qq

p p p p p q q

p P p p q q

p q

E X X X EY

X X X X X X X X X

X X X X X

X X X X

B C

Page 15: 第五章 自变量的选择

只有当 时或 0X0 p qq X ,才有 pE p

~,即 p

~ 在一般

情形下不再是无偏估计。因此,描述估计的好坏不能用有效性来

作为衡量标准。在估计是有偏的情况下,一般可用均方误差作为

标准。

Page 16: 第五章 自变量的选择

(2)由1 11 2 2

1 1

ˆˆ( )

ˆp

q

B CD D X X

C D

( ) ,知: 2

1ˆ( )pD B

又: 1 2 1 2( )p p pD X X B ( )

由分块矩阵的逆可知: 111

11

BBCCDBB ,

11 1 11 ( ) (1 ( ) ) 0q p p p p qD D C B C X X X X X X

Page 17: 第五章 自变量的选择

再 利 用 :1 1 1

1 1

1 1 11 ( ) (1 ( ) )q q p p p q

B B CD C B B

D D C B C X X X X X X

为非负定矩阵

有: 211

12121

ˆ BCCDBBBD p ,且

1 1 21

ˆp pD D B CD C B 为非负定矩阵。

注:假如全模型为真的话,若误用选模型的话,从参数估计 p~ 的方差来

说反而减少了。

Page 18: 第五章 自变量的选择

(3)由 qpp CBE 1~ 可知,

1 1

[( )( ) ]

( )( ) [( )( ) ]

( ) ( )( )

( )

p p p p

p p p p p p p p

p p p p p

p q q

E

E E E E E E

D E E

D B C C B

Page 19: 第五章 自变量的选择

故有:

1 1

1 1 2 1 11

1 2 11

1 1

ˆ( ) [( )( ) ]

ˆ( )

( )

ˆ( )

p p p p p

p p q q

q q

q q

q q q

D E

D D B C C B

B CD C B B C C B

B C D C B

B C D C B

为非负定矩阵。

Page 20: 第五章 自变量的选择

上述性质可说明被丢掉的自变量对应变量的

影响确实存在( 0q ),但 q 难于准确估计或

影响不大,而回归系数的方差过大(方差过大可用

ˆ( ) 0q q qD 来表示),为了减少估计的均方

误差,删去这些变量对模型是有利的。

Page 21: 第五章 自变量的选择

(4) 22ˆ E (已证明),

2 1p

1{ (I ( ) ) }

( ) p p p pp

E E Y X X X X Yn R X

11{( ( ) ) }

( ) p p p pp

tr I X X X X EYYn R X

1 21{( ( ) )( )}

( ) p p p p np

tr I X X X X I X Xn R X

2 11( ( ) )( )

( ) p p p pp

tr I X X X X X Xn R X

Page 22: 第五章 自变量的选择

2 11( ( ) )

( ) p p P pp

X I X X X X Xn R X

2 1[ )( )( )]

( ) p p q q p p p q qp

X X I H X Xn R X

2 1[ ( ) ]

( ) q q p q qp

X I H Xn R X

Page 23: 第五章 自变量的选择

上式的证明中用到

0)(,0)(,0)( ppppppp XHIHIXXHIX 。

由于 pI H 为非负定矩阵,故有: 0])1([ qqpqq XHX ,

由此可得:

222 ˆ~ EE p 。

从(4)可知,当全模型为真时,而实际上用了选模型,那么,用 2~p

不再是 2 的无偏估计,并且 22~ pE 。

Page 24: 第五章 自变量的选择

定理 5.2.2(对预测的影响)

(1) 当全模型为真,则 xyE ˆ ,除 0q 外 xyE p ~

(2) )~

()ˆ( ppxyDxyD

(3) 当 ˆ( )q q qD 为非负定矩阵时, 2)~

()ˆ( ppxyExyD

Page 25: 第五章 自变量的选择

证明:(1) xyE ˆ (已证明)。

qppp

qqpppppppp

CBxx

XXXXxxExE

1

1p )(

~y~

xx pp pq y~E0时,当 ,否则 xpy~E

Page 26: 第五章 自变量的选择

(2)利用定理 5. 2. 1中的符号,有:

q

p

qp x

x

DC

CBxx

xXXxxDxDyxyD

11

112

12

)(1

))(1(ˆ)ˆ(

]1[ 11112

qqqppqpp xDxxCxxCxxBx

又 11

111

BCCDBBB

Page 27: 第五章 自变量的选择

qqqppq

pppp

xDxxCxxCx

xBCCDBxxBxxyD

12

12

12

11

1212 ]1[)ˆ(

)1(

)(~

)~

(12

122

pp

ppppppppp

xBx

xXXxxDxDyxyD

)~

()ˆ( ppxyDxyD

][ 111

11

112

qqqppqpp xDxxCDBxxCDxxBCCDBx

0)()( 11

12 qpqp xxBCDxxBC

Page 28: 第五章 自变量的选择

(3)由于 22 )]~

([)~

()~

( pppppp xyExyDxyE 又:

qpqqppppp CBXXXXE 11)(~

)()()]~

[(

)(

)~

(

112

11

1

pqqqpqpp

qpqqpqq

qppppp

xBCxxBCxxyE

xBCxCBxx

CBxxxxyE

Page 29: 第五章 自变量的选择

2

2 1 11

1

1 2 11

ˆ( ) ( )

[( ) ( )]

[( ) ( )]

( ) ( )( ) 0

p p

q p q p

q p q q q p

q p q q q p

D y x E y x

x C B x D x C B x

x C B x x C Bx

x C B x D x C B x

Page 30: 第五章 自变量的选择

注:由上述定理说明,若全模型为真的而误用选模型 ppx ~ 作为

值的预测的话,所得的估计是有偏的.但预测方差会有所下降。

而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误差也是会下降。所以删去一些影响不

大,但回归系数方差过大的变量(用 ˆ( )q q qD 为非负定矩

阵来表示),对预测精度的提高是有利的.

综合以上所述,一般我们尽可能使模型的变量少而精,要引入对 y有显著影响的变量,而对 y并不很显著的变量要删除,这

样不仅对估计而且对预测也有利.

Page 31: 第五章 自变量的选择

§5.3 自变量选择准则若一个多元回归的问题中有 t可供选择的自变量,那么所有可能的回

归方程有 12 t 个,下面给出一些自变量选择的准则,希望能从 12 t 个回

归方程中选择一个最合理的方程. 先给出一些记号:

对全模型,记:

SST

SSERXXXXHYHIYSSE 1,)(,)( 21

对选模型,记:

SST

SSERXXXXHYHIYSSE p

pppppppp 1,)(,)( 21

Page 32: 第五章 自变量的选择

前面已说明对一切 p有 22pp RRSSESSE ,即全模型

的残差平方和总达到最小,而复相关系数总达到最大,因此

残差平方和和复相关系数均不能作为选择变量的准则。下面

从不同的角度给出自变量选择的准则。

Page 33: 第五章 自变量的选择

从模型拟合角度考虑.

准则 1 平均残差平方和达到最小.

pn

SSEPp

2~

Page 34: 第五章 自变量的选择

pSSE 随 p的增加而减少,但 pn 也随 p的增加而减少。但前面的

ix ,由于其对 y的作用很显著,使 pSSE 减少得较快,能使pn

SSE p

随的 p

增加而减少,但当 ix 对 y的作用不明显时, 随差 p的增加, pSSE 减少的

很慢,而pn

1随 p的增加继续增加,这就使 ( )PSSE n p 随 p的增加

而增加,取 ( )PSSE n p 的最小值所对应的 p。当然相应入选 p个变量

是所有 t个变量是所有自变量中最显著的。(其显著性由计算 t统计量或 F

统计量得出)。

Page 35: 第五章 自变量的选择

准则 2 修正的复相关系数 2PR 达到最大。

其中 2PR 的定义为,

)1(

)(12

nSST

pnSSER P

P pn

nR p

1)1(1 2

可以证明在 0q 时, 22qpp RR ,故取 2

pR 达到最大的方程为好。

Page 36: 第五章 自变量的选择

从预测角度考虑。

为了叙述方便,先给出下面记号。记:

nqnp

qp

qp

nxx

xx

xx

x

x

x

X22

11

'

'2

'1

其中:

iq

ipi x

xx , ni 2,1

Page 37: 第五章 自变量的选择

从而有

qqpq

qppp

XXXX

XXXXXX

其中: 'ipippp xxXX , '

iqipqp xxXX ,

'ipiqpq xxXX , '

iqiqqq xxXX

准则 3 预测偏差的方差 pJJ 达到最小

2~)( pp pnJJ

Page 38: 第五章 自变量的选择

前节中已计算 ppxyD ~' = 21' ))(1( pppp xXXx ,所以在

n个样本点上的预测偏差的平方和为: ' ' 1 2( ) (1 ( ) )i ip p ip p p ip

i i

D y x x X X x

2'12 )(

iipippp xxXXtrn

2)( pn

2 是未知参数,用 2~p 作为 2 的估计。

Page 39: 第五章 自变量的选择

准则 4 平均预测均方误差 pS 达到最小。

2~1

1pp pn

S

由于 py~ 不一定是 Ey的无偏估计,从而预测偏差

的方差改用均方误差来描述。

Page 40: 第五章 自变量的选择

准则 5 pC 统计量

22

s

SSEnpC p

p

其中 2s 是全模型中 2 的无偏估计.

考虑在 n个样本点上,用选模型作预测时,预测值与期望值的相对偏差平方和为:

i

ipipi

iip xxEyyJ 22

22

)~

(1

)~(1

Page 41: 第五章 自变量的选择

而 i

ipippippipp xxExExEEJ ])~

()~~

([1 22

2

)(

1ˆ 212

II

i i i

ipppipippippip xXXxxDxxDI 121 )(

~~

i iipipppipippp xxxxtrxxxxtr 1212 )()( p2

Page 42: 第五章 自变量的选择

n

iipip xxEI

1

22 )

~(

n

iqiqqip xCBx

1

21 )(

n

iqiqipiqipq xCBxxxBC

1

11 ))((

qiqiqiqipipiqipip

n

iq xxxxBCCBxxcBxxBC )( 1111

1

Page 43: 第五章 自变量的选择

qiqiq

n

iiqipipiqipipq xxxxBCCBxxCBxxBC )(

1

1111

qq DCBCCBCCBBBC )1111

qq CBCD )( 1

))(~( 22 pnE p

Page 44: 第五章 自变量的选择

由此可知:

npESSE

nPPNE

pnpnEEJ

p

p

pp

2

)2()(~1

)2()(~1

2

22

2

22

2

故选2

2s

SSEnpC p

p 。

从上面 pC 统计量的定义可知,要选 pC 值小,并且 PC p 的回归方

程。

Page 45: 第五章 自变量的选择

准则 6 预测平方和 pPRESS 达到最小。

先给出 PRESS 的定义。设 n 组数据的回归模型为

XY 。现考虑在建立回归方程时略去第 i组数据

n

i

ii

y

y

y

y

Y

1

1

1

)(

n

i

ii

x

x

x

x

x

1

1

1

)(

Page 46: 第五章 自变量的选择

对 应 的 1n 组 数 据 的 回 归 模 型 为 )()( ii XY 。 此 时 的 最

小 二 乘 估 计 为 )()(1)()()( )(ˆ iiiii YXXX

用 )(ˆ i 去 预 测 第 i 点 , 此 时 的 预 测 偏 差 为 )( ie

)()( ˆ iii

i xye

定 义 预 测 平 方 和 为 2)( iePRESS

Page 47: 第五章 自变量的选择

记: )()()()( ˆ iiii xye 为全模型用除 i点之外,剩下的 1n 个

点作参数估计后,对 i点的预测的偏差; iih 为 XXXXH 1)(

的第 i个对角元即 )(1)( iiii xXXxh 。

显然,

ii

n

jiijj

n

ijj

jjii xxXXxxxxxxXX

11

)()(

iiii

n

jjj

n

ijj

jjii yxYXyxyxyxYX

11

)()(

Page 48: 第五章 自变量的选择

故有

)()(1)()()( )( iiiiii

i YXXXxye

)()( 1iiiiii yxYXxxXXxy

)](1

)()()[(

111

iiii

iiii yxYX

h

XXxxXXXXxy

Page 49: 第五章 自变量的选择

ii

iiiii

ii

iii

iiiii

h

yxXXxxXXx

h

YXXXxxXXx

yxXXxYXXXxy

1

)()(

1

)()(

)()(1111

11

ii

iii

ii

iiiiiiii h

yh

h

xhyhe

11

ˆ 2

ii

iii

ii

iiiiiiii h

yh

h

yhxyhe

11

)ˆ( 22

ii

iiiiii

h

eheh

1

)1(

ii

i

h

e

1

Page 50: 第五章 自变量的选择

pPRESS 为选模型的预测平方和为 2)( ipp ePRESS ,

由上述的推导可知,iip

ipip h

ee

1)( ,其中, ipe 为选模型的对应

的第 i点残差, iiph 相应为 ppppp XXXXH 1)( 的第 i个对角

元。

Page 51: 第五章 自变量的选择

极大似然估计出发

在正态条件下, 的最小二乘估计与极大似然估计是

一致的。

准则 7 AIC准则

AIC准则的定义:

AIC - 2(模型的对数似然估计函数的极大值)+2(模型中独立参数的个数)

Page 52: 第五章 自变量的选择

当误差为正态的条件下,全模型的对数似然函数为:

)()(2

1)2ln(

2),,(

222

XYXY

nLL

而 和 2 的极大似然估计为:

)()(ˆ 1 YXXXL n

SSEL 2

从而对数似然函数的极大值为:

2)ln(

2)/2ln(

22)2ln(

2max

nSSE

nn

nn

n

SSEnL

Page 53: 第五章 自变量的选择

略去常数不计,则有:

mSSEnAIC 2ln

对选模型而言,有:

pSSEnAIC pp 2ln

Page 54: 第五章 自变量的选择

§5.6 逐步回归的思想

• 当可供选择的自变量太多时,当然可用前面所述的自变量选择的准则去选择好的方程,但很复杂,因此很不实用。为此需要找一些简便的方法找到较好的方程。

Page 55: 第五章 自变量的选择

后退法(backward)

先建立 t元线性回归方程,再对系数逐一检验,删去不

显著变量中偏回归平方和最小的变量,重新先建立 1t 元线

性回归方程,再对每一个系数作检验,直到方程中所含回归

变量均显著为止。

Page 56: 第五章 自变量的选择

向前法(forward)

先从 t个变量中选一个与 y相关最密切的变量,(可选相

关系数最大的)建立一元线性回归方程,再从留下的变量中

找一个与 y “ ”的 偏相关系数 最大的变量,建立二元线性

回归方程,直到余下的变量与 y的偏相关系数均不显著为

止。由于偏相关系数检验几计算较复杂,且不能保证最后所

得的回方程系数均为显著,故使用不太普遍。

Page 57: 第五章 自变量的选择

逐步回归(stepwise)

目前使用最多的是逐步回归。其基本思想是变量一

一引入,对此要引入的变量用偏回归平方和作 F 检验,

显著时才引入;而一旦新的变量引入后又要对老的变量

重新检验,若它变成不显著了就要将它从方程中剔除,

直到没有变量可剔除也没有变量可引入为止。最后对入

选的变量建立线性回归方程。

Page 58: 第五章 自变量的选择

其步骤如下:

(1) 选第一个变量。

计算 t个变量的偏回归平方程 )1(jv ;,2,1 tj ;

令 )1()1(1 max j

jk vv ;

用 21

)1(11 svF k 对 1kx 的回归系数进行检验。若显著,则引入 1kx ;

建立 1kx 的一元线性回归方程。

Page 59: 第五章 自变量的选择

(2)选第二个变量

计 算 剩 下 的 1t 个 变 量 的 偏 回 归 平 方 程 ,

)2(jv tj ,2,1 1kj 。

令 )2(

1

)1(2 max j

kjk vv

用 2)2(

21 svF k 对 2kx 的回归系数进行检验。若显著,则

引入 2kx ;

建立关于 1kx , 2kx 的二元线性回归方程。

Page 60: 第五章 自变量的选择

(3)在第二步引入 2kx 后,必须对 1kx 的系数重新进行检验

计算 )2(1kv ;

计算 2)2(

11 svF k 对 1kx 的回归系数重新检验。若显著,

则保留 1kx 若不显著则删除;

(4)重复上面各步,直到没有变量可引入也没有变量可删除为止。

Page 61: 第五章 自变量的选择

SAS 中实现自变量的选择proc reg;model y= 自变量 / 选项 ;选项 1: selection=____.可选择的方法有:forward: 向前法backword: 后退法stepwise :逐步回归法adjrsq :调整后的 R^2cp: cp 统计量none :全模型

Page 62: 第五章 自变量的选择

选项 2slentry=value; 对 forward和 stepwise 方法

规定变量选入回归模型里的显著性水平。对 forward 方法缺省值是 0.50,对 stepwise是 0.15.

slstay=value; 对 backward和 stepwise 方法规定变量保留在模型里的显著性水平。对backward 方法缺省值是 0.10 ,对stepwise是 0.15.

Page 63: 第五章 自变量的选择

仅用于 selection=adjrsq或 cp 的任选项

mse :平均残差平方和aic: AIC 信息量bic: BIC 信息量jp :预测偏差的总方差sp :平均预测均方误差

Page 64: 第五章 自变量的选择

• PRESS 方法可在selection=forward,backward,stepwise 时在outest 数据集中输出。例如:

proc reg data=… outest= 新数据集 press;

model y=x1-x4/selection=stepwise;

run;

Page 65: 第五章 自变量的选择

例子 5.1 (pp.124)data page124;input x1-x4 y;cards;7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.4;proc reg;model y=x1 x2 x3 x4/selection=stepwise;run;

Page 66: 第五章 自变量的选择
Page 67: 第五章 自变量的选择
Page 68: 第五章 自变量的选择
Page 69: 第五章 自变量的选择
Page 70: 第五章 自变量的选择
Page 71: 第五章 自变量的选择

AIC 准则proc reg;

model y=x1 x2 x3 x4/selection=cp aic;

run;

Page 72: 第五章 自变量的选择
Page 73: 第五章 自变量的选择

JP 统计量准则proc reg;

model y=x1 x2 x3 x4/selection=cp jp;

run;

Page 74: 第五章 自变量的选择