36
第8第 二二二二二二二二二

第 8 章

Embed Size (px)

DESCRIPTION

第 8 章. 二值因变量回归模型. 二值因变量回归模型. 8.1 二值因变量模型 8.1.1 效用理论和指标模型 8.1.2 probit 模型和 logit 模型 8.2 二值因变量模型估计 8.2.1 二值因变量模型极大似然估计 8.2.2 用 EViews7.2 估计二值因变量模型 重要概念. 8.1 二值因变量模型. 8.1.1 效用理论和指标模型 8.1.2 probit 模型和 logit 模型. 8.1 二值因变量模型. 8.1.1 效用理论和指标模型 - PowerPoint PPT Presentation

Citation preview

Page 1: 第 8 章

第 8 章

二值因变量回归模型

Page 2: 第 8 章

二值因变量回归模型8.1 二值因变量模型 8.1.1 效用理论和指标模型 8.1.2 probit 模型和 logit 模型8.2 二值因变量模型估计 8.2.1 二值因变量模型极大似然估计 8.2.2 用 EViews7.2 估计二值因变量模

型重要概念

Page 3: 第 8 章

8.1 二值因变量模型8.1.1 效用理论和指标模型8.1.2 probit 模型和 logit 模型

Page 4: 第 8 章

8.1 二值因变量模型8.1.1 效用理论和指标模型 因变量只取 0 和 1 的模型称为二值因变量

( binary dependent variable )模型。模型因变量没有明显的数量特征,往往对应研究对象的不同属性,属于分类变量。

例:女性决定投入劳动力市场还是做家务的影响因素、投资人决定是风险投资还是无风险投资的决定因素、哪些财务指标决定着上市公司财务状况(正常或恶化)、股票涨跌的影响因素。

Page 5: 第 8 章

8.1 二值因变量模型8.1.1 效用理论和指标模型 以投资决策为例, 表示购买股票, 表示银行存款 表示投资股票的收益, 表示投资风险 需要研究的是 的变化如何影响投资决策变化,

即投资倾向(或者意愿)的变化。 可观测,但观测不到投资者投资意愿的变化,只会观测到

或者 。

1Y 0Y1X 2X

1X

1X0Y

1Y

Page 6: 第 8 章

8.1 二值因变量模型8.1.1 效用理论和指标模型 以投资决策为例, 表示购买股票, 表示银行存款 表示投资股票的收益, 表示投资风险• 设 表示投资者的效用函数,不可观测,其与自

变量关系式: 假定 大于临界值 时,投资者购买股票,则

1Y 0Y1X 2X

*Y

uXXY 2211*

*Y C

}{}{}1{ 2211* XXCuCYY

Page 7: 第 8 章

8.1 二值因变量模型8.1.1 效用理论和指标模型 设 的分布函数为 ,并且满足

称为连接函数( link function ),线性函数 称为指标函数( index )。

u F )()(1 xFxF

)(

)(1

}{)1(

22110

2211

2211

XXF

XXCF

XXCuPYP

F

22110 XX

Page 8: 第 8 章

8.1 二值因变量模型8.1.1 效用理论和指标模型 定义 1 :设 为二值因变量, 为自变

量,称模型 为二值因变量模型,其中 为分布函数,满足 。 二值因变量模型不是回归模型,没有误差项。内

生性异方差等问题需对原模型 讨论。二值因变量模型中的 不可观测,模型不能用最

小二乘估计。参数估计有赖于对 的假设。

Y kXXX ,,, 21 )()1( 22110 kkXXXFYPp

F)()(1 xFxF

uXXY 2211*

pF

Page 9: 第 8 章

8.1 二值因变量模型8.1.2 probit 模型和 logit 模型 probit 模型 假设连接函数为标准正态分布的分布函数

实际上等价于假定了 服从标准正态分布;若 的方差未定,则参数不能被唯一估计。

dtexxFx t

2/2

2

1)()(

)()1( 110 kkXXyPp

u u

Page 10: 第 8 章

8.1 二值因变量模型8.1.2 probit 模型和 logit 模型 logit 模型假设连接函数为逻辑分布函数

logit 模型中的连接函数 是一种特殊的逻辑分布,目的是保证模型中参数能够唯一确定。

x

x

x e

e

exxF

11

1)()(

)()1( 110 kkXXyPp

)(x

Page 11: 第 8 章

8.1 二值因变量模型8.1.2 probit 模型和 logit 模型 probit 模型和 logit 模型的比较大多数情况下二者估计结果相似 值较大时,正态分布函

数 对的敏感性较低, logit 模型可以缓解这种现象

kk xXz 110 )(z z

0

0.5

1

logit

proitt

Page 12: 第 8 章

8.1 二值因变量模型8.1.2 probit 模型和 logit 模型 probit 模型和 logit 模型的比较 logit 模型可变换为

若能得到 的一致估计 ,就能用 OLS 方法估计上述模型参数。

kkXXpp 110)]1/(log[

p p̂

Page 13: 第 8 章

8.2 二值因变量模型估计8.2.1 二值因变量模型极大似然估计8.2.2 用 EViews7.2 估计二值因变量

模型

Page 14: 第 8 章

8.2 二值因变量模型估计8.2.1 二值因变量模型极大似然估计

Page 15: 第 8 章

二值因变量模型极大似然估计极大似然估计

样本似然函数

)()1( 22110 iiii XXFYPp 1,0,)1()( 1

iY

iYii YppYP ii

n

i

Yii

Yii

n

i

Yi

Yin

ii

ii

XXFXXF

ppYYL

1

12211022110

1

11

)(1)(

)1(),,(

Page 16: 第 8 章

二值因变量模型极大似然估计对数似然函数

• 对上述函数求分别关于 、 和 求导就可求得参数估计;但是该函数通常太过复杂,一般用数值方法求得参数估计。

N

i iii

N

i iii

XXFY

XXFYl

1 22110

1 22110

)(1ln[)1(

)(ln

0 1 2

Page 17: 第 8 章

二值因变量模型极大似然估计参数估计的渐近分布• 由第 2 章结论 8 知,上述参数的极大似然估计 、 和 渐进服从正态分布,即

• 故可构造以下统计量检验

ML0̂

ML1̂ ML2̂

2,1,0),,(~ˆ 2)( rN rrarML

0:H0 r

2,1,0),1,0(~ˆ

ˆ)(

rNz a

r

rrr

Page 18: 第 8 章

二值因变量模型极大似然估计拟合优度、似然比和 McFadden由于因变量取值的特殊性,二值因变量模型不再

用 来度量模型拟合的好坏,而采用似然比( likely ratio )和似然比指数( likelihood ratio index )对模型拟合效果进行评价。

例: 检验首先进行不受限极大似然估计,得参数估计

再进行原假设限制下的极大似然估计,得参数估计

2R

2R

0:H 10 k

)ˆ,,ˆ,ˆ(ˆ10 kMLMLMLML

)H(0

0ˆML

Page 19: 第 8 章

二值因变量模型极大似然估计拟合优度、似然比和 McFadden例: 检验 似然比( LR )统计量:

原假设成立时服从 。 McFadden

为对应的对数似

然函数值。

2R0:H 10 k

)]ˆ,,()ˆ,,([2LR )H(0

0MLML YXlYXl

)(2 k2R

)ˆ,,(

)ˆ,,(1

)H(0

0ML

ML

YXl

YXl

)ˆ,,()ˆ,,( )H(0

0MLML YXlYXl 和

Page 20: 第 8 章

二值因变量模型极大似然估计probit 模型和 logit 模型的估计• 依前面给出的对数似然函数做最大似然估计,如

logit 模型

做完估计后可以对单个参数显著性或者模型的拟合效果进行检验,统计量上面已经给出。

N

i

XXi

N

i iiiiieYXXYl

11 22110 )1ln()( 22110

Page 21: 第 8 章

二值因变量模型极大似然估计完全分离( complete separation )及其处理 定义 2. 设 为样本,

如果存在线性组合 和常数 C使得

称样本存在完全分离。如果存在这种情况,则相应地增大 的值

会不断增加对数似然函数的值,因此将没有最大值点。

NiXXY iii ,,2,1,,, 21 ii XX 22110

CXX

CXXY

ii

iii

22110

22110

,0

,1

210 ,,

Page 22: 第 8 章

二值因变量模型极大似然估计完全分离( complete separation )及其处理出现完全分离的原因: 1. 因变量几乎全部取 1 (或者 0 ),取 0 (或者

1 )的样本太少,解决的办法是增加取 0 的样本,或者减少取 1 的样本。

2. 自变量太多,容易找到线性组合将数据完全分离,解决方法是去掉一些自变量。

Page 23: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量模

型• EViews操作• 与其他回归模型的估计操作类似,只需在模型估计

( Equation Estimation )窗口的估计设定( Estimation Setting )中从估计方法( Method: )中选择 BINARY-Binary Choice (logit, probit, extreme value) ,然后选择模型类型 Binary estimation method Probit Logit ,然后点击 Option选项,对数值方法、初始值和收敛准则进行选择,完成设置。

Page 24: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量

模型• EViews操作• 二值因变量模型采用极大似然估计,对数似然函

数的极大化采用数值解法,需要对数值解法采用的方法( Optimization algorithm )进行选择。 EViews 提供了三种算法: Quadratic Hill Climbing 、 Newton-Raphson 、 Berndt-Hall-Hall-Hausman

Page 25: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量模

型• EViews操作• 还可以对参数估计方差的计算方法进行选择,在

Option窗口中的 Covariance框下勾选 Robust Covariances ,可选 Hubert/White 或者 GML 方法。

• 对迭代控制( Iteration control )也可选选填最大迭代次数( Max )和收敛公差( Convergence :)

• Options窗口右下角为二值因变量模型中指标函数求导设置( Derivatives ( for index )),可选 Accuracy或者 Speed

Page 26: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量

模型• EViews操作

Page 27: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量模

型• 估计结果解释

• 表示自变量的变化对概率的影响,与一般线性模型不一样的是,此处它的大小与自变量有关(一般在样本均值处衡量)。

)()1( 22110 iiii XXFYPp

2221102

1221101

)(

,)(

iii

i

iii

i

XXfX

p

XXfX

p

Page 28: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量

模型• 估计结果解释 probit 模型和 logit 模型得出的结果不同

121

11101

)1(:logit

)(:probit

110

110

i

i

X

X

i

i

ii

i

e

e

X

p

XX

p

Page 29: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量

模型例子 8.1 银行贷款违约概率• 因变量:贷款人是否违约( , 表示违约)• 自变量:资产负债率( )、流动比率 ( )、总债务 /利税前收入( )、净资产收益率( )、销售(营业)利润率( ),总资产周转率( )、流动资产周转率( )、销售 (营业 )增长率( )、资本积累率( )

y 1y

1x

3x 4x

5x 6x7x 8x

2x

9x

Page 30: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量

模型例子 8.1 银行贷款违约概率

Page 31: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量模

型例子 8.1 银行贷款违约概率• 若将所有自变量包括在内,回归结果如上, EViews 提示有完全分离的情况。

• 去掉部分自变量可以消除完全分离。经多次尝试,最终保留 、 、 、 、 、 和常数项 作为解释变量,数值算法采用牛顿 -拉夫森算法,参数估计的标准差和协方差计算采用 Hubert/White 方法

1x 2x 4x 5x 6x 8x c

Page 32: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量

模型例子 8.1 银行贷款违约概率

Page 33: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量模

型例子 8.1 银行贷款违约概率• 第一部分显示回归信息:采用二值因变量模型,选

择 Probit 模型,并采用 Newton-Raphson算法, 15次迭代后收敛,用 Hubert/White 方法估计方差协方差矩阵

• 第二部分是参数估计,意义与一般参数估计一样• 最下面一部分中 McFadden R-squared 和 LR statistic给出前面的统计量。 Log likelihood 和 Restr. log likelihood给出不受限和受限的对数似然值。

Page 34: 第 8 章

8.2 二值因变量模型估计8.2.2 用 EViews7.2 估计二值因变量

模型例子 8.2 已婚妇女的劳动力市场参与

Page 35: 第 8 章

重要概念1. 因变量取 1 和 0 时,需要用二值因变量模型。二值因变

量模型可以从效用理论得到解释,用不可观测因变量 和可观测因变量 之间的关系建立模型,并用极大似然方法进行估计。二值因变量模型也称为限值因变量模型。

2. 二值因变量模型中的连接函数 , 是不可观测变量 回归模型误差项的分布函数,需要满足关于 0 的对称性。当 取作标准正态分布函数 和逻辑分布的分布函数 时,对应的二值因变量模型分别称为 probit 模型和 logit模型。

3. 二值因变量模型采用极大似然估计方法进行估计,并采用数值方法计算对数似然函数的最大值点和最大值。采用EViews 估计模型时,可以选择不同的数值方法。二值因变量的拟合效果用 McFadden 和似然比统计量 来衡量。

*YY

F

F

*Y

LR2R

Page 36: 第 8 章

重要概念4. 在某些情况下,估计二值因变量模型的样本数据

会出现完全分离的情况。造成完全分离的原因之一是因变量取 1 (或者 0 )的值太少,另一个原因是自变量太多或者选取不合适。出现完全分离时,模型无法估计或者估计结果不可信。去掉一些样本使因变量取 1 和 0 的样本数相当,能够消除完全分离。有时,去掉一些自变量也能有效消除完全分离。

5. 二值因变量模型是非线性模型,参数的含义不同于线性回归模型,在对估计结果的意义进行分析时需要格外注意。对同一问题既可以用 probit 模型进行分析,也可以用 logit 模型进行分析,大多数情况下两种模型所得结果一致。 logit 模型具有的优点使其在应用中采用的更多一些。