77
二二二二二二 二二二二 1 二二二二

预备知识 1 :线性模型

  • Upload
    maia

  • View
    61

  • Download
    11

Embed Size (px)

DESCRIPTION

预备知识 1 :线性模型. 二元回归模型. 矩阵形式. 最小二乘估计( ordinary least squares,OLS ). 估计量 估计量方差 其中 . 总平方和 回归平方和 为预测值 残差平方和 判定系数( coefficient of determination ) R squared 调整 R squared. f i. 广义最小二乘( generalized least- squares,GLS ). - PowerPoint PPT Presentation

Citation preview

Page 1: 预备知识 1 :线性模型

二元回归模型预备知识 1 :线性模型

Page 2: 预备知识 1 :线性模型

矩阵形式

Page 3: 预备知识 1 :线性模型

估计量

估计量方差其中

最小二乘估计( ordinary least squares,OLS )

Page 4: 预备知识 1 :线性模型

总平方和 回归平方和 为预测值 残差平方和 判定系数( coefficient of

determination ) R squared

调整 R squared

fi 

 

Page 5: 预备知识 1 :线性模型

如果 这里 为已知协方差矩阵 估计量 方差

广义最小二乘( generalized least-squares,GLS )

Page 6: 预备知识 1 :线性模型

可加效应模型预备知识 2 :固定效应模型

i j

ji

2ijk

ijkjiijk

0,0,0Nd.i.i

m,,1k,b,,1j,a,,1i

y

Page 7: 预备知识 1 :线性模型

方差分析( analysis of variance, ANOVA )假设 偏差平方和的分解 0:H

0:H

b2102

a2101

i j

2

j..iij

2

i jj.

2

i j.i

2

i jijT

..yyyy..yy..yy

..yySS

Page 8: 预备知识 1 :线性模型

2

i

2i

i j

2...iiA

..j.jj..ii.i

eBA

1ab

EESS

..yyy

SSSSSS

检验统计量

Page 9: 预备知识 1 :线性模型

2e

2

j

2j

i

2i

i j

2..ijjiT

2

j

2jB

1b1aESS

1abab

EESS

1baESS

同理

Page 10: 预备知识 1 :线性模型

e

B2

e

A1

2ee

2j

2j

BB

2i

2i

AA

MSMSF

MSMSF

1b1aSSEEMS

1b

a

1bSSEEMS

1a

b

1aSSEEMS

Page 11: 预备知识 1 :线性模型

交互效应模型

jij

iij

i jji

2ijk

ijkijjiijk

a,1i,0

b,,1j,0

0,0,0Nd.i.i

m,,1k,b,,1j,a,,1iy

Page 12: 预备知识 1 :线性模型

方差分析假设

偏差平方和的分解 b,,1ja,,1i0:H

0:H0:H

ij03

b2102

a2101

对一切

Page 13: 预备知识 1 :线性模型

ABeBA

2

i j k....j...i.ij

2

i j k.ijijk

2

i j k....j.

2

i j k.....i

i j k...ijkT

SSSSSSSS

yyyyyy

yyyy

yySS

Page 14: 预备知识 1 :线性模型

2

j

2jB

2

i

2i

i j k

2.....iiA

.ijijji.ij

.......j.j.j...ii..i

1bamESS

1abm

EESS

y

yyy

检验统计量

Page 15: 预备知识 1 :线性模型

2

i j

2ijAB

2

i j

2ij

j

2j

i

2i

i j k

2...ijkijjiT

2

i j k

2.ijijke

1b1amESS

1abmmambm

EESS

1mabEESS

Page 16: 预备知识 1 :线性模型

2e

e

2j

2ij

ABAB

2j

2j

BB

2i

2i

AA

1mabSSEEMS

1b1a

m

1b1aSSEEMS

1b

am

1bSSEEMS

1a

bm

1aSSEEMS

Page 17: 预备知识 1 :线性模型

e

ABAB

e

BB

e

AA

MSMSF

MSMSF

MSMSF

Page 18: 预备知识 1 :线性模型

随机效应模型

相互独立、诸、诸、诸诸 ijjiijk

2ij

2j

2i

2ijk

ijkijjiijk

,0Nd.i.i,0Nd.i.i,0Nd.i.i,0Nd.i.i

m,,1k,b,,1j,a,,1iy

Page 19: 预备知识 1 :线性模型

方差分析假设

0:H

0:H

0:H

203

202

201

Page 20: 预备知识 1 :线性模型

ABeBA

2

i j k....j...i.ij

2

i j k.ijijk

i j k

2

....j.

2

i j k.....i

2

i j k...ijkT

SSSSSSSS

yyyy

yyyyyy

yySS

偏差平方和的分解

Page 21: 预备知识 1 :线性模型

i j k

2.....i...iiA

........

..i.ii

..ibbi..i

EESS

y

y jij

jj

检验统计量

Page 22: 预备知识 1 :线性模型

2222

i j k

2...ijk..ijjiT

2

i j k

2.ijijke

222B

222

1abm1abm1bam1abm

EESS

1mabEESS

1b1bm1bamESS

1a1am1abm

同理

Page 23: 预备知识 1 :线性模型

2ee

22ABAB

222BB

222AA

22AB

1mabSSEEMS

m1b1a

SSEEMS

amm1b

SSEEMS

bmm1a

SSEEMS

1b1am1b1aESS

Page 24: 预备知识 1 :线性模型

e

AB3

AB

B2

AB

A1

MSMSF

MSMSF

MSMSF

Page 25: 预备知识 1 :线性模型

预备知识 3 :三大检验似然比检验 LRWald 检验拉格朗日乘子检验LM

Page 26: 预备知识 1 :线性模型

( 1 )模型是非线性的 ( 2 )约束是非线性的 ( 3 )扰动项分布是非正态的, 在这些情况下, F 检验不再适用,通常需要采用 LR 、 Wald 、 LM 其中之一来检验约束条件是否成立。

三大检验的引入

Page 27: 预备知识 1 :线性模型

这三个检验方法都是渐进等价的,他们所用统计量的小样本分布是未知的,但大样本下都渐进服从自由度为约束个数的卡方分布。 三大检验方法是三种基于极大似然法的大样本检验方法。 根据模型的特点采用不同的检验方法。 模型视为给定参数的数据生成过程的集合。

三大检验方法共同点

Page 28: 预备知识 1 :线性模型

极大似然估计( ML )(一)极大似然原理

假设对于给定样本 , 其联合概率分布存在 。将该联合概率密度函数视为未知参数 的函数,则 称为似然函数( Likelihood Function ) , 即观测到所给样本的可能性 .

极大似然原理就是寻找未知参数 的估计 ,使得似然函数达到最大,或者说寻找使得样本 出现的概率最大的 。

,Y X , ;f Y X

, ;f Y X

,Y X

Page 29: 预备知识 1 :线性模型

求极大似然函数估计值的一般步骤:  (1) 写出似然函数;(2) 对似然函数取对数,并整理;(3) 求导数 ;(4) 解似然方程

Page 30: 预备知识 1 :线性模型

极大似然估计,是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

Page 31: 预备知识 1 :线性模型

极大似然估计量( MLE )的性质( 1 )一致性: 是 的一致估计量,即

( 2 )渐进有效性: 是渐进有效的且达到所有一致估计量的Cramer-Rao 下界,即是所有一致渐进正态估计量中方差最小的

( 3 )渐进正态性

ˆlim ) 1,nP

为任意给定的正数。

ˆML

Page 32: 预备知识 1 :线性模型

检验思想:如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值。似然比定义为有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。以似然比为基础可以构造一个服从卡方分布统计量

似然比检验( LR )

Page 33: 预备知识 1 :线性模型

似然比检验( LR )1 、似然比命题:如果约束是无效的,有约束的最大似然函数值当然不会超过无约束的最大似然函数值,但如果约束条件“有效”,有约束的最大值应当“接近”无约束的最大值,这正是似然比检验的基本思路。似然比:无约束模型似然函数值:有约束模型似然函数值:

2

2

( , )ˆ ˆ( , )

LL

2ˆ ˆ( , )L 2( , )L

0 :H g C

Page 34: 预备知识 1 :线性模型

显然 。如果原假设是真,则 趋近于 1 ;如果 太小,则约束无效,拒绝原假设。可以证明,对大样本来说,检验统计量为,

拒绝域,似然比检验另一种表达,

0 1

2 2 2ˆ ˆ2 ln 2 ln ( , ) ln ( , ) ~ ( )LR L L q

21 ( )LR q

' 2* *

'* *

2ln (ln ln ) ~ ( )

e e

e e

LR n e e e e q

有约束模型残差平方和;

无约束模型残差平方和;

Page 35: 预备知识 1 :线性模型

检验思想:如果约束是有效的,那么在没有约束情况下估计出来的估计量应该渐进地满足约束条件,因为 MLE 是一致的。以无约束估计量为基础可以构造一个 Wald 统计量,这个统计量也服从卡方分布

Wald 检验

Page 36: 预备知识 1 :线性模型

Wald 检验如果约束条件为真,则 不应该显著异于零,其中 是无约束极大似然估计值。当 显著异于零时,约束条件无效,拒绝原假设。检验统计量。 Wald 检验实际基于 g ( β )和 C 之间的距离。

Wald只需要估计无约束模型,但需要计算渐进协方差矩阵。

0 :H g C 0MLEg C

MLE MLEg C

1 a2ˆ ˆ ˆ( ) ( ) ( ) ~ ( )W g C Var g C g C q

Page 37: 预备知识 1 :线性模型

在线性约束条件下, Wald 检验

拒绝域,Wald 统计量另一种表达形式,

a12 1 2ˆ ˆˆ( ) ( ) ( ) ~ ( )W R r R X X R R r q

2 ( )W q

'2* *

'* *

( ) ~ ( )

e e

e e

n e e e eW qe e

有约束模型残差平方和;

无约束模型残差平方和;

0 :H R r

Page 38: 预备知识 1 :线性模型

检验思想:在约束条件下,可以用拉格朗日方法构造目标函数。如果约束有效,则最大化拉格朗日函数所得估计量应位于最大化无约束所得参数估计值附近。这里也是构造一个 LM 统计量该统计量服从卡方分布。

拉格朗日乘子检验( LM )

Page 39: 预备知识 1 :线性模型

拉格朗日乘子检验( LM )拉格朗日乘子检验( LM ),又称为 Score 检验。该检验基于约束模型,无需估计无约束模型。假设约束条件为 ,在约束条件下最大化对数似然函数,另 表示拉格朗日乘子向量,此时,拉格朗日函数为约束条件下最大化问题就是求解下式根,

0 :H g C

( ) ( ) ( )LnL LnL g C

( ) ( ) 0

( ) ( ) 0 g

LnL LnL g

LnL g C

g( )其中, 是矩阵g= 的转置

Page 40: 预备知识 1 :线性模型

如果约束成立,对数似然函数值不会有显著变化。这就意味着在一阶条件下,第二项应该很小,特别是 应该很小。因此,约束条件是否成立检验转化成检验 ,这就是拉格朗日乘子检验的思想。 但是直接检验 比较困难,有一个等价而简单的方法。如果约束条件成立,在约束估计值处计算对数似然函数的导数应该近似为零,如果该值显著异于零,则约束条件不成立,拒绝原假设。对数似然函数的导数就是得分向量,因此, LM 检验就是检验约束条件下参数估计值的得分向量值是否显著异于零,因而,LM 检验又称为得分检验。

0 =0H :

0 =0H :

Page 41: 预备知识 1 :线性模型

在最大似然估计过程中,通过解似然方程 ,可以求出无约束估计量 ;如果计算有约束估计量 在此处得分,则 一般不为零,但是如果约束有效,则 趋近于零。在原假设成立条件下,

ˆ( ) 0S

( )S

( )S

a1 2( ) ( ) ( ) ~ ( )LM S I S q

Page 42: 预备知识 1 :线性模型

对于线性约束将有关量代入上式得,

拒绝域,

' ' 12 2* *

'* *

'* *2

*

( ) 'LM= = ~ ( )

e e

R e X

ne X X X X e nR qe e

有约束模型残差平方和;

是 对 回归的拟合优度;

2 2 ( )LM nR q

Page 43: 预备知识 1 :线性模型

LM 统计量另一种表达形式,

LR 、 Wald 、 LM关系 ( 一般情况下成立 ) :

'2* *

'* *

'* *

( ) ~ ( )

e e

e e

n e e e eW qe e

有约束模型残差平方和;

无约束模型残差平方和;

Wald LR LM

Page 44: 预备知识 1 :线性模型

对于似然比检验,既需要估计有约束的模型,也需要估计无约束的模型;对于 Wald 检验,只需要估计无约束模型;对于 LM 检验,只需要估计有约束的模型。一般情况下,由于估计有约束模型相对更复杂,所有 Wald 检验最为常用。对于小样本而言,似然比检验的渐进性最好, LM 检验也较好, Wald 检验有时会拒绝原假设,其小样本性质不尽如人意。

Page 45: 预备知识 1 :线性模型

多层线性 模型hierarchical linear model (HLM)

Page 46: 预备知识 1 :线性模型

分层线性模型( hierarchical linear model HLM )又名多层线性模型 ( Multilevel Linear Model MLM )、层次线性模型( Hierarch Linear Mode1 )、多层分析( Multilevel Analysis/Model )。

HLM又被通俗的称为“回归的回归”。 一般线性回归和多重线性回归都是发生在单一层面,

HLM相对于更适用于嵌套数据( nest data )。”

概念

Page 47: 预备知识 1 :线性模型

由于个体行为不仅受个体自身特征的影响,也受到其所处环境(群体 /层次)的影响。 相对于不同层次的数据,传统的线性模型在进行变异分解时,对群组效应分离不出,而增大模型的误差项。 而且不同群体的变异来源也可能分布不同,可能满足不了传统回归的方差齐性假设。在模型应用方面,不同群体(层次)的数据,也不能应用同一模型。 鉴于传统方法的局限性,分层技术则解决了这些生态谬误( Ecological Fallacy )。

假设

Page 48: 预备知识 1 :线性模型

个体层面:这个与普通的回归分析相同,只考虑自变量 X 对因变量 Y 的影响。 群组层面:群组因素W 分别对个体层面中回归系数和截距的影响。

两个层面的假设:

Page 49: 预备知识 1 :线性模型

个体层面: 群组层面:

涉及到多个群组层次的时候原理与之类似,可以把较低级层次的群组,如不同的乡镇层面与不同的县市层面,可以这样理解,乡镇即是一个个体,群组即是不同的县市。 更多层次的可以这样理解,一直是下一层对上一层回归系数和截距的回归。 与普通的“回归的回归”不同的是,整个计算过程通过迭代过程完成。

数学模型:

Page 50: 预备知识 1 :线性模型

合并模型

Page 51: 预备知识 1 :线性模型

固定(非随机项)

为固定参数

Page 52: 预备知识 1 :线性模型

随机项

随机参数 和 。

Page 53: 预备知识 1 :线性模型

令 固定 j 不独立

模型的 GLS表达方式

Page 54: 预备知识 1 :线性模型

假设 这里 则 不同 j 相互独立。 GLS 迭代估计固定系数 。

Page 55: 预备知识 1 :线性模型

这里

X内部变量( within ), W外部变量( between ), WX 交互作用 (cross-level )

矩阵形式

Page 56: 预备知识 1 :线性模型

这里 并相互独立

Page 57: 预备知识 1 :线性模型

这里

大矩阵形式

Page 58: 预备知识 1 :线性模型
Page 59: 预备知识 1 :线性模型

方差记为 记 GLS 估计

Page 60: 预备知识 1 :线性模型

多层线性模型的适用范围非常广,凡是具有嵌套和分层的数据均可使用多层线性模型进行分析。 此外,多层线性模型还可以用于纵向研究。采用多层分析的方法处理重复测量数据与时间变量之间的关系。 在多层结构中可以对非平衡测量数据得到参数的有效估计。因此用多层分析法处理重复测量的数据,不要求所有的观测个体有相同的观测次数。 在纵向调查研究中,由于各种各样的原因,被试个体观测值部分缺失的情况时有发生,因此多层分析法处理缺失数据而不影响参数估计精度的这一特征,使得多层分析法处理在处理纵向观测数据时,比传统多元重复测量方法有很大的优势。

应用

Page 61: 预备知识 1 :线性模型

多层分析法通过考虑测量水平和个体水平不同的差异,明确表示出个体在水平 1(不同测量点)的变化情况,因而对于数据的解释(个体随时间的增长趋势)是在个体与重复测量交互作用基础上的解释,即不仅包含了不同测量点的差异,而且包含了个体之间存在的差异。

处理多元重复测量数据,多层分析法优点:

Page 62: 预备知识 1 :线性模型

多层分析法对数据资料较传统多元重复测量方法有较低的要求,对于重复测量的次数和重复测量之间的时间跨度都没有严格的限制。不同个体可以有不同的测量次数,测量与测量之间的时间跨度也可以不同。

Page 63: 预备知识 1 :线性模型

多层分析模型可以定义重复观测变量之间复杂的协方差结构,并且对所定义的不同的协方差结构进行显著性检验。在多层分析模型中,通过定义第一水平和第二水平的随机变异来解释个体随时间的复杂变化情况,当数据满足传统多变量重复测量模型对数据的要求和假设时,层次分析法得到与传统固定效应多元重复测量模型相同的参数估计和假设检验结果。用多层分析模型可以考虑更高一层的变量,如不同地区儿童对个体增长的影响。

Page 64: 预备知识 1 :线性模型

用于多层分析模型的参数估计方法较传统估计参数的方法要复杂得多。 不能处理变量之间间接的影响关系和处理复杂的观测变量和潜变量之间的关系。

缺点

Page 65: 预备知识 1 :线性模型

主要变量: 1 数学成绩 ( math achievement,

mathach ) 2社会经济状况 (socio-economic

status, ses) 1977 个学生, 40 个学校: 21 个公立学校( public school ), 19 个天主教学校

(catholic school) 2个 sector: public 和 catholic

中学数据( High school, hg )

Page 66: 预备知识 1 :线性模型
Page 67: 预备知识 1 :线性模型

1 线性回归: fit<-lm(mathach~ses, hs)

Page 68: 预备知识 1 :线性模型

summary(lm( mathach ~ Sector/ses-1, hs)) 主效应 Sector ,交互效应 Sector:ses summary(lm( mathach ~ ses * Sector-1, hs)) 主效应 Sector,ses ,交互效应 Sector:ses lm1<-lm(matach~factor(school)/ses-1,hs) 主效应 school, 交互效应 school:ses Summary(lm(matach~factor(school)*ses-

1,hs)) 主效应 school,ses, 交互效应 school:ses

2 固定效应模型

Page 69: 预备知识 1 :线性模型

ddu <- up( hs, ~ factor(school)) dim(ddu) ind <- ddu$Sector == "Catholic" L <- rbind( "Catholic" = ind,"Public" = 1-ind) L <- L/apply(L,1, sum) L <- cbind( rbind( L, 0,0), rbind( 0,0,L)) rownames( L ) <- c("Cath Int", "Pub Int", "Cath Slope",

"Pub Slope") L%*%lml$coefficients wald (lml, L) diffmat <- rbind( "Int" = c( -1, 1, 0, 0), Slope = c( 0 , 0, -

1, 1)) diffmat %*% L%*%lml$coefficients wald (lml, diffmat %*% L)#different of sector

Wald test

Page 70: 预备知识 1 :线性模型

library(nlme) lcoefs <- coef( lmList( mathach ~

ses |factor(school), hs)) lm.mult <- lm( as.matrix(lcoefs)

~Sector,up( hs, ~ factor(school))) summary(lm.mult)

3多元方差分析( MANOVA )

Page 71: 预备知识 1 :线性模型

fit.eco <- lm( mathach ~ ses,up( hs, ~ factor(school), all = T))

summary( fit.eco )

4 学校之间模型

Page 72: 预备知识 1 :线性模型

library(nlme) fit <- lme( mathach ~ ses * Sector,

hs, random = ~ 1 + ses | school) summary(fit) wald(fit, 'ses') # overall test for

'ses' wald(fit, 'Sector')

5 分层线性模型

Page 73: 预备知识 1 :线性模型

fitc <- lme( mathach ~ ses * Sector + cvar(ses,school), hs, random = ~ 1 + ses | school)

summary( fitc ) wald( fitc ) wald( fitc, -1) # overall test of FE model wald( fitc, 'ses') # overall test of all 'ses' effects wald( fitc, 'Sector') # overall test of all 'Sector' effects wald( fitc, ':') # overall test of all interaction effects cvar and cvars are intended to create contextual

variables in model formulas. If 'x' is numerical, cvar is equivalent to capply(x,id,mean) and cvars is equivalent to capply(x,id,sum).

6 加入背景变量( contextual variables )的 HLM

Page 74: 预备知识 1 :线性模型

L <- list( 'Effect of ses' = rbind( "Within-school" = c( 0,1,0,0,0), "Contextual" = c( 0,0,0,1,0), "Compositional" =

c( 0,1,0,1,0))) wald ( fitc , L ) dvar is equivalent to x - cvar(x,by) and creates

what is commonly known as a version of 'x' that is 'centered within groups' (CWG). It creates the correct matrix for a factor so that the between group interpretation of the effect of cvar(x,by) is that of the 'between group' or 'compositional' effect of the factor.

Wald 检验

Page 75: 预备知识 1 :线性模型

fitcd <- update( fitc, . ~ dvar(ses,school)*Sector + cvar(ses,school))

fitcd <- lme( mathach ~ dvar(ses,school)*Sector + cvar(ses,school), hs, random = ~ 1 + ses | school )

summary( fitcd ) summary( fitc ) fitca <- update( fitc, random = ~ 1 + dvar( ses,

school ) | school) summary( fitca ) summary( fitc ) anova( fitca, fitc )

Using CWG instead of raw effect

Page 76: 预备知识 1 :线性模型

qqnorm( fitc ) qqnorm( fitc , abline = c(0,1), id

= .01 ) plot( fitc ) # not as generous as in

lm, need to make your own: # This is a plot of residuals (z-score) versus fitted value

diag.df <- data.frame( resid = resid(fitc), fitted = fitted(fitc))

summary( lm( resid ~ fitted, diag.df))

Diagnostics with Level 1 residuals

Page 77: 预备知识 1 :线性模型

hs$ses.m <- with( hs, cvar( ses, school)) fitc <- lme( mathach ~ ses * Sector + ses.m, hs, random = ~ 1 + ses |

school ) some( coef ( fitc ) ) # BLUP in each cluster some( ranef ( fitc ) ) # RE in each cluster # Note: coef( fitc ) = fixed.effect +

random.effect re <- ranef( fitc, aug = T) # creates data frame with up( dd, ~ school)

variables some( re ) plot( re ) # special plot method qqnorm( fitc, ~ ranef(.) | Sector, id = .05) library(p3d) Init3d( family='serif', cex = 1.2) Plot3d( `(Intercept)` ~ ses + ses.m | Sector, re) # note funny names in

backquotes Ell3d() Id3d( pad=1 )

Diagnostics with Level 2 residuals