Chapter 9

Chapter 9 設定和資料問題之進一步探討

9.1 函數形式錯誤設定一個複迴歸模型當它沒有適當地考量應變數和可觀察自變數間的關係時，會產生函數形式的錯誤設定。

錯誤設定　 1. 遺漏重要解釋變數 2. 模型的函數型式有誤　　　　　　　　　（例：該以對數型式卻用直線

CH9 設定和資料問題之進一步探討第 366 頁

9.1 函數形式錯誤設定

CH9 設定和資料問題之進一步探討第 368 頁表 9.1

RESET 為函數形式錯誤設定之一般化檢定

曾有一些檢定函數形式的錯誤設定之檢定已提出。

Ramsey (1969) 的迴歸設定誤差檢定 (regression specification error test, RESET) 在這方面被證明是有用的。

RESET 背後的想法是很簡單的。若原始模型為

0 1 1 k ky x x u


9.2

RESET 為函數形式錯誤設定之一般化檢定

令 ŷ 表 (9.2) 式之 OLS 配適值。考慮一擴展的方程式

由於原來的估計之配適值函數現在變成自變數RESET 可被證明在遺漏變數之期望值為模型中自變數的線性函數時，其對偵測該遺漏變數是沒有檢定力的。

正確關於 RESET 的說法是其為一函數形式的檢定，而不是檢定任何其他的事物。

2 3

0 1 1 1 2k ky x x y y error

CH9 設定和資料問題之進一步探討第 369-371 頁

9.3

非包覆之對立假設的檢定有可能檢定模型

對立於模型

這些是非包覆模型 (nonnested models) ( 見第 6 章 ) ，故我們不能簡單地用一標準的 F 檢定來處理。有二種不同的處理方法提出。第一種是建構一個各模型都為其特例的完整模型，再檢定對應各個模型的限制條件。（課本 p.371, 9.8 式。若拒絕H0 ，則表示模型應該考慮 log 型式）

0 1 1 2 2y x x u

0 1 1 2 2log( ) log( )y x x u


9.6

9.7

非包覆之對立假設的檢定Davidson-MacKinnon 檢定 (Davidson-MacKinnon

test) 係基於以下方程式中的 t 統計量

　　　　　　其中：　　表示，以 OLS 估計模型 9.7 式所得到的配適

值。

顯著的 t 統計量 ( 雙邊對立假設 ) 即為 (9.6) 式之拒絕。

ˆ̂y

0 1 1 2 2 1ˆ̂y x x y error


非包覆之對立假設的檢定

產生的問題：

不一定會產生一明顯的勝利者。二個模型可能都被拒絕或都不被拒絕。

發生後面的這種情況，我們可用調整後的 R2來選擇模型。

利用 Davidson-MacKinnon 檢定拒絕 (9.6) 式，但這並不代表 (9.7) 式就是正確的模型。


9.2 使用不可觀察解釋變數之代理變數

當一模型通常因資料的不可得而未放入一主要變數時，便產生了比上節更困難的問題。（課本 p372）

一種可能性是求得遺漏變數的代理變數 (proxy variable) 。寬鬆而言，代理變數為和分析中我們想控制住的不可觀察變數有關係的變數。

可用一包含三個自變數，其中二個是可觀察的模型來解釋：

*0 1 1 2 2 3 3y x x x u


9.10


對 x3 的要求（課本 p373 ）

假設（不可觀察的）和 x3是一樣的，因此我們跑以下迴歸

y 對 x1, x2, x3

將 x3代入方程式以代替，我們稱此為遺漏變數問題的代入解 (plug-in solution to the omitted variables problem) 。（課本 p373 ）

*3x

*3x


9.12


代入解得出 β1 和 β2 之一致性估計式所需的假設可分為對 u 和 v3 的假設：

誤差項 u 和 x1 、 x2 及無關，這只是模型(9.10) 的標準假設。

誤差 v3 和 x1 、 x2 及 x3無關。（課本 p374 ）

*3x

* *3 1 2 3 3 3 0 3 3E( | , , ) E( | )x x x x x x x

*3 0 1 1 2 2 3 3 3x x x x v

0 3 0 1 3 1 1 2 3 2 2

3 3 3 3 3

( ) ( ) ( )

y x x

x u v


9.13

9.14

9.15



使用前期應變數當成代理變數懷疑某個或多個自變數和某遺漏變數相關，但我們不知如何得到該遺漏變數的代理。在這種情況下，我們可以包括為了控制的理由，加入應變數的前期。這在政策分析時特別有用。

在橫斷面方程式中使用前期應變數 (lagged dependent variable) 增加了對資料數量的要求。

一個簡單的方式將過去因素導致應變數的當期差異列入考量，這是使用其他方法所難以考量到的。


使用前期應變數當成代理變數例如，有些城市在過去有高犯罪率。很多相同的不可觀察因素對高的過去和當期犯罪率都有影響。（課本 p370, 9.16 式）

要使用前期應變數為代理變數，必須考慮過去和未來的應變數之間的連結性。

課本範例 9.4


使用前期應變數當成代理變數


對複迴歸的不同看法一個對複迴歸較不結構化，更一般化的作法是放棄在模型中設定不可觀察變數。

例如，在工資範例中，以 lwage 代表 log(wage) ，我們可估計 E(lwage|educ, exper, tenure, south, urban, black, IQ)

回答了我們感興趣的問題：如果二個人有相同的IQ 水準 ( 以及相同經驗、年資等等 ) ，但他們教育水準相差一年，則其預期 log 工資的差異為何？　（表 9.2 ： IQ 相同之下，教育水準相差一年，工資差了5.4% ）


9.3 隨機斜率模型如果某變數的偏效果取決於會隨著母體中觀察值的不同而不同之不可觀察因素時，要如何處理？若我們只有一個自變數 x ，我們可將一般模型 i 代表母體中的一個隨機抽取寫為

其中 ai為第 i 個觀察值的截距項且 bi為斜率。

i i i iy a b x


9.17

9.3 隨機斜率模型在第 2 章之簡單迴歸模型中，我們假設 bi = β 和

把 ai歸為誤差項 ui 。 (9.17) 式的模型因不可觀察的斜率係數 bi 被視為和可觀察的資料 (xi, yi) ，以及不可觀察的截距 ai相同，都是由母體中隨機抽取的，故有時稱為隨機係數模型 (random coefficient model) 或隨機斜率模型 (random slop model) 。


9.4 衡量誤差之 OLS 特性有時在經濟應用中，我們無法收集真正影響經濟行為變數的資料。

當我們在迴歸模型中對某經濟變數使用了不精確的衡量，模型中就包含了衡量誤差。

在代理變數的情況，我們要找一個和不可觀察變數有關係的變數。

在衡量誤差的情況，我們觀察不到的變數是擁有定義良好的數量化的意義 ( 諸如邊際稅率或年所得 ) ，但我們的資料可能包含誤差。


9.4 衡量誤差之 OLS 特性另一個代理變數和衡量誤差問題的重要差異在於，後者通常衡量錯誤的自變數是我們主要感興趣的變數。在代理變數的情況，遺漏變數的偏效果很少是我們主要感興趣的：我們通常對其他自變數的效果感興趣。


應變數的衡量誤差令 y* 代表我們想解釋的變數。

且我們假設其滿足高斯馬可夫假設。令 y 代表 y* 之可觀察的衡量。（ p384 ：可預期 y 和 y* 有所不同）

*0 1 1 k ky x x u


9.23

應變數的衡量誤差衡量誤差 ( 在母體中 ) 是定義為觀察值和實際值的差異：

寫下 y* ＝ y － e0 ，將其代入 (9.23) 式，重新整理可得：

*0e y y

0 1 1 0k ky x x u e


9.24

9.25

應變數的衡量誤差當應變數是對數的形式，故 log(y*) 為應變數，很自然地衡量誤差的形式為

這產生 y 的相乘項的衡量誤差 (multiplicative measurement error) ： y = y*a0，其中 a0 > 0 ，且 e0

= log(a0) 。若應變數的衡量誤差和一個或多個自變數有系統性的關係，則可能導致 OLS 的偏誤。若衡量誤差只是與自變數無關的隨機呈報誤差，則 OLS 是完全適用的。

0log( ) log( *)y y e


9.26

自變數的衡量誤差從簡單迴歸模型開始（ EX: x* 為真實所得； x 為呈報所得

）

母體的衡量誤差為

且其可為正、負或零。我們假設母體中平均衡量誤差為 0 : E(e1) = 0 。這是很自然的假設，且在任何情況也不會影響到之後的重要結論。

*0 1 1y x u

*1 1 1e x x


9.27

9.28

自變數的衡量誤差一個假設為 e1和可觀察的衡量 x1無關。

古典的誤差在變數中 (classical errors-in-variables, CEV) 假設衡量誤差和不可觀察的自變數無關：

1 1Cov( , ) 0x e

0 1 1 1 1( )y x u e

*1 1Cov( , ) 0x e

*1 1 1x x e


9.29

9.30

9.31

自變數的衡量誤差若假設 (9.31) 式成立，則 x1 和 e1 必定相關：

1 1

* 2 2 21 1 1 1 1 1 1Cov( , ) E( ) E( ) E( ) 0 e ex e x e x e e


9.32

自變數的衡量誤差之機率極限為 β1 加 x1以及 u β1e1之共變異數對 x1變異數的比率：

1

*11

*1 1

* *1 11 1

1 1 11 1

1

21

1 2 2

22

1 12 2 2 2

Cov( , )ˆplim( )Var( )

1

e

ex

e x

e ex x

x u e

x

1̂


9.33

自變數的衡量誤差CEV 之 OLS 的縮減偏誤 (attenuation bias) ：平均而言 ( 或在大樣本中 ) ，估計的 OLS 之效果將被減小。　 (p. 389)

相對於衡量誤差的變異數若的變異數很大，則 OLS 的不一致性將會很小。

這是因為之值當很大時會接近 1 。

*1x

*1 1Var( ) / Var( )x x *

11

2 2/ ex

0 1 1 2 2 3 3 1 1y x x x u e


9.35

自變數的衡量誤差在估計 β1時仍會有縮減偏誤：我們可證明

*1

*11

2

1 1 2 2ˆplim( ) r

er


9.36

遺漏資料遺漏資料 (missing data) 問題可以有各種產生的形式。

若應變數或某自變數有一觀察值的資料遺漏，則該觀察值在標準的複迴歸分析中就不能被使用。

若資料的遺漏是隨機性的，則影響只是樣本規模變小而已。雖然這讓估計式較不精確，它並不會產生任何偏誤。（隨機抽樣假設 MLR.2 仍成立）

在大多數情況下，我們都是直接忽略有遺漏資訊的觀察值。


非隨機樣本當遺漏資料產生了母體中的非隨機樣本

(nonrandom sample) 時，問題就比較大。特定形式的非隨機抽樣並不會導致 OLS 的偏誤或不一致性。

在高斯馬可夫假設下 ( 但無 MLR.2) ，是可基於自變數來選擇樣本而不會導致任何統計上的問題。這稱為基於自變數的樣本選擇，且這也是外生樣本選擇 (exogenous sample selection) 的一個例子。


非隨機樣本當選擇基於應變數 y 時事情就完全不同了，這稱為基於應變數的樣本選擇，且為內生樣本選擇(endogenous sample selection) 的一個例子。

若樣本是基於是否應變數高於或低於某數值，則估計母體模型的 OLS 將產生偏誤。

其他抽樣方法常常有意的得到母體之非隨機樣本。一個常用的資料收集方法為層級抽樣 (stratified sampling) ，其將母體區分為互不包含並且為耗竭性 (exhaustive) 的幾個群體。


極端值和影響力觀察值在某些應用中，特別是小樣本資料集， OLS 估計會被一個或幾個觀察值所影響。本書稱此種觀察值為極端值 (outliers) 或影響力觀察值 (influential observations) 。

有時候極端值是以所有觀察值跑 OLS 迴歸之殘差大小來界定的。

類標準化殘差 (studentized residuals) 是由原來的OLS 殘差除以標準差的估計值 ( 條件於樣本中的自變數 ) 而來。

特定的函數形式對極端觀察值較不敏感。


極端值和影響力觀察值

CH9 設定和資料問題之進一步探討第 397 頁圖 9.1

9.6 最小絕對差異估計除了試著決定哪一個觀察值對 OLS 估計有影響外，另一種對抗極端值的方式是使用比 OLS 對於極端值較不敏感的估計方法。其中的一個方法，在實證研究中很受歡迎，稱為最小絕對差異法 (least absolute deviations, LAD) 。

在線性模型中之 βj的估計式是極小化殘差之絕對值的和

與 OLS 極小化殘差平方和不同， LAD 估計並沒有公式解。

0 10 1 1

, , ,1

min | |k

n

i i k ikb b b

i

y b b x b x


9.45

9.6 最小絕對差異估計

CH9 設定和資料問題之進一步探討第 402 頁圖 9.2

9.6 最小絕對差異估計LAD 是用來估計在 x1, x2......, xk 之 y 的條件中位

數 (conditional median) 的參數而非條件平均數。由於中位數並不會受到極端觀察值的影響，因此

LAD 參數估計對於極端觀察值是較有抵抗性的。


Documents

Chapter 9