Mei-Yuan Chen Department of Finance National Chung Hsing …web.nchu.edu.tw/~finmyc/stat12p.pdf · 第十二章: 簡單迴歸分析及相關理論 Mei-Yuan Chen Department of Finance

第十二章: 簡單迴歸分析及相關理論

Mei-Yuan Chen

Department of Finance

National Chung Hsing University

February 19, 2013

M.-Y. Chen 簡單迴歸

相關理論

在統計上, 分析變數間的關係是屬於多變量分析(Multivariate

Analysis)的範疇, 當然有許多分析方法探討變數間的關係, 而相

關分析(Correlation Analysis)和迴歸分析(Regression

Analysis)是最常用的兩種。在這一章中, 我們首先討論相關分析

對於變數間關係的探討, 以作為往後章節討論迴歸分析的基礎。


相關性(Correlation)

相關性(Correlation)可用來說明兩個或許多個變數間的相關程

度; 兩個變數間的相關程度稱為簡單相關(simple correlation),

而三個或三個以上變數間的相關程度則稱為複相關(multiple

correlation); 在本章節中, 我們先討論兩個變數間的相關程度。

就兩個隨機變數而言, 其間可能存在線性(linear)與非線

性(nonlinear)的關係, 而不論是線形或非線性的關係, 均可分

為正相關(positive correlation), 負相關(negative

correlation)和無相關(no correlation)。


假設兩個變數X和Y 定義於一個隨機實驗 (experiment) 裡可能

出象 (outcome) 中的兩個特徵, 而以(x, y)表示每一次試驗

(trial) 所成對出現的該兩個特徵的出象而被X和Y 定義的實現

值; 若成對出現的實現值(x, y)存在較大的x值總是伴隨著較

大y值的出現, 則稱這兩個變數X和Y 為線性正相關(linear

positive correlation), 而若成對出現的實現值(x, y)存在x值

與y值的一對一關係, 則稱為完全線性正相關(perfect linear

positive correlation); 反之, 若成對出現的實現值(x, y)存在較大

的x值總是伴隨著較小y值的出現, 則稱這兩個變數為線性負相

關(linear negative correlation), 而若x值與y值存在一對一的關

係, 則稱X和Y 為完全線性負相關(perfect linear negative

correlation); 最後, 若x值與y值的大小不存在正相關或負相關則

稱為線性無相關或線性零相關(zero linear correlation);


然而, 在此我們必須提出的是, 若成對出現的實現值(x, y)呈現如

圖的圖形, 很明顯地, 這兩個隨機變數X和Y 是相關的, 只是其間

的關係呈現一個圓形關係, 因此, 我們不能說X和Y 存在零相關。

若我們限定X和Y 為線形關係的討論時, 則如圖的實現

值(x, y)將歸類為零相關, 但在非線形關係下, 將歸類為有相關。


兩個變數X和Y間的共變異數cov(X, Y )定義為

cov(X, Y ) = E[(X − E(X))(Y −E(Y ))].

由前述相關性的定義, 我們知道若X和Y 為正相關, 則絕大部份

的實現值(x, y)呈現出

1. x− E(X) > 0伴隨著y −E(Y ) > 0, 因而使

得(x− E(X))(y − E(Y )) > 0, 或者,

2. x− E(X) < 0伴隨著y −E(Y ) < 0, 因而使

得(x− E(X))(y − E(Y )) > 0。


因此,X和Y間的共變異數cov(X, Y )將為大於零的數值, 而數值

愈大, 其間的正相關性愈強。再者, 若X和Y 為負相關, 則絕大部

份的實現值(x, y)呈現出

1. x− E(X) > 0伴隨著y −E(Y ) < 0, 因而使

得(x− E(X))(y − E(Y )) < 0, 或者,

2. x− E(X) < 0伴隨著y −E(Y ) > 0, 因而使

得(x− E(X))(y − E(Y )) < 0。

因此,X和Y間的共變異數cov(X, Y )將為小於零的數值, 而數值

愈小 (絕對值愈大), 其間的負相關性愈強。而若X和Y 為零相關

時, 則絕大部份的(x−E(X))(y − E(Y ))數值將呈現正、負抵

消的現象, 因而使cov(X, Y )等於零。


以共變異數的正、負號可判別正、負相關性, 且其絕對數值越大,

其相關性越強。因此, 共變異數似乎是衡量兩個變數間相關性的

統計量, 但其存在一個問題, 即是其數值受到隨機變數衡量單位

的影響, 使得我們無法直接由共變異數數值的大小判斷相關性的

強弱; 例如,X為以公分為衡量單位的身高變數, 而Y 為以公克為

衡量單位的體重變數, 假設其間的共變異數為75(公分×公克);

但若改以公尺衡量身高而以公斤衡量體重, 則其間的共變異數為

0.0000075(公尺×公斤), 因此, 同樣的兩個隨機變數, 將因衡量

單位的不同會有不同的共變異數值; 是故, 在以比較變數間的相

關性強度時, 必須先確定其衡量單位是相同的。


為省卻變數衡量單位造成以共變異數數值比較相關性強度的困

擾, 隨機變數的衡量單位必須加以處理, 處理的方式如同前面章

節所介紹的Z-score 一般, 將隨機變數除上其標準差 (standarddeviation), 如此, 該隨機變數即改以標準差為衡量單位,即X∗ = X/

√

var(X)和Y ∗ = Y/√

var(Y ), 如此, 以標準差為

衡量單位的變數間之共變異數為

cov(X∗, Y ∗) = E[(X∗ − E(X∗))(Y ∗ − E(Y ∗))]

= E

[(

X√

var(X)− E(X)√

var(X)

)(

Y√

var(Y )− E(Y )√

var(Y )

)]

= E

[

(X − E(X))(Y − E(Y ))√

var(X)√

var(Y )

]

=E[(X − E(X))(Y − E(Y ))]

√

var(X)√

var(Y )

=cov(X,Y )

√

var(X)√

var(Y ).


而此定義於以標準差為衡量單位的變數間之共變異數, 稱為兩個

變數X和Y間的相關係數(correlation coefficient), 通常以rX,Y表

示之, 即

rX,Y =cov(X, Y )

√

var(X)√

var(Y )


至於相關係數的樣本估計式(rX,Y ) 則是以樣本共變異

數( ˆcov(X, Y ))及樣本變異數 (var(X)和var(Y )) 代入上式中,

rX,Y =ˆcov(X, Y )√

var(X)

√

var(Y ) =SX,Y

SXSY

,

其中,

SX,Y =

∑ni=1(xi − xn)(yi − yn)

n= X和Y 的樣本共變異數

SX =

√

∑ni=1(xi − xn)

2

n= X的樣本標準差

SY =

√

∑ni=1(yi − yn)

2

n= Y 的樣本標準差.


兩個變數X和Y間存在零相關, 表示rX,Y =或cov(X, Y ) = 0, 換

言之, 兩個變數X和Y 不相關, 僅表示

cov(X, Y ) =

∫

x

∫

y

(x−E(X))(y − E(Y ))f(x, y)dxdy = 0,

此條件並不隱含f(x, y) = f(x) f(y)的條件 (即X和Y 相互獨立

的條件) 其中,f(x, y)為變數X和Y間之聯合機率密度函

數,f(x)和f(y)分別為變數X和Y 之機率密度函數。也就是說, 兩

個變數相關係數等於零即沒有相關, 並不一定表示此兩個變數相

互獨立。


相反地, 若兩個變數相互獨立, 則此兩個變數的相關係數必定為

零, 因為

cov(X, Y )

=

∫

x

∫

y

(x− E(X))(y −E(Y ))f(x, y)dxdy

=

∫

x

∫

y

(x− E(X))(y −E(Y ))f(x)f(y)dxdy,因X和Y相互獨立

= [

∫

x

(x− E(X))f(x)dx][

∫

y

(y −E(Y ))f(y)dy]

= 0× 0 = 0.


部份相關係數

在人力資源的研究中, 一個家庭的教育支出與家庭所得間的關係

一直是研究的重點, 但是, 家庭所得與教育支出間的關係也會因

家庭父母的教育水準不同而有所差異; 通常教育水準較高的父母

會較重視子女教育, 因而, 當家庭所得越高時, 其教育支出亦會

隨之增加; 但教育水準較低的父母比較不重視子女教育, 其教育

支出會隨家庭所得增加而增加的相關性較低; 因此, 為衡量真正

教育支出與家庭所得間的關係, 我們必須能將父母的教育固定在

某一水準, 然後再進行討論; 此時,部份相關係數(partial

correlation coefficient) 則提供了適當的衡量方法。


假設以X表示家庭所得、Y表示家庭教育支出和Z代表父母教育水準, 再者, 令

rX,Y = 家庭所得和家庭教育支出間的相關係數

rX,Z = 家庭所得和父母教育水準間的相關係數

rY,Z = 家庭教育支出和父母教育水準間的相關係數.

則在維持父母教育水準固定下, 家庭所得和家庭教育支出間的部份相關係數

定義為

rX,Y |Z =rX,Y − rX,Z rY,Z

√

(1 − r2X,Z)(1− r2Y,Z).

而在維持家庭所得固定下, 家庭教育支出和父母教育水準間的部份相關係數

定義為

rX,Z|Y =rX,Z − rX,Y rY,Z

√

(1 − r2X,Y )(1− r2Y,Z).


簡單線性迴歸分析

對於兩個隨機變數X和Y 之間的關係, 除了檢驗他們是否相互獨

立外, 若存在相關, 則以相關係數或等級相關衡量其間相關的程

度; 除此,

除此, 有些隨機變數間存在因果關係, 若隨機變數X和Y 之間存

在因果關係, 即Y = f(X), 此表示隨機變數Y 受隨機變數X的

影響, 換言之, 任何一個隨機變數X的實現值代入函數f(·)中, 即

可得到一個隨機變數Y 的實現值; 因此, 隨機變數X為因而隨機

變數Y 為果, 而其間的因果關係即為函數f(·)所表示, 如何利用

樣本資料估算函數f(·)的形式與參數的數值, 即為迴歸分析的主

要工作。


Linear Conditional Mean

✲ X

✻Y

✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏

x1 x2 x3

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

E(Y |X = x) = α0 + β0x

Is E(Y |X) constant?

H0 : E(Y |X = x1) = α0

H0 : E(Y |X = x2) = α0

H0 : E(Y |X = x3) = α0


在初等統計的討論中, 以線形的函數f(·)為主; 因此, 我們所考慮

的線形關係為:Y = a+ bX , 迴歸分析的工作即在於以觀察到的

一組包含n個成對觀察值{(xi, yi)}ni=1的樣本, 進行對參數值a

和b的估計與統計檢定, 由於實際蒐集到的樣本觀察

值{(xi, yi)}ni=1不可能百分之百符合Y = a + bX的線形關係, 因

此, 我們加入一個隨機“誤差項”U於線形關係中, 因此我們的迴

歸模型為

yi = a + bxi + ui, i = 1, 2, . . . , n.


隨機誤差項的加入, 乃在於使允許實際觀察值xi與yi的關係與確

定 (deterministic) 的直線Y = a+ bX間存在差異, 而這差異隨

著觀察值i的不同存在隨機的差異; 因此, 誤差項的加入, 使得迴

歸模型呈現出觀察值xi與yi的隨機 (stochastic) 線形關係。由於,

隨機變數Y 的實現值決定於隨機變數X的實現值, 因此, 隨機變

數Y被稱為被解釋變數 (explained variable)或應變數

(dependent variable), 而隨機變數X則被稱為解釋變

數(explanatory variable)或獨立變數(independent variable)。


在迴歸分析的討論中, 兩個變數間的簡單線形迴歸模型是最基礎

的討論, 因此, 我們也從簡單線形迴歸模型開始討論; 假設我們

知道變數y僅受到變數x的影響, 且其影響效果為直線型,

即y = α0 + β0x; 由這線形關係可知道, 每增加一單位的x即可

產生β0單位y的增加, 因此, 如何利用樣本觀察資料估計α0和β0,

即成為研究的重點; 為能使實際資料與線形關係相配合, 而能從

事實證分析, 我們必須在線形關係中加入一個誤差項 (error

terms, errors), 即成為所謂的簡單線形迴歸模型 (simple linear

regression model)。換言之, 變數間的關係是由某個理論 (如經

濟理論、財務理論) 所決定, 加入誤差項後始成為迴歸模型, 進

而才能從事實證分析。


對於一個迴歸模型, 我們要從事的實證分析主要包括: 參數估計 (parameter

estimation)、統計推論 (statistical inference) 及預測 (forecasting) 等; 為了

能進行這些實證分析, 一些假設條件是必須加入的,首先我們先假設以下的古

典假設 (classical assumptions) 是成立的:

(1) 所有觀察值{yi, xi}ni=1均滿足yi = α0 + β0xi + ǫi的迴歸模型, 其

中ǫi為誤差項;

(2) xi為非隨機的且不為固定的常數;

(3) E(ǫi) = 0, i = 1, . . . , n;

(4) E(ǫ2i ) = σ20 , 且對於任何觀察值i, j而i 6= j, E(ǫi, ǫj) = 0;

(5) ǫi是獨立且均等的常態分配, 即ǫi ∼ N(0, σ20)。


對於上述的古典假設, 我們進一步說明如下: 假設條件(1) 在於

表示變數X和Y間的關係確如分析的簡單線形關係, 當然, 我們

無法確知X和Y間真正的關係, 可能關係是非線形的, 或者, 可能

有其他的變數被遺漏了, 即存在遺漏變數 (omitted variables),

這些我們均將在往後的章節中有所討論; 假設條件 (2) 中, xi為

非隨機的表示xi的數值是可控制的, 即假設我們可以重複抽取樣

本資料, 則在每一組抽出的樣本中每一個第i個觀察值xi是相同

的數值, 因此, 該數值是必然發生於第i個觀察值, 是故其為非隨

機的 (發生的機率為1), 至於xi不為固定常數的假設條件, 表示

樣本資料中所有xi的觀察值不全為相同的數值, 如此方能

使∑n

i=1(xi − xn)2 6= 0, 而xn為X的樣本平均數;


假設條件(3) 和 (4) 表示誤差項是平均數固定為0而變異數固定

為σ20的隨機變數, 固定變異數的假設在實際資料中是不切實際

的, 我們會在往後的章節中討論這個假設條件放寬下的處理方

法; 至於假設條件 (5) 乃對於誤差項加入常態分配的假設, 此假

設條件使我們能在小樣本下進行對α0和β0的統計推論, 當然, 常

態分配的假設通常是不切實際的, 如果不為常態分配, 則大樣本

理論 (large sample theory) 的討論是必要, 此外, 頑強估計式

(robust estimators) 的使用是另一個選擇, 我們都會在往後的章

節中有所討論。由簡單線形迴歸的這些古典假設中, 我們知道所

要估計的未知參數包括α0、β0和σ20, 以下我們先討論最小平方估

計式。


在前面章節對於母體參數估計式的討論中, 我們知道具有較小均

方差(mean sqaure errors, MSE) 的估計式才是較好的估計式,

對於一個母體參數θ而言, 任一個θ的估計式θ, 其所定義的均方

差為

MSE(θ) = E[(θ − θ)2]

= E[θ − E(θ)]2 + [E(θ)− θ]2.

由於MSE(θ)是無法由樣本資料觀察而得, 因此, 祇得以樣本平

均數予以取代; 在簡單線性迴歸模型的問題

中,θ = y = α0 + β0x+ ǫ, 而估計式則為θ = y = α+ βx, 因此,

所對應的均方差為

MSE(y) = E[(y − y)2] = E[(α + βx)− (α0 + β0x+ ǫ)]2.


是故, 一個好的估計式y(亦即α和β) 即使上述均方差最小; 換言

之, 一個好的估計式即等於使均方差最小的解答, 即

{α, β} = argminE[(α + βx)− (α0 + β0x) + ǫ]2

= E[y − (α + βx)]2.

由於E[y − (α+ βx)]2無法由樣本資料{(yi, xi)}ni=1觀察得知, 因

而只能以樣本平均估計值予以代替, 即

以∑n

i=1(yi − α− βxi)2/n替代E[y − (α + βx)]2, 而估計

式αn和βn滿足∑n

i=1(yi − α− βxi)2/n為最小, 即

{αn, βn} = argmin1

n

n∑

i=1

(yi − α− βxi)2.

此估計式αn和βn即為簡單線形迴歸模型參數α0和β0的最小平方

估計式 (ordinary least squares estimator, OLS)。M.-Y. Chen 簡單迴歸

令函數f(α, β)表示樣本均方差, 即

f(α, β) =1

n

n∑

i=1

(yi − α− βxi)2.

則使樣本均方差達到極值 (極大值或極小值) 的一階條件 (first

order condition, FOC) 為

∂

∂αf(α, β) = −2

1

n

n∑

i=1

(yi − α− βxi) = 0, (1)

∂

∂αf(α, β) = −2

1

n

n∑

i=1

(yi − α− βxi)xi = 0, (2)

上兩式 (1) 和 (2) 通常稱為“正規方程式”(normal equations)。


又由於二階條件(second order condition, SOC) 為

∂2

∂α2f(α, β) = −2

1

n

n∑

i=1

−1 = 2 > 0,

∂

∂αf(α, β) = −2

1

n

n∑

i=1

−βx2i =

n∑

i=1

x2i > 0.

因二階條件均大於零, 因此滿足一階條件的極值為極小值, 符合

我們極小值得求解。


由式(1) 的一階條件, 我們得到:

α =1

n

n∑

i=1

yi − β1

n

n∑

i=1

xi = y − βx, (3)

將此結果代入式 (2) 的一階條件中即得到

1

n

n∑

i=1

yixi = (y − βx)1

n

n∑

i=1

xi + β1

n

n∑

i=1

x2i


進而得到

β

(

1

n

n∑

i=1

xi(xi − x)

)

=1

n

n∑

i=1

xi(yi − y). (4)

從式 (3) 和 (4) 我們即可得到α0和β0的最小平方估計式:

β =

∑ni=1(yi − y)(xi − x)∑n

i=1(xi − x)2, (5)

α = y − βx. (6)


利用Cramer’s rule來進行“正規方程式”即式 (1) 和式 (1) 聯立

方程式的求解, 由式 (1) 和式 (1) 所形成的聯立方程式為

nα +

n∑

i=1

xiβ =

n∑

i=1

yi

n∑

i=1

xiα+

n∑

i=1

x2iβ =

n∑

i=1

xiyi

則依 Cramer’s rule 的求解為:


αn =

∣

∣

∣

∣

∣

∑ni=1 yi

∑ni=1 xi

∑ni=1 xiyi

∑ni=1 x

2i

∣

∣

∣

∣

∣

∣

∣

∣

∣

∣

n∑n

i=1 xi∑n

i=1 xi

∑ni=1 x

2i

∣

∣

∣

∣

∣

=(∑n

i=1 yi)(∑n

i=1 x2i )− (

∑

i=1 xi)(∑n

i=1 xiyi)

n∑n

i=1 x2i − (

∑ni=1 xi)2

, (7)

βn =

∣

∣

∣

∣

∣

n∑n

i=1 yi∑n

i=1 xi

∑ni=1 xiyi

∣

∣

∣

∣

∣

∣

∣

∣

∣

∣

n∑n

i=1 xi∑n

i=1 xi

∑ni=1 x

2i

∣

∣

∣

∣

∣

=n∑n

i=1 xiyi − (∑

i=1 xi)(∑n

i=1 yi)

n∑n

i=1 x2i − (

∑ni=1 xi)2

. (8)


此外, 上兩式中的分母項為:

n

n∑

i=1

x2i − (

n∑

i=1

xi)2 = n

n∑

i=1

x2i − n2(

n∑

i=1

xi/n)2

= nn∑

i=1

x2i − n2x2

n

= n

[

n∑

i=1

(xi − xn)2

]

.


而式 (7) 中的分子項為:

n

n∑

i=1

xiyi − (∑

i=1

xi)(

n∑

i=1

yi) = n

n∑

i=1

xiyi − n2xnyn

= nn∑

i=1

xiyi − n2xnyn − n2xnyn + n2xnyn

= n

n∑

i=1

xiyi − n

n∑

i=1

xiyn − nxn

n∑

i=1

yi + n2xnyn

= n

(

n∑

i=1

xiyi −n∑

i=1

xiyn − xn

n∑

i=1

yi + nxnyn

)

= n

n∑

i=1

(xi − xn)(yi − yn).

因此, 我們得到

βn =

∑ni=1(xi − xn)(yi − yn)∑n

i=1(xi − xn)2


再者, 因為∑n

i=1(xi − xn)yn = yn∑n

i=1(xi − xn) = 0, 上式可

進一步簡化為

βn =

∑ni=1(xi − xn)yi

∑ni=1(xi − xn)

2.


綜合以上結果, 我們依然可以得到如同α0和β0之最小平方估計

式:

βn =

∑ni=1(xi − xn)yi∑n

i=1(xi − x)2,

αn = yn − βnxn.

通常, 方程式y = αn + βnx稱為迴歸線 (regression line),

而{yi}ni=1稱為配適值 (fitted values),

而ei = yi − yi, i = 1, . . . , n則稱為殘差值 (residuals)。


至於, 另一個待估計的未知參數為誤差項(ǫi) 的變異數 (σ20), 其

最小平方估計式為

σ2n =

1

n− 2

n∑

i=1

(yi − yi)2 =

1

n− 2

n∑

i=1

e2i .


習題: 令ei = yi − αn − βnxi,αn和βn為最小平方估計式, 證明

1.∑n

i=1 ei = 0;

2.∑n

i=1 yi =∑n

i=1 yi;

3.∑n

i=1 xiei = 0;

4.∑n

i=1 yiei = 0.


簡單線形迴歸模型:yi = α0 + β0 + ǫi中, 由於假設 (5) 隱含假設 (3) 和 (4)

的成立, 且在假設 (1) 下:yi = α0 + β0xi + ǫi,

E(yi) = E(α0 + β0xi + ǫi)

= α0 + β0E(xi) + E(ǫi), 因α0和β0為常數

= α0 + β0xi因xi為非隨機的且E(ǫi) = 0

var(yi) = var(α0 + β0xi + ǫi)

= var(ǫi) = σ20 .

由於假設 (5) 中ǫi為常態分配, 而α0 + β0xi為非隨機的數, 因此,yi將與ǫi同

為常態分配, 即

yi ∼ N(α0 + β0xi, σ20).

α0和β0的最小平方估計式αn和βn具有以下的特性:


特性1: 線形估計式

在假設 (1) 的條件下,αn和βn是yi的線形估計式 (linear eatimator in yi),

即αn和βn均可寫成所有yi的線性組合 (linear combination), 如∑

i=1 kiyi。

證明: 我們先討論βn, 由其估計式

βn =


∑ni=1(xi − xn)2

=

n∑

i=1

xi − xn)∑n

i=1(xi − xn)2yi

=

n∑

i=1

kiyi.

所以,βn是所有{yi}觀察值得線性組合, 故βn是yi的線形估計式; 很明顯

的,∑n

i=1 ki = 0因為∑

(xi − xn) = 0。


另者,

αn = yn − βnxn

=1

n

n∑

i=1

yi − xn

n∑

i=1

kiyi

=

n∑

i=1

(

1

n− xnki

)

yi =

n∑

i=1

hiyi.

故αn是yi的線形估計式。


特性2: 不偏估計式在假設 (2) 和 (3) 的條件下,αn和βn分別是α0和β0不偏估計式 (unbiased

estimators), 即E(αn) = α0和E(βn) = β0。

證明: 由於∑n

i=1(xi − xn)xi =∑n

i=1(xi − xn)2, 則

βn =


∑ni=1(xi − xn)2

=

∑ni=1(xi − xn)(α0 + β0xi + ǫi)

∑ni=1(xi − xn)2

假設條件(1)

=

∑ni=1(xi − xn)α0∑n

i=1(xi − xn)2+

∑ni=1(xi − xn)xiβ0∑n

i=1(xi − xn)2+

∑ni=1(xi − xn)ǫi

∑ni=1(xi − xn)2

=

∑ni=1(xi − xn)

2β0∑n

i=1(xi − xn)2+


∑ni=1(xi − xn)2

因

n∑

i=1

ki = 0

= β0 +


∑ni=1(xi − xn)2

.


因此, 在上式中最後一個等號兩邊取期望值即得

E(βn) = E

(

β0 +


∑ni=1(xi − xn)2

)

= β0 +

∑ni=1(xi − xn)E(ǫi)∑n

i=1(xi − xn)2在假設條件(2) 下

= β0 在假設條件(3) 下,E(ǫi) = 0

故βn是β0的不偏估計式 (unbiased estimator)。另者, 由於

αn = yn − βnxn

=1

n

n∑

i=1

(α0 + β0xi + ǫi)− βnxn

= α0 + β0xn +n∑

i=1

ǫi/n− βnxn 假設條件(1) 下

= α0 + (β0 − βn)xn +

n∑

i=1

ǫi/n,


因此, 在上式中最後一個等號兩邊取期望值即得

E(αn) = E[α0 + (β0 − βn)xn +n∑

i=1

ǫi/n]

= α0 + E(β0 − βn)xn 假設條件(2) 和 (3) 下

= α0. 因βn為β0的不偏估計式

故αn為α0的不偏估計式。在此值得注意的是, 我們證

明αn和βn的不偏性時, 假設條件 (1)、(2) 和 (3) 是必須成立在

先。


特性3: 變異、共變異數

在假設 (2)、(3) 和 (4) 的條件下,αn和βn的變異數和共變異數分

別為:

σαn:= var(αn) = σ2

0

(

1

n+

x2n

∑ni=1(xi − xn)

2

)

,

σβn:= var(βn) =

σ20

∑ni=1(xi − xn)

2,

σαnβn:= cov(αn, βn) = σ2

0

−xn∑n

i=1(xi − xn)2.


證明: 我們先推導βn的變異數, 在假設條件 (1) 和 (2)

下,yi = α0 + β0xi + ǫi且xi為非隨機的, 則var(yi) = var(ǫi) = σ20 , 再者由

假設條件 (4),cov(yi, yj) = cov(ǫi, ǫj) = 0, 我們可得到

var(βn) = var(

n∑

i=1

kiyi)

=n∑

i=1

k2i var(yi) + 2n∑

i=1

n∑

j=i+1

cov(yi, yi)

=n∑

i=1

k2i var(yi)

=

n∑

i=1

(

xi − xn∑n

i=1(xi − xn)2

)2

σ20 假設條件(4) 之var(ǫi) = σ2

0

=

∑ni=1(xi − xn)

2

[∑n

i=1(xi − xn)2]2σ20

=σ20

∑ni=1(xi − xn)2

.


再者,

var(αn) = var(n∑

i=1

hiyi) =n∑

i=1

h2i var(yi)

=

n∑

i=1

(

1

n− kixn

)2

σ20

= σ20

n∑

i=1

(

1

n2− 2

nxnki + k2

i xn

)

= σ20

(

1

n− 2xn

n

n∑

i=1

ki + x2n

n∑

i=1

k2i

)

= σ20

(

1

n+

x2n

∑ni=1(xi − xn)

2

)

.


最後, 對於兩個隨機變數X和Y ,a, b, c和d為常數, 則

cov(aX + bY, cX + dY ) = acvar(X) + bdvar(Y ) + (ad+ bc)cov(X,Y ).

因此,

cov(αn, βn) = cov

(

n∑

i=1

hiyi,

n∑

i=1

kiyi

)

=

n∑

i=1

hikivar(yi) + 2

n∑

i=1

n∑

j=i+1

cov(Yi, yj)

=

n∑

i=1

ki

(

1

n− kixn

)

σ20

=

n∑

i=1

−k2i xnσ20

=−xn

∑ni=1(xi − xn)2

σ20 .


特性4: 高斯-馬可夫定理在假設 (2) 和 (3) 的條件下,αn和βn分別是α0和β0的最佳線性不偏估計式

(Best Linear Unbiased Estimators, BLUE)。此即為有名的高斯-馬可夫定理

(Gauss-Markov Theorem)。

證明: 由前面的特性,αn和βn均是{yi}的線形估計式, 假定另外有個線形估計

式為βn =∑n

i=1(ki + ci)yi, 其中ci為任一常數, 則

βn =

n∑

i=1

(ki + ci) yi =

n∑

i=1

(ki + ci)(α0 + β0xi + ǫi)

= α0

n∑

i=1

(ki + ci) + β0

n∑

i=1

(ki + ci)xi +

n∑

i=1

(ki + ci) ǫi.

如果βn要為不偏估計式, 必須∑n

i=1(ki + ci) = 0及∑n

i=1(ki + ci)xi = 1;

因此,n∑

i=1

ci = 0

n∑


而若βn為不偏估計式, 則βn的變異數為

var(βn) = var

(

n∑

i=1

(ki + ci) yi

)

=

n∑

i=1

(ki + ci)2var(yi) + 2

n∑

i=1

n∑

j=i+1

kikjcov(yi, yj)

=n∑

i=1

(ki + ci)2var(yi)

=

n∑

i=1

k2i σ

20 +

n∑

i=1

c2iσ20 + 2

n∑

i=1

ki ciσ20 .


由於

n∑

i=1

ki ci =

∑ni=1(xi − xn)ci

∑ni=1(xi − xn)

2=

∑ni=1 xici − xn

∑

ci∑n

i=1(xi − xn)2

= 0,

則

var(βn) =σ20

∑ni=1(xi − xn)

2+ σ2

0

n∑

i=1

c2i

= σ20

n∑

i=1

k2i + σ2

0

n∑

i=1

c2i ≥ var(βn) = σ20

n∑

i=1

k2i


所以var(βn) ≥ var(βn), 亦即βn較βn有效率; 因此, βn較任何其

他β0的線性不偏估計式具有較小的變異數。同樣的過程可用以

證明αn較任何其他α0的線性不偏估計式具有較小的變異數。

由於σ20的最小平方估計式σ2

n =∑n

i=1 e2i /(n− 2)並不是{yi}的

線形估計式, 因此, 高斯-馬可夫定理不適用於σ2n。


特性5: 常態抽樣分配

在假設 (5):ǫi ∼ N(0, σ20)的條件下, 以及假設 (2) 之xi為非隨機的,

且E(yi) = α0 + β0xi; 因此

yi = α) + β0xi + ǫi ∼ N(α0 + β0xi, σ20),

再者

cov(yi, yj)

= E[(yi − E(yi))(yi − E(yj))]

= E{[α0 + β0xi + ǫi − (α0 + β0xi)][α0 + β0xj + ǫj − (α0 + β0xj)]}= E(ǫiǫj) = 0. 假設(4) 條件下


因αn和βn是yi的線形估計式, 而yi為獨立的常態分配, 根據常態

分配的特性: 許多常態分配的線性組合仍為常態分配, 因

此,αn和βn均為常態分配; 綜合前面兩個特性, 則 αn為具平均

數α0和變異數var(αn)的常態分配, 而βn為具平均數β0和變異

數var(βn)的常態分配。亦即

αn ∼ N

(

(α0, σ20

[

1

n+

x2n

∑ni=1(xi − xn)

2

])

βn ∼ N

(

β0,x2n

∑ni=1(xi − xn)

2

)

.


特性6:對於最小平方迴歸殘差ei, 其具有以下特性:

E(ei) = E(yi − yi) = E(α0 + β0xi + ǫi − αn − βnxi)

= E[(α0 − αn) + (β0 − βn)xi + ǫi]

= E(α0 − αn) + E(β0 − βn)xi + E(ǫi) = 0.

且

var(ei) = var[(α0 − αn) + (β0 − βn)xi + ǫi]

= var(αn) + var(βn) + var(ǫn) + 2xicov(αn, βn)

= σ20 [1/n+ x2

n/∑

i=1

(xi − xn)2] + σ2

0/∑

i=1

(xi − xn)2

+σ20 + σ2

0 [−xn/∑

i=1

(xi − xn)2]

= σ20{1 + 1/n+ [x2

i − 2xixn + x2n]/∑

i=1

(xi − xn)2]}

2

[

1 (xi − xn)2

∑

]


特性7:

因為σ20的最小平方估計視為σ2

n,var(αn)、var(βn)和cov(αn, βn)的

最小平方估計式為

s2αn:= var(αn) = σ2

n

(

1

n+

x2n

∑ni=1(xi − xn)

2

)

,

s2βn

:= var(βn) =σ2n

∑ni=1(xi − xn)

2,

sαnβn:= ˆcov(αn, βn) = σ2

n

−xn∑n

i=1(xi − xn)2.


特性8:σ2n =

∑ni=1 e

2i /(n− 2)是σ2

0的不偏估計式。因為

ei = yi − yi = yi − αn − βnxi

= (α0 − β0xi + ǫi)− (yn − βnxn)− βnxi

= (α0 − β0xi + ǫi)− (∑

i=1

(α0 + β0 + ǫi)/n− βnxn)− βnxi

= β0xi + ǫi − β0xn − ǫn − βnxn − βnxi

= −(βn − β0)(xi − xn) + (ǫi − ǫn),

n∑

i=1

e2i =n∑

i=1

(ǫiǫn) + (βn − β0)2

n∑

i=1

(xi − xn)2

−2(βn − β0)

n∑

i=1

(ǫi − ǫn)(xi − xn).


再者,

E[n∑

i=1

(ǫi − ǫn)2] = E(

n∑

i=1

ǫ2i − nǫ2n)

=

n∑

i=1

var(ǫi)− nvar(ǫn)

= nσ20 − n(σ2

0/n) = (n− 1)σ20 .

且

E[(βn − β0)2

n∑

i=1

(xi − xn)2]

=n∑

i=1

(xi − xn)2E(βn − β0)

2

=

n∑

i=1

(xi − xn)2[σ2

0/

n∑

i=1

(xi − xn)2]

= σ20 .


又因βn = β0 +∑n

i=1 kiǫi, 則

E[(βn − β0)ǫi] = E[(n∑

i=1

kiǫi)ǫi]

= kiE(ǫ2i ) = kiσ20,

以及

E[(βn − β0)ǫn] = E[(n∑

i=1

kiǫi)(n∑

i=1

ǫi/n)]

=1

n

n∑

i=1

kiσ20 = 0.


E[−2(βn − β0)n∑

i=1

(ǫi − ǫn)(xi − xn)]

= −2[

n∑

i=1

(xi − xn)E[(βn − β0)ǫi]] + 2

n∑

i=1

(xi − xn)E[(βn − β0)ǫn]

= −2

n∑

i=1

(xi − xn)kiσ20

= −2σ20 .

最後

E(

n∑

i=1

e2i ) = (n− 1)σ20 + σ2

0 − 2σ20 = (n− 2)σ2

0 .

因E(σ2n) = σ2

0 , 所以σ2n是σ2

0的不偏估計式。


特性9:

s2αn、s2

βn

和sαnβn分別是σαn

、 σβn和σαnβn

的不偏估計式。


由前面關於αn及βn特性的討論中, 我們知道

αn ∼ N(α0, σ2αn), βn ∼ N(β0, σ

2βn

),

則經常態分配標準化後, 我們得到

αn − α0

σαn

∼ N(0, 1),βn − β0

σβn

∼ N(0, 1).


此外, 如同在X ∼ N(µX , σ2X)的假設

下,∑n

i=1(xi − xn)2/σ2

X ∼ χ2(n− 1)的結果,

∑ni=1(yi − yi)

2

σ20

=

∑ni=1 e

2i

σ20

=(n− 2)σ2

n

σ20

∼ χ2(n− 2).


證明: 因為

ei = −(βn − β0)(xi − xn) + (ǫi − ǫn),

則

n∑

i=1

e2i =

n∑

i=1

(ǫi − ǫn)2 + (βn − β0)

2

n∑

i=1

(xi − xn)2

−2(βn − β0)

n∑

i=1

(xi − xn)(ǫi − ǫn). (9)


n∑

i=1

(ǫi − ǫn)2 =

n∑

i=1

[(ǫi − E(ǫi))− (ǫn − E(ǫi))]2

=

n∑

i=1

[ǫi − E(ǫi)]2 +

n∑

i=1

[ǫn − E(ǫi)]2 − 2

n∑

i=1

[(ǫi − E(ǫi))(ǫn − E(ǫi))]

=

n∑

i=1

[ǫi − E(ǫi)]2 +

n∑

i=1

[ǫn − E(ǫi)]2 − 2[ǫn − E(ǫi)]

(

n∑

i=1

ǫi − nE(ǫi)

)

=

n∑

i=1

[ǫi − E(ǫi)]2 +

n∑

i=1

[ǫn − E(ǫi)]2 − 2[ǫn − E(ǫi)] [nǫn − nE(ǫi)]

=

n∑

i=1

[ǫi − E(ǫi)]2 +

n∑

i=1

[ǫn − E(ǫi)]2 − 2n[ǫn − E(ǫi)]

2,


n∑

i=1

(ǫi − ǫn)2/σ2

0

=

n∑

i=1

[

ǫi − E(ǫi)

σ

]2

+

n∑

i=1

[

ǫn − E(ǫi)

σ0

]2

−2

[

(ǫn − E(ǫi)

σ0/√n

]2

∼ χ2(n) + χ2(1)− 2χ2(2) = χ2(n− 1).

而在式 (9) 中的第二項,

(βn − β0)2

n∑

i=1

(xi − xn)2/σ2

0

=

(

βn − β0√

σ20/∑n

i=1(xi − xn)2

)

∼ χ2(1).


最後在式 (9) 中的第三項, 由於βn − β0 =∑n

i=1 kiǫi, 因此

2(βn − β0)

n∑

i=1

(xi − xn)(ǫi − ǫn)/σ20

= 2(βn − β0)

n∑

i=1

(xi − xn)ǫi/σ20

= 2(βn − β0)/σ20

n∑

i=1

(xi − xn)2

n∑

i=1

xi − xn∑n

i=1(xi − xn)2ǫi

= 2(βn − β0)/σ20

n∑

i=1

(xi − xn)2(βn − β0) = 2

(βn − β0)2

σ2

0∑n

i=1(xi−xn)2

= 2

βn − β0√

σ2

0∑n

i=1(xi−xn)2

2

∼ 2N(0, 1)2 = 2χ2(1).


(n− 2)σ2n

σ20

=n∑

i=1

e2i /σ20

∼ χ2(n− 1) + χ2(1)− 2χ2(1) = χ2(n− 2).


亦如同在母體平均數的假設檢定的討論一樣,

xn − µX

sxn

=xn − µX√

s2x/n∼ t(n− 1),

其中s2x =∑n

i=1(xi − xn)2/(n− 1)為樣本變異數, 而sxn

為樣本

平均數xn的樣本變異數。值得注意的是, 假定我們考慮一個迴歸

模型:xi = α + ǫi, 則迴歸模型參數α的最小平方估計式定義為

αn =: argminα

1

n

n∑

i=1

(xi − xn)2.


而最小化的一階條件為

−2

n

n∑

i=1

(xi − αn) = 0.

因此,αn =∑n

i=1 xi/n = xn; 亦即參數α的最小平方估計式就等

於樣本觀察值{xi}ni=1的算術平均數, 因樣本觀察值{xi}ni=1的算

術平均數是一種位置衡量 (location measure), 故此迴歸模型稱

為位置模型 (location model); 在此模型中, 最小平方迴歸配適

值為xi = αn = xn, 而迴歸殘差值為ei = xi − xi = xi − xn, 進

而σ20的估計式為σ2

n =∑n

i=1(xi − xn)2/(n− 1)。所以, 在樣本變

異數估計式中的s2x =∑n

i=1(xi − xn)2即等

於∑n

i=1(xi − xi) =∑n

i=1 e2i , 因此,s2x = σ2

n。


因此,

αn − α0

sαn

∼ t(n− 2),βn − β0

sβn

∼ t(n− 2).

證明:

αn − α0

sαn

=αn − α0

√

σ2n[1/n+ x2

n/∑n

i=1(xi − xn)2]

=

αn−α0√σ2

0[1/n+x2

n/∑

n

i=1(xi−xn)2]

[(n− 2)σ2n/σ

20 ]/(n− 2)

∼ N(0, 1)√χ2(n−2)

n−2

= t(n− 2).


同樣地,

βn − β0

sβn

=βn − β0

√

σ2n/∑n

i=1(xi − xn)2

=

βn−β0√σ2

0/∑

n

i=1(xi−xn)2

(n− 2)σ2n/σ

20 ]/(n− 2)

∼ N(0, 1)√χ2(n−2)

n−2

= t(n− 2).


βn的抽樣分配

β0

βn ∼ N(β0,σ2

0∑n

i=1(xi−x)2

)

0

βn−β0√σ2

0/∑

n

i=1(xi−x)2

∼ N(0, 1)


在實際情況, 我們無法知道真實的α0和β0數值, 在迴歸分析中,

我們較有興趣的是想知道被解釋變數Y 是否真受到解釋變數X ,

因此, 最常見到的虛無假設為H0 : β = 0; 為便於討論, 以下我們

假設所面對的虛無假設為H0 : β = β∗, 則在此虛無假設為真

(即β∗ = β0) 下, 我們從前述所討論βn的抽樣分配可得到:

βnH0∼ N(β∗, σ2

0/

n∑

i=1

(xi − xn)2)

βn − β∗

√

σ20/∑n

i=1(xi − xn)2)

∼ N(0, 1)

βn − β∗

√

σ2n/∑n

i=1(xi − xn)2)

∼ t(n− 2)


然而當虛無假設不為真時, 即H0 : β = β∗ 6= β0, 我們假定β∗ = β0 +△, 其

中△ 6= 0, 因β0 = β∗ −△, 則

βnH0∼ N(β∗ −△, σ2

0/

n∑

i=1

(xi − xn)2)

βn − β∗

√

σ20/∑n

i=1(xi − xn)2)∼ N

(

−△√

σ20/∑n

i=1(xi − xn)2), 1

)

βn − β∗

√

σ2n/∑n

i=1(xi − xn)2)=

βn − β0√

σ2n/∑n

i=1(xi − xn)2)

+β0 −△

√

σ2n/∑n

i=1(xi − xn)2)

t(n− 2) +β0 −△

√

σ2n/∑n

i=1(xi − xn)2).


我們即可用t檢定從事虛無假設檢定:

tβ =βn − b

sβn

∼ t(n− 2).

若tβ > tγ(n− 2), 則我們在顯著水準γ下, 棄卻虛無假

設H0 : β0 ≤ b; 若tβ < −tγ(n− 2), 則我們在顯著水準γ下, 棄

卻虛無假設H0 : β0 ≥ b; 最後,

若tβ ≥ tγ/2(n− 2)或tβ ≤ −tγ/2(n− 2), 則我們在顯著水

準γ下, 棄卻虛無假設H0 : β0 = b。


α0和β0的1− γ信賴區間

P (−tγ/2(n− 2) ≤ tα ≤ tγ/2(n− 2))

= P

(

−tγ/2(n− 2) ≤ αn − α0

sαn

≤ tγ/2(n− 2)

)

= P(

−tγ/2(n− 2)× sαn≤ αn − α0 ≤ tγ/2(n− 2)× sαn

)

= P(

αn − tγ/2(n− 2)× sαn≤ α0 ≤ αn + tγ/2(n− 2)× sαn

)

,

P (−tγ/2(n− 2) ≤ tβ ≤ tγ/2(n− 2))

= P

(

−tγ/2(n− 2) ≤ βn − β0

sαn

≤ tγ/2(n− 2)

)

= P(

−tγ/2(n− 2)× sβn

≤ βn − β0 ≤ tγ/2(n− 2)× sβn

)

= P(

βn − tγ/2(n− 2)× sβn≤ β0 ≤ βn + tγ/2(n− 2)× sβn

)

.


因此,α0和β0的1− γ信賴區間分別為

[αn − tγ/2(n− 2)× sαn, αn + tγ/2(n− 2)× sαn

],

和

[βn − tγ/2(n− 2)× sβn, βn + tγ/2(n− 2)× sβn

].


對於一組樣本資料(yi, xi), i = 1, . . . , n, 我們以一個線形模

型yi = α0 + β0xi + ǫi來描述變數Y 的實現值與數值xi間的關係,

而以最小平方估計法估計α0和β0的參數值, 得到yi的配適值

(fitted values)(yi); 所以要評估線形模型設定與最小平方估計法

的參數估計是否適切, 我們可以比較所有配適值yi與實際觀察數

值yi間的差異, 假若其間差異大, 表示有可能是線形模型設定的

不適當, 抑或是最小平方估計法的參數估計的不適當; 而其間差

異小, 則表示線形模型設定與最小平方估計法的參數估計是適當

的。


而所有配適值yi與實際觀察數值yi間的差異可以

用∑n

i=1(yi − yi)2加以衡量, 此數值越大, 表示配適度差, 而數值

越小表配適度佳; 然在前面的討論中, 我們已定義了σ20的最小平

方估計式為σ2n =

∑ni=1(yi − yi)

2/(n− 2) =∑n

i=1 e2i /(n− 2),

因此, 我們可以直接以σ2n作為衡量所有yi與yi間的差異, 進而作

為配適度的衡量。這個直接以yi和yi的距離作為衡量配適度的方

法, 稱為絕對衡量法 (absolute measure); 很明顯的, 這個絕對衡

量法所得到的數值會受到yi衡量單位的影響, 故不是優良的衡量

方法。以下我們介紹一些相對的衡量法 (relative measure) 來衡

量配適度, 而此衡量方法將不再受yi衡量單位的影響。


由於yi = yi + ei, 且

y2i = (yi + ei)2

= y2i + e2i + 2yiei

= y2i + e2i + 2(αn + βnxi)ei

因此,

n∑

i=1

y2i =

n∑

i=1

y2i +

n∑

i=1

e2i + 2

n∑

i=1

(αn + βnxi)ei

=

n∑

i=1

y2i +

n∑

i=1

e2i + 2αn

n∑

i=1

ei + 2βn

n∑

i=1

xiei


如果簡單線形迴歸模型中具有截距項(intercept), 則由正規方程

式可得∑n

i=1 ei = 0, 且∑n

i=1 xiei = 0; 因此,n∑

i=1

y2i =n∑

i=1

y2i +n∑

i=1

e2i + 2n∑

i=1

(αn + βnxi)ei

=

n∑

i=1

y2i +

n∑

i=1

e2i .

我們定義:

TSS (Total Sum of Squares) =n∑

i=1

y2i .

ESS (Error Sum of Squares) =

n∑

i=1

e2i .

RSS (Regression Sum of Squares) =

n∑

i=1

y2i .M.-Y. Chen 簡單迴歸

則上式可書寫為

n∑

i=1

y2i =n∑

i=1

y2i +n∑

i=1

e2i

TSS = RSS + ESS.

在此值得一提的是, 有些統計書或計量 (econometrics) 書, 會

將ESS定義成 Explained Sum of Squares, 此與我們所定義

的RSS相同, 而將RSS定義為 Residual Sum of Squares, 此則與

我們所定義的ESS相同。由於我們很容易即可證

明TSS = ESS + RSS, 則一個相對衡量配適度的方法, 判定係數

(coefficient of determination) 即定義為

R2 = RSS/TSS = 1− (ESS/TSS).


再者, 由於yi = yi + ei, 而

yn =1

n

n∑

i=1

yi =1

n

n∑

i=1

(yi + ei)

=1

n

n∑

i=1

yi +1

n

n∑

i=1

ei

= ¯yn + en.

因此,

yi − yn = (yi − ¯yn) + (ei − en).

值得注意的是, 如果簡單線形迴歸模型中具有截距項

(intercept),∑n

i=1 ei = 0, 即en = 0。


(yi − yn)2 = (yi − ¯yn)

2 + (ei − en)2 + 2(yi − ¯yn)(ei − en),

n∑

i=1

(yi − yn)2 =

n∑

i=1

(yi − ¯yn)2 +

n∑

i=1

(ei − en)2 + 2

n∑

i=1

(yi − ¯yn)(ei − en).

然由於n∑

i=1

(yi − ¯yn)(ei − en)

=n∑

i=1

(αn + βnxi)ei − ¯yn

n∑

i=1

ei − en

n∑

i=1

yi + n¯ynen

= αn

n∑

i=1

ei + βn

n∑

i=1

xiei − ¯yn

n∑

i=1

ei

−en

n∑

i=1

yi + n¯ynen.


如果簡單線形迴歸模型中具有截距項, 則∑n

i=1 ei = 0或en = 0,

且∑n

i=1 xiei = 0, 因此, 上式等於0, 而

n∑

i=1

(yi − yn)2 =

n∑

i=1

(yi − ¯yn)2 +

n∑

i=1

e2i


若我們定義:

Centered TSS =n∑

i=1

(yi − yn)2.

ESS (Error Sum of Squares) =

n∑

i=1

e2i .

Centered RSS =n∑

i=1

(yi − ¯yn)2.

因此Centered TSS = Centered ESS + Centered RSS,


則令一個相對衡量配適度的方法, 中央化判定係數(centered

coefficient of determination) 即定義為

R2c = Centered RSS/Centered TSS = 1− (ESS/Centered TSS).

這個中央化判定係數即衡量在所有yi的總變異中 (∑

(yi − yn)2)

由迴歸線所解釋部份 (∑n

i=1 yi − yn)2) 所佔的的比例;


顯而易見的是,0 ≤ R2c ≤ 1, 當然, 越大的R2

c值, 表示迴歸線配適的越好;

若R2c = 1, 表示Centered TSS = Centered RSS或ESS =

∑ni=1 e

2i = 0,

則ei = 0或yi = yi, i = 1, . . . , n, 此時, 稱為完全配適 (perfect fit); 另一方

面, 若若R2c = 0, 表

示Centered TSS = ESS或Centered RSS =∑n

i=1(yi − yn)2 = 0,

則yi − yn = 0, i = 1, . . . , n, 因此,

0 = yi − yn = α+ βnxi − yn = yn − βnxn + βnxi − yn

= βn(xi − xn),

然由假設條件 (2),xi不全然相同, 因此, 上式對於所有觀察值i要成立, 必

然βn = 0; 因yi = αn + βnxi, 在βn = 0下, 表示配適值yi不受到xi值的影

響。


再者, 假定解釋變數X不再是非隨機的而是隨機變數, 由於

R2c =

∑ni=1(yi − y)2

∑ni=1(yi − y)2

= β2

∑ni=1(xi − x)2

∑ni=1(yi − y)2

=[∑n

i=1(xi − x)(yi − y)]2

[∑n

i=1(yi − y)2][∑n

i=1(xi − x)2]

=ˆcov(X, Y )2

var(X)var(Y )

= (ρX,Y )2.

在簡單線形迴歸中, 判定係數即等於兩個變數間樣本相關係數的

平方; 因此, 唯有ρX,Y = 1或ρX,Y = −1時,R2c方等於1。


藉由R2c的數值, 根據上式結果, 我們可以用R2

c來檢定隨機變數X與Y的相關

性; 假定我們想檢定隨機變數X與Y間不存在相關性, 因此虛無假設

為H0 : ρX,Y = 0; 對於這個虛無假設, 假若R2c的數值不等於0, 表示樣本相

關係數ρX,Y 不等於0, 使得以棄卻虛無假設; 此時, 我們所運用的檢定統計量

為

φ =R2

c(n− 2)

1−R2c

∼ F1,n−2.

證明: 由於

φ =R2

c(n− 2)

1−R2c

=(n− 2)

[∑n

i=1(yi−yn)

2

∑n

i=1(yi−yn)2

]2

1−[∑

n

i=1(yi−yn)2∑

n

i=1(yi−yn)2

]2

=(n− 2)

∑ni=1(yi − yn)

2

∑ni=1(yi − yn)2 −

∑ni=1(yi − yn)2


上式中的分子項為

n∑

i=1

(yi − yn)2 =

n∑

i=1

[αn + βnxi − yn]2

=n∑

i=1

[yn − βnxn + βnxi − yn]2

=

n∑

i=1

[βn(xi − xn)]2 = β2

n

n∑

i=1

(xi − xn)2.

而分母項為

n∑

i=1

(yi − yn)2 −

n∑

i=1

(yi − yn)2 =

n∑

i=1

e2i .


因此在虛無假設H0 : ρX,Y = 0或H0 : β0 = 0下,

φ =(n− 2)

∑ni=1(yi − yn)

2

∑ni=1(yi − yn)

2 −∑n

i=1(yi − yn)2

=(βn − β0)

2∑n

i=1(xi − xn)2

∑ni=1 e

2i /(n− 2)

=

(βn−β0)2

σ2

0/∑

n

i=1(xi−xn)2

(n−2)σ2n

σ2

0

/(n− 2)

∼χ2(1)1

χ2(n−2)n−2

= F (1, n− 2).

由此結果, 我們得到t(n− 2)2 = F (1, n− 2), 亦即一個自由度

為n− 2的t-分配之隨機變數, 其平方後, 成為第一個自由度固定

為1而第二自由度為n− 2的F -分配。M.-Y. Chen 簡單迴歸

假定我們相了解台灣的大學生的體重X與身高Y間的關係, 並假

定其間的關係為線形關係:Y = α0 + β0X , 根據此線形關係, 我

們所設定的的簡單線形迴歸模型為yi = α0 + β0xi + ǫi; 假設在

統計學課堂中的80位同學的體重與身高均具有母體代表性, 因

此, 我們可以利用此80組體重與身高成對的樣本資料進行迴歸

分析。


迴歸分析的第三個目的即在於預測(prediction), 尤其在時間序

列迴歸模型的分析上; 在我們以n個樣本觀察

值(yi, xi), i = 1, . . . , n估計迴歸模型得到yi = αn + βnxi的結

果; 若我們得到一個關於X的新觀察值xn+1, 則我們對yn+1的預

測為yn+1 = αn + βnxn+1。


這一個預測值的預測誤差 (prediction error, yn+1 − yn+1) 的平均數為

E(yn+1 − yn+1) = E[(αn + βnxn+1)− (α0 + β0xn+1 + ǫn+1)]

= [E(αn)− α0] + [E(βn)− β0]xn+1 − E(ǫn+1) = 0.

而變異數

E(yn+1 − yn+1)2 = E[(αn − α0) + (βn − β0)xn+1 − ǫn+1]

2

= var(αn) + var(βn)x2n+1 + σ2

0 + 2xn+1cov(αn, βn)

= σ20

(

1 +1

n+

(xn+1 − x)2∑n

i=1(xi − x)2

)

.

由這個變異數, 我們可知當xn+1 = xn時, 預測誤差的變異數最小; 因此,

若xn+1越接近xn, 則可得到較精確的預測值, 即變異數較小的預測值。


Documents

Mei-Yuan Chen Department of Finance National Chung Hsing …web.nchu.edu.tw/~finmyc/stat12p.pdf · 第十二章: 簡單迴歸分析及相關理論 Mei-Yuan Chen Department of Finance