Upload
others
View
22
Download
0
Embed Size (px)
Citation preview
第十二章: 簡單迴歸分析及相關理論
Mei-Yuan Chen
Department of Finance
National Chung Hsing University
February 19, 2013
M.-Y. Chen 簡單迴歸
相關理論
在統計上, 分析變數間的關係是屬於多變量分析(Multivariate
Analysis)的範疇, 當然有許多分析方法探討變數間的關係, 而相
關分析(Correlation Analysis)和迴歸分析(Regression
Analysis)是最常用的兩種。 在這一章中, 我們首先討論相關分析
對於變數間關係的探討, 以作為往後章節討論迴歸分析的基礎。
M.-Y. Chen 簡單迴歸
相關性(Correlation)
相關性(Correlation)可用來說明兩個或許多個變數間的相關程
度; 兩個變數間的相關程度稱為簡單相關(simple correlation),
而三個或三個以上變數間的相關程度則稱為複相關(multiple
correlation); 在本章節中, 我們先討論兩個變數間的相關程度。
就兩個隨機變數而言, 其間可能存在線性(linear)與非線
性(nonlinear)的關係, 而不論是線形或非線性的關係, 均可分
為正相關(positive correlation), 負相關(negative
correlation)和無相關(no correlation)。
M.-Y. Chen 簡單迴歸
假設兩個變數X和Y 定義於一個隨機實驗 (experiment) 裡可能
出象 (outcome) 中的兩個特徵, 而以(x, y)表示每一次試驗
(trial) 所成對出現的該兩個特徵的出象而被X和Y 定義的實現
值; 若成對出現的實現值(x, y)存在較大的x值總是伴隨著較
大y值的出現, 則稱這兩個變數X和Y 為線性正相關(linear
positive correlation), 而若成對出現的實現值(x, y)存在x值
與y值的一對一關係, 則稱為完全線性正相關(perfect linear
positive correlation); 反之, 若成對出現的實現值(x, y)存在較大
的x值總是伴隨著較小y值的出現, 則稱這兩個變數為線性負相
關(linear negative correlation), 而若x值與y值存在一對一的關
係, 則稱X和Y 為完全線性負相關(perfect linear negative
correlation); 最後, 若x值與y值的大小不存在正相關或負相關則
稱為線性無相關或線性零相關(zero linear correlation);
M.-Y. Chen 簡單迴歸
然而, 在此我們必須提出的是, 若成對出現的實現值(x, y)呈現如
圖的圖形, 很明顯地, 這兩個隨機變數X和Y 是相關的, 只是其間
的關係呈現一個圓形關係, 因此, 我們不能說X和Y 存在零相關。
若我們限定X和Y 為線形關係的討論時, 則如圖的實現
值(x, y)將歸類為零相關, 但在非線形關係下, 將歸類為有相關。
M.-Y. Chen 簡單迴歸
兩個變數X和Y間的共變異數cov(X, Y )定義為
cov(X, Y ) = E[(X − E(X))(Y −E(Y ))].
由前述相關性的定義, 我們知道若X和Y 為正相關, 則絕大部份
的實現值(x, y)呈現出
1. x− E(X) > 0伴隨著y −E(Y ) > 0, 因而使
得(x− E(X))(y − E(Y )) > 0, 或者,
2. x− E(X) < 0伴隨著y −E(Y ) < 0, 因而使
得(x− E(X))(y − E(Y )) > 0。
M.-Y. Chen 簡單迴歸
因此,X和Y間的共變異數cov(X, Y )將為大於零的數值, 而數值
愈大, 其間的正相關性愈強。 再者, 若X和Y 為負相關, 則絕大部
份的實現值(x, y)呈現出
1. x− E(X) > 0伴隨著y −E(Y ) < 0, 因而使
得(x− E(X))(y − E(Y )) < 0, 或者,
2. x− E(X) < 0伴隨著y −E(Y ) > 0, 因而使
得(x− E(X))(y − E(Y )) < 0。
因此,X和Y間的共變異數cov(X, Y )將為小於零的數值, 而數值
愈小 (絕對值愈大), 其間的負相關性愈強。 而若X和Y 為零相關
時, 則絕大部份的(x−E(X))(y − E(Y ))數值將呈現正、 負抵
消的現象, 因而使cov(X, Y )等於零。
M.-Y. Chen 簡單迴歸
以共變異數的正、 負號可判別正、 負相關性, 且其絕對數值越大,
其相關性越強。 因此, 共變異數似乎是衡量兩個變數間相關性的
統計量, 但其存在一個問題, 即是其數值受到隨機變數衡量單位
的影響, 使得我們無法直接由共變異數數值的大小判斷相關性的
強弱; 例如,X為以公分為衡量單位的身高變數, 而Y 為以公克為
衡量單位的體重變數, 假設其間的共變異數為75(公分×公克);
但若改以公尺衡量身高而以公斤衡量體重, 則其間的共變異數為
0.0000075(公尺×公斤), 因此, 同樣的兩個隨機變數, 將因衡量
單位的不同會有不同的共變異數值; 是故, 在以比較變數間的相
關性強度時, 必須先確定其衡量單位是相同的。
M.-Y. Chen 簡單迴歸
為省卻變數衡量單位造成以共變異數數值比較相關性強度的困
擾, 隨機變數的衡量單位必須加以處理, 處理的方式如同前面章
節所介紹的Z-score 一般, 將隨機變數除上其標準差 (standarddeviation), 如此, 該隨機變數即改以標準差為衡量單位,即X∗ = X/
√
var(X)和Y ∗ = Y/√
var(Y ), 如此, 以標準差為
衡量單位的變數間之共變異數為
cov(X∗, Y ∗) = E[(X∗ − E(X∗))(Y ∗ − E(Y ∗))]
= E
[(
X√
var(X)− E(X)√
var(X)
)(
Y√
var(Y )− E(Y )√
var(Y )
)]
= E
[
(X − E(X))(Y − E(Y ))√
var(X)√
var(Y )
]
=E[(X − E(X))(Y − E(Y ))]
√
var(X)√
var(Y )
=cov(X,Y )
√
var(X)√
var(Y ).
M.-Y. Chen 簡單迴歸
而此定義於以標準差為衡量單位的變數間之共變異數, 稱為兩個
變數X和Y間的相關係數(correlation coefficient), 通常以rX,Y表
示之, 即
rX,Y =cov(X, Y )
√
var(X)√
var(Y )
M.-Y. Chen 簡單迴歸
至於相關係數的樣本估計式(rX,Y ) 則是以樣本共變異
數( ˆcov(X, Y ))及樣本變異數 (var(X)和var(Y )) 代入上式中,
rX,Y =ˆcov(X, Y )√
var(X)
√
var(Y ) =SX,Y
SXSY
,
其中,
SX,Y =
∑ni=1(xi − xn)(yi − yn)
n= X和Y 的樣本共變異數
SX =
√
∑ni=1(xi − xn)
2
n= X的樣本標準差
SY =
√
∑ni=1(yi − yn)
2
n= Y 的樣本標準差.
M.-Y. Chen 簡單迴歸
兩個變數X和Y間存在零相關, 表示rX,Y =或cov(X, Y ) = 0, 換
言之, 兩個變數X和Y 不相關, 僅表示
cov(X, Y ) =
∫
x
∫
y
(x−E(X))(y − E(Y ))f(x, y)dxdy = 0,
此條件並不隱含f(x, y) = f(x) f(y)的條件 (即X和Y 相互獨立
的條件) 其中,f(x, y)為變數X和Y間之聯合機率密度函
數,f(x)和f(y)分別為變數X和Y 之機率密度函數。 也就是說, 兩
個變數相關係數等於零即沒有相關, 並不一定表示此兩個變數相
互獨立。
M.-Y. Chen 簡單迴歸
相反地, 若兩個變數相互獨立, 則此兩個變數的相關係數必定為
零, 因為
cov(X, Y )
=
∫
x
∫
y
(x− E(X))(y −E(Y ))f(x, y)dxdy
=
∫
x
∫
y
(x− E(X))(y −E(Y ))f(x)f(y)dxdy,因X和Y相互獨立
= [
∫
x
(x− E(X))f(x)dx][
∫
y
(y −E(Y ))f(y)dy]
= 0× 0 = 0.
M.-Y. Chen 簡單迴歸
部份相關係數
在人力資源的研究中, 一個家庭的教育支出與家庭所得間的關係
一直是研究的重點, 但是, 家庭所得與教育支出間的關係也會因
家庭父母的教育水準不同而有所差異; 通常教育水準較高的父母
會較重視子女教育, 因而, 當家庭所得越高時, 其教育支出亦會
隨之增加; 但教育水準較低的父母比較不重視子女教育, 其教育
支出會隨家庭所得增加而增加的相關性較低; 因此, 為衡量真正
教育支出與家庭所得間的關係, 我們必須能將父母的教育固定在
某一水準, 然後再進行討論; 此時,部份相關係數(partial
correlation coefficient) 則提供了適當的衡量方法。
M.-Y. Chen 簡單迴歸
假設以X表示家庭所得、Y表示家庭教育支出和Z代表父母教育水準, 再者, 令
rX,Y = 家庭所得和家庭教育支出間的相關係數
rX,Z = 家庭所得和父母教育水準間的相關係數
rY,Z = 家庭教育支出和父母教育水準間的相關係數.
則在維持父母教育水準固定下, 家庭所得和家庭教育支出間的部份相關係數
定義為
rX,Y |Z =rX,Y − rX,Z rY,Z
√
(1 − r2X,Z)(1− r2Y,Z).
而在維持家庭所得固定下, 家庭教育支出和父母教育水準間的部份相關係數
定義為
rX,Z|Y =rX,Z − rX,Y rY,Z
√
(1 − r2X,Y )(1− r2Y,Z).
M.-Y. Chen 簡單迴歸
簡單線性迴歸分析
對於兩個隨機變數X和Y 之間的關係, 除了檢驗他們是否相互獨
立外, 若存在相關, 則以相關係數或等級相關衡量其間相關的程
度; 除此,
除此, 有些隨機變數間存在因果關係, 若隨機變數X和Y 之間存
在因果關係, 即Y = f(X), 此表示隨機變數Y 受隨機變數X的
影響, 換言之, 任何一個隨機變數X的實現值代入函數f(·)中, 即
可得到一個隨機變數Y 的實現值; 因此, 隨機變數X為因而隨機
變數Y 為果, 而其間的因果關係即為函數f(·)所表示, 如何利用
樣本資料估算函數f(·)的形式與參數的數值, 即為迴歸分析的主
要工作。
M.-Y. Chen 簡單迴歸
Linear Conditional Mean
✲ X
✻Y
✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏✏
x1 x2 x3
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
E(Y |X = x) = α0 + β0x
Is E(Y |X) constant?
H0 : E(Y |X = x1) = α0
H0 : E(Y |X = x2) = α0
H0 : E(Y |X = x3) = α0
M.-Y. Chen 簡單迴歸
在初等統計的討論中, 以線形的函數f(·)為主; 因此, 我們所考慮
的線形關係為:Y = a+ bX , 迴歸分析的工作即在於以觀察到的
一組包含n個成對觀察值{(xi, yi)}ni=1的樣本, 進行對參數值a
和b的估計與統計檢定, 由於實際蒐集到的樣本觀察
值{(xi, yi)}ni=1不可能百分之百符合Y = a + bX的線形關係, 因
此, 我們加入一個隨機“誤差項”U於線形關係中, 因此我們的迴
歸模型為
yi = a + bxi + ui, i = 1, 2, . . . , n.
M.-Y. Chen 簡單迴歸
隨機誤差項的加入, 乃在於使允許實際觀察值xi與yi的關係與確
定 (deterministic) 的直線Y = a+ bX間存在差異, 而這差異隨
著觀察值i的不同存在隨機的差異; 因此, 誤差項的加入, 使得迴
歸模型呈現出觀察值xi與yi的隨機 (stochastic) 線形關係。 由於,
隨機變數Y 的實現值決定於隨機變數X的實現值, 因此, 隨機變
數Y被稱為被解釋變數 (explained variable)或應變數
(dependent variable), 而隨機變數X則被稱為解釋變
數(explanatory variable)或獨立變數(independent variable)。
M.-Y. Chen 簡單迴歸
在迴歸分析的討論中, 兩個變數間的簡單線形迴歸模型是最基礎
的討論, 因此, 我們也從簡單線形迴歸模型開始討論; 假設我們
知道變數y僅受到變數x的影響, 且其影響效果為直線型,
即y = α0 + β0x; 由這線形關係可知道, 每增加一單位的x即可
產生β0單位y的增加, 因此, 如何利用樣本觀察資料估計α0和β0,
即成為研究的重點; 為能使實際資料與線形關係相配合, 而能從
事實證分析, 我們必須在線形關係中加入一個誤差項 (error
terms, errors), 即成為所謂的簡單線形迴歸模型 (simple linear
regression model)。 換言之, 變數間的關係是由某個理論 (如經
濟理論、 財務理論) 所決定, 加入誤差項後始成為迴歸模型, 進
而才能從事實證分析。
M.-Y. Chen 簡單迴歸
對於一個迴歸模型, 我們要從事的實證分析主要包括: 參數估計 (parameter
estimation)、 統計推論 (statistical inference) 及預測 (forecasting) 等; 為了
能進行這些實證分析, 一些假設條件是必須加入的,首先我們先假設以下的古
典假設 (classical assumptions) 是成立的:
(1) 所有觀察值{yi, xi}ni=1均滿足yi = α0 + β0xi + ǫi的迴歸模型, 其
中ǫi為誤差項;
(2) xi為非隨機的且不為固定的常數;
(3) E(ǫi) = 0, i = 1, . . . , n;
(4) E(ǫ2i ) = σ20 , 且對於任何觀察值i, j而i 6= j, E(ǫi, ǫj) = 0;
(5) ǫi是獨立且均等的常態分配, 即ǫi ∼ N(0, σ20)。
M.-Y. Chen 簡單迴歸
對於上述的古典假設, 我們進一步說明如下: 假設條件(1) 在於
表示變數X和Y間的關係確如分析的簡單線形關係, 當然, 我們
無法確知X和Y間真正的關係, 可能關係是非線形的, 或者, 可能
有其他的變數被遺漏了, 即存在遺漏變數 (omitted variables),
這些我們均將在往後的章節中有所討論; 假設條件 (2) 中, xi為
非隨機的表示xi的數值是可控制的, 即假設我們可以重複抽取樣
本資料, 則在每一組抽出的樣本中每一個第i個觀察值xi是相同
的數值, 因此, 該數值是必然發生於第i個觀察值, 是故其為非隨
機的 (發生的機率為1), 至於xi不為固定常數的假設條件, 表示
樣本資料中所有xi的觀察值不全為相同的數值, 如此方能
使∑n
i=1(xi − xn)2 6= 0, 而xn為X的樣本平均數;
M.-Y. Chen 簡單迴歸
假設條件(3) 和 (4) 表示誤差項是平均數固定為0而變異數固定
為σ20的隨機變數, 固定變異數的假設在實際資料中是不切實際
的, 我們會在往後的章節中討論這個假設條件放寬下的處理方
法; 至於假設條件 (5) 乃對於誤差項加入常態分配的假設, 此假
設條件使我們能在小樣本下進行對α0和β0的統計推論, 當然, 常
態分配的假設通常是不切實際的, 如果不為常態分配, 則大樣本
理論 (large sample theory) 的討論是必要, 此外, 頑強估計式
(robust estimators) 的使用是另一個選擇, 我們都會在往後的章
節中有所討論。 由簡單線形迴歸的這些古典假設中, 我們知道所
要估計的未知參數包括α0、β0和σ20, 以下我們先討論最小平方估
計式。
M.-Y. Chen 簡單迴歸
在前面章節對於母體參數估計式的討論中, 我們知道具有較小均
方差(mean sqaure errors, MSE) 的估計式才是較好的估計式,
對於一個母體參數θ而言, 任一個θ的估計式θ, 其所定義的均方
差為
MSE(θ) = E[(θ − θ)2]
= E[θ − E(θ)]2 + [E(θ)− θ]2.
由於MSE(θ)是無法由樣本資料觀察而得, 因此, 祇得以樣本平
均數予以取代; 在簡單線性迴歸模型的問題
中,θ = y = α0 + β0x+ ǫ, 而估計式則為θ = y = α+ βx, 因此,
所對應的均方差為
MSE(y) = E[(y − y)2] = E[(α + βx)− (α0 + β0x+ ǫ)]2.
M.-Y. Chen 簡單迴歸
是故, 一個好的估計式y(亦即α和β) 即使上述均方差最小; 換言
之, 一個好的估計式即等於使均方差最小的解答, 即
{α, β} = argminE[(α + βx)− (α0 + β0x) + ǫ]2
= E[y − (α + βx)]2.
由於E[y − (α+ βx)]2無法由樣本資料{(yi, xi)}ni=1觀察得知, 因
而只能以樣本平均估計值予以代替, 即
以∑n
i=1(yi − α− βxi)2/n替代E[y − (α + βx)]2, 而估計
式αn和βn滿足∑n
i=1(yi − α− βxi)2/n為最小, 即
{αn, βn} = argmin1
n
n∑
i=1
(yi − α− βxi)2.
此估計式αn和βn即為簡單線形迴歸模型參數α0和β0的最小平方
估計式 (ordinary least squares estimator, OLS)。M.-Y. Chen 簡單迴歸
令函數f(α, β)表示樣本均方差, 即
f(α, β) =1
n
n∑
i=1
(yi − α− βxi)2.
則使樣本均方差達到極值 (極大值或極小值) 的一階條件 (first
order condition, FOC) 為
∂
∂αf(α, β) = −2
1
n
n∑
i=1
(yi − α− βxi) = 0, (1)
∂
∂αf(α, β) = −2
1
n
n∑
i=1
(yi − α− βxi)xi = 0, (2)
上兩式 (1) 和 (2) 通常稱為“正規方程式”(normal equations)。
M.-Y. Chen 簡單迴歸
又由於二階條件(second order condition, SOC) 為
∂2
∂α2f(α, β) = −2
1
n
n∑
i=1
−1 = 2 > 0,
∂
∂αf(α, β) = −2
1
n
n∑
i=1
−βx2i =
n∑
i=1
x2i > 0.
因二階條件均大於零, 因此滿足一階條件的極值為極小值, 符合
我們極小值得求解。
M.-Y. Chen 簡單迴歸
由式(1) 的一階條件, 我們得到:
α =1
n
n∑
i=1
yi − β1
n
n∑
i=1
xi = y − βx, (3)
將此結果代入式 (2) 的一階條件中即得到
1
n
n∑
i=1
yixi = (y − βx)1
n
n∑
i=1
xi + β1
n
n∑
i=1
x2i
M.-Y. Chen 簡單迴歸
進而得到
β
(
1
n
n∑
i=1
xi(xi − x)
)
=1
n
n∑
i=1
xi(yi − y). (4)
從式 (3) 和 (4) 我們即可得到α0和β0的最小平方估計式:
β =
∑ni=1(yi − y)(xi − x)∑n
i=1(xi − x)2, (5)
α = y − βx. (6)
M.-Y. Chen 簡單迴歸
利用Cramer’s rule來進行“正規方程式”即式 (1) 和式 (1) 聯立
方程式的求解, 由式 (1) 和式 (1) 所形成的聯立方程式為
nα +
n∑
i=1
xiβ =
n∑
i=1
yi
n∑
i=1
xiα+
n∑
i=1
x2iβ =
n∑
i=1
xiyi
則依 Cramer’s rule 的求解為:
M.-Y. Chen 簡單迴歸
αn =
∣
∣
∣
∣
∣
∑ni=1 yi
∑ni=1 xi
∑ni=1 xiyi
∑ni=1 x
2i
∣
∣
∣
∣
∣
∣
∣
∣
∣
∣
n∑n
i=1 xi∑n
i=1 xi
∑ni=1 x
2i
∣
∣
∣
∣
∣
=(∑n
i=1 yi)(∑n
i=1 x2i )− (
∑
i=1 xi)(∑n
i=1 xiyi)
n∑n
i=1 x2i − (
∑ni=1 xi)2
, (7)
βn =
∣
∣
∣
∣
∣
n∑n
i=1 yi∑n
i=1 xi
∑ni=1 xiyi
∣
∣
∣
∣
∣
∣
∣
∣
∣
∣
n∑n
i=1 xi∑n
i=1 xi
∑ni=1 x
2i
∣
∣
∣
∣
∣
=n∑n
i=1 xiyi − (∑
i=1 xi)(∑n
i=1 yi)
n∑n
i=1 x2i − (
∑ni=1 xi)2
. (8)
M.-Y. Chen 簡單迴歸
此外, 上兩式中的分母項為:
n
n∑
i=1
x2i − (
n∑
i=1
xi)2 = n
n∑
i=1
x2i − n2(
n∑
i=1
xi/n)2
= nn∑
i=1
x2i − n2x2
n
= n
[
n∑
i=1
(xi − xn)2
]
.
M.-Y. Chen 簡單迴歸
而式 (7) 中的分子項為:
n
n∑
i=1
xiyi − (∑
i=1
xi)(
n∑
i=1
yi) = n
n∑
i=1
xiyi − n2xnyn
= nn∑
i=1
xiyi − n2xnyn − n2xnyn + n2xnyn
= n
n∑
i=1
xiyi − n
n∑
i=1
xiyn − nxn
n∑
i=1
yi + n2xnyn
= n
(
n∑
i=1
xiyi −n∑
i=1
xiyn − xn
n∑
i=1
yi + nxnyn
)
= n
n∑
i=1
(xi − xn)(yi − yn).
因此, 我們得到
βn =
∑ni=1(xi − xn)(yi − yn)∑n
i=1(xi − xn)2
M.-Y. Chen 簡單迴歸
再者, 因為∑n
i=1(xi − xn)yn = yn∑n
i=1(xi − xn) = 0, 上式可
進一步簡化為
βn =
∑ni=1(xi − xn)yi
∑ni=1(xi − xn)
2.
M.-Y. Chen 簡單迴歸
綜合以上結果, 我們依然可以得到如同α0和β0之最小平方估計
式:
βn =
∑ni=1(xi − xn)yi∑n
i=1(xi − x)2,
αn = yn − βnxn.
通常, 方程式y = αn + βnx稱為迴歸線 (regression line),
而{yi}ni=1稱為配適值 (fitted values),
而ei = yi − yi, i = 1, . . . , n則稱為殘差值 (residuals)。
M.-Y. Chen 簡單迴歸
至於, 另一個待估計的未知參數為誤差項(ǫi) 的變異數 (σ20), 其
最小平方估計式為
σ2n =
1
n− 2
n∑
i=1
(yi − yi)2 =
1
n− 2
n∑
i=1
e2i .
M.-Y. Chen 簡單迴歸
習題: 令ei = yi − αn − βnxi,αn和βn為最小平方估計式, 證明
1.∑n
i=1 ei = 0;
2.∑n
i=1 yi =∑n
i=1 yi;
3.∑n
i=1 xiei = 0;
4.∑n
i=1 yiei = 0.
M.-Y. Chen 簡單迴歸
簡單線形迴歸模型:yi = α0 + β0 + ǫi中, 由於假設 (5) 隱含假設 (3) 和 (4)
的成立, 且在假設 (1) 下:yi = α0 + β0xi + ǫi,
E(yi) = E(α0 + β0xi + ǫi)
= α0 + β0E(xi) + E(ǫi), 因α0和β0為常數
= α0 + β0xi因xi為非隨機的且E(ǫi) = 0
var(yi) = var(α0 + β0xi + ǫi)
= var(ǫi) = σ20 .
由於假設 (5) 中ǫi為常態分配, 而α0 + β0xi為非隨機的數, 因此,yi將與ǫi同
為常態分配, 即
yi ∼ N(α0 + β0xi, σ20).
α0和β0的最小平方估計式αn和βn具有以下的特性:
M.-Y. Chen 簡單迴歸
特性1: 線形估計式
在假設 (1) 的條件下,αn和βn是yi的線形估計式 (linear eatimator in yi),
即αn和βn均可寫成所有yi的線性組合 (linear combination), 如∑
i=1 kiyi。
證明: 我們先討論βn, 由其估計式
βn =
∑ni=1(xi − xn)yi
∑ni=1(xi − xn)2
=
n∑
i=1
xi − xn)∑n
i=1(xi − xn)2yi
=
n∑
i=1
kiyi.
所以,βn是所有{yi}觀察值得線性組合, 故βn是yi的線形估計式; 很明顯
的,∑n
i=1 ki = 0因為∑
(xi − xn) = 0。
M.-Y. Chen 簡單迴歸
另者,
αn = yn − βnxn
=1
n
n∑
i=1
yi − xn
n∑
i=1
kiyi
=
n∑
i=1
(
1
n− xnki
)
yi =
n∑
i=1
hiyi.
故αn是yi的線形估計式。
M.-Y. Chen 簡單迴歸
特性2: 不偏估計式在假設 (2) 和 (3) 的條件下,αn和βn分別是α0和β0不偏估計式 (unbiased
estimators), 即E(αn) = α0和E(βn) = β0。
證明: 由於∑n
i=1(xi − xn)xi =∑n
i=1(xi − xn)2, 則
βn =
∑ni=1(xi − xn)yi
∑ni=1(xi − xn)2
=
∑ni=1(xi − xn)(α0 + β0xi + ǫi)
∑ni=1(xi − xn)2
假設條件(1)
=
∑ni=1(xi − xn)α0∑n
i=1(xi − xn)2+
∑ni=1(xi − xn)xiβ0∑n
i=1(xi − xn)2+
∑ni=1(xi − xn)ǫi
∑ni=1(xi − xn)2
=
∑ni=1(xi − xn)
2β0∑n
i=1(xi − xn)2+
∑ni=1(xi − xn)ǫi
∑ni=1(xi − xn)2
因
n∑
i=1
ki = 0
= β0 +
∑ni=1(xi − xn)ǫi
∑ni=1(xi − xn)2
.
M.-Y. Chen 簡單迴歸
因此, 在上式中最後一個等號兩邊取期望值即得
E(βn) = E
(
β0 +
∑ni=1(xi − xn)ǫi
∑ni=1(xi − xn)2
)
= β0 +
∑ni=1(xi − xn)E(ǫi)∑n
i=1(xi − xn)2在假設條件(2) 下
= β0 在假設條件(3) 下,E(ǫi) = 0
故βn是β0的不偏估計式 (unbiased estimator)。 另者, 由於
αn = yn − βnxn
=1
n
n∑
i=1
(α0 + β0xi + ǫi)− βnxn
= α0 + β0xn +n∑
i=1
ǫi/n− βnxn 假設條件(1) 下
= α0 + (β0 − βn)xn +
n∑
i=1
ǫi/n,
M.-Y. Chen 簡單迴歸
因此, 在上式中最後一個等號兩邊取期望值即得
E(αn) = E[α0 + (β0 − βn)xn +n∑
i=1
ǫi/n]
= α0 + E(β0 − βn)xn 假設條件(2) 和 (3) 下
= α0. 因βn為β0的不偏估計式
故αn為α0的不偏估計式。 在此值得注意的是, 我們證
明αn和βn的不偏性時, 假設條件 (1)、(2) 和 (3) 是必須成立在
先。
M.-Y. Chen 簡單迴歸
特性3: 變異、 共變異數
在假設 (2)、(3) 和 (4) 的條件下,αn和βn的變異數和共變異數分
別為:
σαn:= var(αn) = σ2
0
(
1
n+
x2n
∑ni=1(xi − xn)
2
)
,
σβn:= var(βn) =
σ20
∑ni=1(xi − xn)
2,
σαnβn:= cov(αn, βn) = σ2
0
−xn∑n
i=1(xi − xn)2.
M.-Y. Chen 簡單迴歸
證明: 我們先推導βn的變異數, 在假設條件 (1) 和 (2)
下,yi = α0 + β0xi + ǫi且xi為非隨機的, 則var(yi) = var(ǫi) = σ20 , 再者由
假設條件 (4),cov(yi, yj) = cov(ǫi, ǫj) = 0, 我們可得到
var(βn) = var(
n∑
i=1
kiyi)
=n∑
i=1
k2i var(yi) + 2n∑
i=1
n∑
j=i+1
cov(yi, yi)
=n∑
i=1
k2i var(yi)
=
n∑
i=1
(
xi − xn∑n
i=1(xi − xn)2
)2
σ20 假設條件(4) 之var(ǫi) = σ2
0
=
∑ni=1(xi − xn)
2
[∑n
i=1(xi − xn)2]2σ20
=σ20
∑ni=1(xi − xn)2
.
M.-Y. Chen 簡單迴歸
再者,
var(αn) = var(n∑
i=1
hiyi) =n∑
i=1
h2i var(yi)
=
n∑
i=1
(
1
n− kixn
)2
σ20
= σ20
n∑
i=1
(
1
n2− 2
nxnki + k2
i xn
)
= σ20
(
1
n− 2xn
n
n∑
i=1
ki + x2n
n∑
i=1
k2i
)
= σ20
(
1
n+
x2n
∑ni=1(xi − xn)
2
)
.
M.-Y. Chen 簡單迴歸
最後, 對於兩個隨機變數X和Y ,a, b, c和d為常數, 則
cov(aX + bY, cX + dY ) = acvar(X) + bdvar(Y ) + (ad+ bc)cov(X,Y ).
因此,
cov(αn, βn) = cov
(
n∑
i=1
hiyi,
n∑
i=1
kiyi
)
=
n∑
i=1
hikivar(yi) + 2
n∑
i=1
n∑
j=i+1
cov(Yi, yj)
=
n∑
i=1
ki
(
1
n− kixn
)
σ20
=
n∑
i=1
−k2i xnσ20
=−xn
∑ni=1(xi − xn)2
σ20 .
M.-Y. Chen 簡單迴歸
特性4: 高斯-馬可夫定理在假設 (2) 和 (3) 的條件下,αn和βn分別是α0和β0的最佳線性不偏估計式
(Best Linear Unbiased Estimators, BLUE)。 此即為有名的高斯-馬可夫定理
(Gauss-Markov Theorem)。
證明: 由前面的特性,αn和βn均是{yi}的線形估計式, 假定另外有個線形估計
式為βn =∑n
i=1(ki + ci)yi, 其中ci為任一常數, 則
βn =
n∑
i=1
(ki + ci) yi =
n∑
i=1
(ki + ci)(α0 + β0xi + ǫi)
= α0
n∑
i=1
(ki + ci) + β0
n∑
i=1
(ki + ci)xi +
n∑
i=1
(ki + ci) ǫi.
如果βn要為不偏估計式, 必須∑n
i=1(ki + ci) = 0及∑n
i=1(ki + ci)xi = 1;
因此,n∑
i=1
ci = 0
n∑
M.-Y. Chen 簡單迴歸
而若βn為不偏估計式, 則βn的變異數為
var(βn) = var
(
n∑
i=1
(ki + ci) yi
)
=
n∑
i=1
(ki + ci)2var(yi) + 2
n∑
i=1
n∑
j=i+1
kikjcov(yi, yj)
=n∑
i=1
(ki + ci)2var(yi)
=
n∑
i=1
k2i σ
20 +
n∑
i=1
c2iσ20 + 2
n∑
i=1
ki ciσ20 .
M.-Y. Chen 簡單迴歸
由於
n∑
i=1
ki ci =
∑ni=1(xi − xn)ci
∑ni=1(xi − xn)
2=
∑ni=1 xici − xn
∑
ci∑n
i=1(xi − xn)2
= 0,
則
var(βn) =σ20
∑ni=1(xi − xn)
2+ σ2
0
n∑
i=1
c2i
= σ20
n∑
i=1
k2i + σ2
0
n∑
i=1
c2i ≥ var(βn) = σ20
n∑
i=1
k2i
M.-Y. Chen 簡單迴歸
所以var(βn) ≥ var(βn), 亦即βn較βn有效率; 因此, βn較任何其
他β0的線性不偏估計式具有較小的變異數。 同樣的過程可用以
證明αn較任何其他α0的線性不偏估計式具有較小的變異數。
由於σ20的最小平方估計式σ2
n =∑n
i=1 e2i /(n− 2)並不是{yi}的
線形估計式, 因此, 高斯-馬可夫定理不適用於σ2n。
M.-Y. Chen 簡單迴歸
特性5: 常態抽樣分配
在假設 (5):ǫi ∼ N(0, σ20)的條件下, 以及假設 (2) 之xi為非隨機的,
且E(yi) = α0 + β0xi; 因此
yi = α) + β0xi + ǫi ∼ N(α0 + β0xi, σ20),
再者
cov(yi, yj)
= E[(yi − E(yi))(yi − E(yj))]
= E{[α0 + β0xi + ǫi − (α0 + β0xi)][α0 + β0xj + ǫj − (α0 + β0xj)]}= E(ǫiǫj) = 0. 假設(4) 條件下
M.-Y. Chen 簡單迴歸
因αn和βn是yi的線形估計式, 而yi為獨立的常態分配, 根據常態
分配的特性: 許多常態分配的線性組合仍為常態分配, 因
此,αn和βn均為常態分配; 綜合前面兩個特性, 則 αn為具平均
數α0和變異數var(αn)的常態分配, 而βn為具平均數β0和變異
數var(βn)的常態分配。 亦即
αn ∼ N
(
(α0, σ20
[
1
n+
x2n
∑ni=1(xi − xn)
2
])
βn ∼ N
(
β0,x2n
∑ni=1(xi − xn)
2
)
.
M.-Y. Chen 簡單迴歸
特性6:對於最小平方迴歸殘差ei, 其具有以下特性:
E(ei) = E(yi − yi) = E(α0 + β0xi + ǫi − αn − βnxi)
= E[(α0 − αn) + (β0 − βn)xi + ǫi]
= E(α0 − αn) + E(β0 − βn)xi + E(ǫi) = 0.
且
var(ei) = var[(α0 − αn) + (β0 − βn)xi + ǫi]
= var(αn) + var(βn) + var(ǫn) + 2xicov(αn, βn)
= σ20 [1/n+ x2
n/∑
i=1
(xi − xn)2] + σ2
0/∑
i=1
(xi − xn)2
+σ20 + σ2
0 [−xn/∑
i=1
(xi − xn)2]
= σ20{1 + 1/n+ [x2
i − 2xixn + x2n]/∑
i=1
(xi − xn)2]}
2
[
1 (xi − xn)2
∑
]
M.-Y. Chen 簡單迴歸
特性7:
因為σ20的最小平方估計視為σ2
n,var(αn)、var(βn)和cov(αn, βn)的
最小平方估計式為
s2αn:= var(αn) = σ2
n
(
1
n+
x2n
∑ni=1(xi − xn)
2
)
,
s2βn
:= var(βn) =σ2n
∑ni=1(xi − xn)
2,
sαnβn:= ˆcov(αn, βn) = σ2
n
−xn∑n
i=1(xi − xn)2.
M.-Y. Chen 簡單迴歸
特性8:σ2n =
∑ni=1 e
2i /(n− 2)是σ2
0的不偏估計式。 因為
ei = yi − yi = yi − αn − βnxi
= (α0 − β0xi + ǫi)− (yn − βnxn)− βnxi
= (α0 − β0xi + ǫi)− (∑
i=1
(α0 + β0 + ǫi)/n− βnxn)− βnxi
= β0xi + ǫi − β0xn − ǫn − βnxn − βnxi
= −(βn − β0)(xi − xn) + (ǫi − ǫn),
n∑
i=1
e2i =n∑
i=1
(ǫiǫn) + (βn − β0)2
n∑
i=1
(xi − xn)2
−2(βn − β0)
n∑
i=1
(ǫi − ǫn)(xi − xn).
M.-Y. Chen 簡單迴歸
再者,
E[n∑
i=1
(ǫi − ǫn)2] = E(
n∑
i=1
ǫ2i − nǫ2n)
=
n∑
i=1
var(ǫi)− nvar(ǫn)
= nσ20 − n(σ2
0/n) = (n− 1)σ20 .
且
E[(βn − β0)2
n∑
i=1
(xi − xn)2]
=n∑
i=1
(xi − xn)2E(βn − β0)
2
=
n∑
i=1
(xi − xn)2[σ2
0/
n∑
i=1
(xi − xn)2]
= σ20 .
M.-Y. Chen 簡單迴歸
又因βn = β0 +∑n
i=1 kiǫi, 則
E[(βn − β0)ǫi] = E[(n∑
i=1
kiǫi)ǫi]
= kiE(ǫ2i ) = kiσ20,
以及
E[(βn − β0)ǫn] = E[(n∑
i=1
kiǫi)(n∑
i=1
ǫi/n)]
=1
n
n∑
i=1
kiσ20 = 0.
M.-Y. Chen 簡單迴歸
E[−2(βn − β0)n∑
i=1
(ǫi − ǫn)(xi − xn)]
= −2[
n∑
i=1
(xi − xn)E[(βn − β0)ǫi]] + 2
n∑
i=1
(xi − xn)E[(βn − β0)ǫn]
= −2
n∑
i=1
(xi − xn)kiσ20
= −2σ20 .
最後
E(
n∑
i=1
e2i ) = (n− 1)σ20 + σ2
0 − 2σ20 = (n− 2)σ2
0 .
因E(σ2n) = σ2
0 , 所以σ2n是σ2
0的不偏估計式。
M.-Y. Chen 簡單迴歸
特性9:
s2αn、s2
βn
和sαnβn分別是σαn
、 σβn和σαnβn
的不偏估計式。
M.-Y. Chen 簡單迴歸
由前面關於αn及βn特性的討論中, 我們知道
αn ∼ N(α0, σ2αn), βn ∼ N(β0, σ
2βn
),
則經常態分配標準化後, 我們得到
αn − α0
σαn
∼ N(0, 1),βn − β0
σβn
∼ N(0, 1).
M.-Y. Chen 簡單迴歸
此外, 如同在X ∼ N(µX , σ2X)的假設
下,∑n
i=1(xi − xn)2/σ2
X ∼ χ2(n− 1)的結果,
∑ni=1(yi − yi)
2
σ20
=
∑ni=1 e
2i
σ20
=(n− 2)σ2
n
σ20
∼ χ2(n− 2).
M.-Y. Chen 簡單迴歸
證明: 因為
ei = −(βn − β0)(xi − xn) + (ǫi − ǫn),
則
n∑
i=1
e2i =
n∑
i=1
(ǫi − ǫn)2 + (βn − β0)
2
n∑
i=1
(xi − xn)2
−2(βn − β0)
n∑
i=1
(xi − xn)(ǫi − ǫn). (9)
M.-Y. Chen 簡單迴歸
n∑
i=1
(ǫi − ǫn)2 =
n∑
i=1
[(ǫi − E(ǫi))− (ǫn − E(ǫi))]2
=
n∑
i=1
[ǫi − E(ǫi)]2 +
n∑
i=1
[ǫn − E(ǫi)]2 − 2
n∑
i=1
[(ǫi − E(ǫi))(ǫn − E(ǫi))]
=
n∑
i=1
[ǫi − E(ǫi)]2 +
n∑
i=1
[ǫn − E(ǫi)]2 − 2[ǫn − E(ǫi)]
(
n∑
i=1
ǫi − nE(ǫi)
)
=
n∑
i=1
[ǫi − E(ǫi)]2 +
n∑
i=1
[ǫn − E(ǫi)]2 − 2[ǫn − E(ǫi)] [nǫn − nE(ǫi)]
=
n∑
i=1
[ǫi − E(ǫi)]2 +
n∑
i=1
[ǫn − E(ǫi)]2 − 2n[ǫn − E(ǫi)]
2,
M.-Y. Chen 簡單迴歸
n∑
i=1
(ǫi − ǫn)2/σ2
0
=
n∑
i=1
[
ǫi − E(ǫi)
σ
]2
+
n∑
i=1
[
ǫn − E(ǫi)
σ0
]2
−2
[
(ǫn − E(ǫi)
σ0/√n
]2
∼ χ2(n) + χ2(1)− 2χ2(2) = χ2(n− 1).
而在式 (9) 中的第二項,
(βn − β0)2
n∑
i=1
(xi − xn)2/σ2
0
=
(
βn − β0√
σ20/∑n
i=1(xi − xn)2
)
∼ χ2(1).
M.-Y. Chen 簡單迴歸
最後在式 (9) 中的第三項, 由於βn − β0 =∑n
i=1 kiǫi, 因此
2(βn − β0)
n∑
i=1
(xi − xn)(ǫi − ǫn)/σ20
= 2(βn − β0)
n∑
i=1
(xi − xn)ǫi/σ20
= 2(βn − β0)/σ20
n∑
i=1
(xi − xn)2
n∑
i=1
xi − xn∑n
i=1(xi − xn)2ǫi
= 2(βn − β0)/σ20
n∑
i=1
(xi − xn)2(βn − β0) = 2
(βn − β0)2
σ2
0∑n
i=1(xi−xn)2
= 2
βn − β0√
σ2
0∑n
i=1(xi−xn)2
2
∼ 2N(0, 1)2 = 2χ2(1).
M.-Y. Chen 簡單迴歸
(n− 2)σ2n
σ20
=n∑
i=1
e2i /σ20
∼ χ2(n− 1) + χ2(1)− 2χ2(1) = χ2(n− 2).
M.-Y. Chen 簡單迴歸
亦如同在母體平均數的假設檢定的討論一樣,
xn − µX
sxn
=xn − µX√
s2x/n∼ t(n− 1),
其中s2x =∑n
i=1(xi − xn)2/(n− 1)為樣本變異數, 而sxn
為樣本
平均數xn的樣本變異數。 值得注意的是, 假定我們考慮一個迴歸
模型:xi = α + ǫi, 則迴歸模型參數α的最小平方估計式定義為
αn =: argminα
1
n
n∑
i=1
(xi − xn)2.
M.-Y. Chen 簡單迴歸
而最小化的一階條件為
−2
n
n∑
i=1
(xi − αn) = 0.
因此,αn =∑n
i=1 xi/n = xn; 亦即參數α的最小平方估計式就等
於樣本觀察值{xi}ni=1的算術平均數, 因樣本觀察值{xi}ni=1的算
術平均數是一種位置衡量 (location measure), 故此迴歸模型稱
為位置模型 (location model); 在此模型中, 最小平方迴歸配適
值為xi = αn = xn, 而迴歸殘差值為ei = xi − xi = xi − xn, 進
而σ20的估計式為σ2
n =∑n
i=1(xi − xn)2/(n− 1)。 所以, 在樣本變
異數估計式中的s2x =∑n
i=1(xi − xn)2即等
於∑n
i=1(xi − xi) =∑n
i=1 e2i , 因此,s2x = σ2
n。
M.-Y. Chen 簡單迴歸
因此,
αn − α0
sαn
∼ t(n− 2),βn − β0
sβn
∼ t(n− 2).
證明:
αn − α0
sαn
=αn − α0
√
σ2n[1/n+ x2
n/∑n
i=1(xi − xn)2]
=
αn−α0√σ2
0[1/n+x2
n/∑
n
i=1(xi−xn)2]
[(n− 2)σ2n/σ
20 ]/(n− 2)
∼ N(0, 1)√χ2(n−2)
n−2
= t(n− 2).
M.-Y. Chen 簡單迴歸
同樣地,
βn − β0
sβn
=βn − β0
√
σ2n/∑n
i=1(xi − xn)2
=
βn−β0√σ2
0/∑
n
i=1(xi−xn)2
(n− 2)σ2n/σ
20 ]/(n− 2)
∼ N(0, 1)√χ2(n−2)
n−2
= t(n− 2).
M.-Y. Chen 簡單迴歸
βn的抽樣分配
β0
βn ∼ N(β0,σ2
0∑n
i=1(xi−x)2
)
0
βn−β0√σ2
0/∑
n
i=1(xi−x)2
∼ N(0, 1)
M.-Y. Chen 簡單迴歸
在實際情況, 我們無法知道真實的α0和β0數值, 在迴歸分析中,
我們較有興趣的是想知道被解釋變數Y 是否真受到解釋變數X ,
因此, 最常見到的虛無假設為H0 : β = 0; 為便於討論, 以下我們
假設所面對的虛無假設為H0 : β = β∗, 則在此虛無假設為真
(即β∗ = β0) 下, 我們從前述所討論βn的抽樣分配可得到:
βnH0∼ N(β∗, σ2
0/
n∑
i=1
(xi − xn)2)
βn − β∗
√
σ20/∑n
i=1(xi − xn)2)
∼ N(0, 1)
βn − β∗
√
σ2n/∑n
i=1(xi − xn)2)
∼ t(n− 2)
M.-Y. Chen 簡單迴歸
然而當虛無假設不為真時, 即H0 : β = β∗ 6= β0, 我們假定β∗ = β0 +△, 其
中△ 6= 0, 因β0 = β∗ −△, 則
βnH0∼ N(β∗ −△, σ2
0/
n∑
i=1
(xi − xn)2)
βn − β∗
√
σ20/∑n
i=1(xi − xn)2)∼ N
(
−△√
σ20/∑n
i=1(xi − xn)2), 1
)
βn − β∗
√
σ2n/∑n
i=1(xi − xn)2)=
βn − β0√
σ2n/∑n
i=1(xi − xn)2)
+β0 −△
√
σ2n/∑n
i=1(xi − xn)2)
t(n− 2) +β0 −△
√
σ2n/∑n
i=1(xi − xn)2).
M.-Y. Chen 簡單迴歸
我們即可用t檢定從事虛無假設檢定:
tβ =βn − b
sβn
∼ t(n− 2).
若tβ > tγ(n− 2), 則我們在顯著水準γ下, 棄卻虛無假
設H0 : β0 ≤ b; 若tβ < −tγ(n− 2), 則我們在顯著水準γ下, 棄
卻虛無假設H0 : β0 ≥ b; 最後,
若tβ ≥ tγ/2(n− 2)或tβ ≤ −tγ/2(n− 2), 則我們在顯著水
準γ下, 棄卻虛無假設H0 : β0 = b。
M.-Y. Chen 簡單迴歸
α0和β0的1− γ信賴區間
P (−tγ/2(n− 2) ≤ tα ≤ tγ/2(n− 2))
= P
(
−tγ/2(n− 2) ≤ αn − α0
sαn
≤ tγ/2(n− 2)
)
= P(
−tγ/2(n− 2)× sαn≤ αn − α0 ≤ tγ/2(n− 2)× sαn
)
= P(
αn − tγ/2(n− 2)× sαn≤ α0 ≤ αn + tγ/2(n− 2)× sαn
)
,
P (−tγ/2(n− 2) ≤ tβ ≤ tγ/2(n− 2))
= P
(
−tγ/2(n− 2) ≤ βn − β0
sαn
≤ tγ/2(n− 2)
)
= P(
−tγ/2(n− 2)× sβn
≤ βn − β0 ≤ tγ/2(n− 2)× sβn
)
= P(
βn − tγ/2(n− 2)× sβn≤ β0 ≤ βn + tγ/2(n− 2)× sβn
)
.
M.-Y. Chen 簡單迴歸
因此,α0和β0的1− γ信賴區間分別為
[αn − tγ/2(n− 2)× sαn, αn + tγ/2(n− 2)× sαn
],
和
[βn − tγ/2(n− 2)× sβn, βn + tγ/2(n− 2)× sβn
].
M.-Y. Chen 簡單迴歸
對於一組樣本資料(yi, xi), i = 1, . . . , n, 我們以一個線形模
型yi = α0 + β0xi + ǫi來描述變數Y 的實現值與數值xi間的關係,
而以最小平方估計法估計α0和β0的參數值, 得到yi的配適值
(fitted values)(yi); 所以要評估線形模型設定與最小平方估計法
的參數估計是否適切, 我們可以比較所有配適值yi與實際觀察數
值yi間的差異, 假若其間差異大, 表示有可能是線形模型設定的
不適當, 抑或是最小平方估計法的參數估計的不適當; 而其間差
異小, 則表示線形模型設定與最小平方估計法的參數估計是適當
的。
M.-Y. Chen 簡單迴歸
而所有配適值yi與實際觀察數值yi間的差異可以
用∑n
i=1(yi − yi)2加以衡量, 此數值越大, 表示配適度差, 而數值
越小表配適度佳; 然在前面的討論中, 我們已定義了σ20的最小平
方估計式為σ2n =
∑ni=1(yi − yi)
2/(n− 2) =∑n
i=1 e2i /(n− 2),
因此, 我們可以直接以σ2n作為衡量所有yi與yi間的差異, 進而作
為配適度的衡量。 這個直接以yi和yi的距離作為衡量配適度的方
法, 稱為絕對衡量法 (absolute measure); 很明顯的, 這個絕對衡
量法所得到的數值會受到yi衡量單位的影響, 故不是優良的衡量
方法。 以下我們介紹一些相對的衡量法 (relative measure) 來衡
量配適度, 而此衡量方法將不再受yi衡量單位的影響。
M.-Y. Chen 簡單迴歸
由於yi = yi + ei, 且
y2i = (yi + ei)2
= y2i + e2i + 2yiei
= y2i + e2i + 2(αn + βnxi)ei
因此,
n∑
i=1
y2i =
n∑
i=1
y2i +
n∑
i=1
e2i + 2
n∑
i=1
(αn + βnxi)ei
=
n∑
i=1
y2i +
n∑
i=1
e2i + 2αn
n∑
i=1
ei + 2βn
n∑
i=1
xiei
M.-Y. Chen 簡單迴歸
如果簡單線形迴歸模型中具有截距項(intercept), 則由正規方程
式可得∑n
i=1 ei = 0, 且∑n
i=1 xiei = 0; 因此,n∑
i=1
y2i =n∑
i=1
y2i +n∑
i=1
e2i + 2n∑
i=1
(αn + βnxi)ei
=
n∑
i=1
y2i +
n∑
i=1
e2i .
我們定義:
TSS (Total Sum of Squares) =n∑
i=1
y2i .
ESS (Error Sum of Squares) =
n∑
i=1
e2i .
RSS (Regression Sum of Squares) =
n∑
i=1
y2i .M.-Y. Chen 簡單迴歸
則上式可書寫為
n∑
i=1
y2i =n∑
i=1
y2i +n∑
i=1
e2i
TSS = RSS + ESS.
在此值得一提的是, 有些統計書或計量 (econometrics) 書, 會
將ESS定義成 Explained Sum of Squares, 此與我們所定義
的RSS相同, 而將RSS定義為 Residual Sum of Squares, 此則與
我們所定義的ESS相同。 由於我們很容易即可證
明TSS = ESS + RSS, 則一個相對衡量配適度的方法, 判定係數
(coefficient of determination) 即定義為
R2 = RSS/TSS = 1− (ESS/TSS).
M.-Y. Chen 簡單迴歸
再者, 由於yi = yi + ei, 而
yn =1
n
n∑
i=1
yi =1
n
n∑
i=1
(yi + ei)
=1
n
n∑
i=1
yi +1
n
n∑
i=1
ei
= ¯yn + en.
因此,
yi − yn = (yi − ¯yn) + (ei − en).
值得注意的是, 如果簡單線形迴歸模型中具有截距項
(intercept),∑n
i=1 ei = 0, 即en = 0。
M.-Y. Chen 簡單迴歸
(yi − yn)2 = (yi − ¯yn)
2 + (ei − en)2 + 2(yi − ¯yn)(ei − en),
n∑
i=1
(yi − yn)2 =
n∑
i=1
(yi − ¯yn)2 +
n∑
i=1
(ei − en)2 + 2
n∑
i=1
(yi − ¯yn)(ei − en).
然由於n∑
i=1
(yi − ¯yn)(ei − en)
=n∑
i=1
(αn + βnxi)ei − ¯yn
n∑
i=1
ei − en
n∑
i=1
yi + n¯ynen
= αn
n∑
i=1
ei + βn
n∑
i=1
xiei − ¯yn
n∑
i=1
ei
−en
n∑
i=1
yi + n¯ynen.
M.-Y. Chen 簡單迴歸
如果簡單線形迴歸模型中具有截距項, 則∑n
i=1 ei = 0或en = 0,
且∑n
i=1 xiei = 0, 因此, 上式等於0, 而
n∑
i=1
(yi − yn)2 =
n∑
i=1
(yi − ¯yn)2 +
n∑
i=1
e2i
M.-Y. Chen 簡單迴歸
若我們定義:
Centered TSS =n∑
i=1
(yi − yn)2.
ESS (Error Sum of Squares) =
n∑
i=1
e2i .
Centered RSS =n∑
i=1
(yi − ¯yn)2.
因此Centered TSS = Centered ESS + Centered RSS,
M.-Y. Chen 簡單迴歸
則令一個相對衡量配適度的方法, 中央化判定係數(centered
coefficient of determination) 即定義為
R2c = Centered RSS/Centered TSS = 1− (ESS/Centered TSS).
這個中央化判定係數即衡量在所有yi的總變異中 (∑
(yi − yn)2)
由迴歸線所解釋部份 (∑n
i=1 yi − yn)2) 所佔的的比例;
M.-Y. Chen 簡單迴歸
顯而易見的是,0 ≤ R2c ≤ 1, 當然, 越大的R2
c值, 表示迴歸線配適的越好;
若R2c = 1, 表示Centered TSS = Centered RSS或ESS =
∑ni=1 e
2i = 0,
則ei = 0或yi = yi, i = 1, . . . , n, 此時, 稱為完全配適 (perfect fit); 另一方
面, 若若R2c = 0, 表
示Centered TSS = ESS或Centered RSS =∑n
i=1(yi − yn)2 = 0,
則yi − yn = 0, i = 1, . . . , n, 因此,
0 = yi − yn = α+ βnxi − yn = yn − βnxn + βnxi − yn
= βn(xi − xn),
然由假設條件 (2),xi不全然相同, 因此, 上式對於所有觀察值i要成立, 必
然βn = 0; 因yi = αn + βnxi, 在βn = 0下, 表示配適值yi不受到xi值的影
響。
M.-Y. Chen 簡單迴歸
再者, 假定解釋變數X不再是非隨機的而是隨機變數, 由於
R2c =
∑ni=1(yi − y)2
∑ni=1(yi − y)2
= β2
∑ni=1(xi − x)2
∑ni=1(yi − y)2
=[∑n
i=1(xi − x)(yi − y)]2
[∑n
i=1(yi − y)2][∑n
i=1(xi − x)2]
=ˆcov(X, Y )2
var(X)var(Y )
= (ρX,Y )2.
在簡單線形迴歸中, 判定係數即等於兩個變數間樣本相關係數的
平方; 因此, 唯有ρX,Y = 1或ρX,Y = −1時,R2c方等於1。
M.-Y. Chen 簡單迴歸
藉由R2c的數值, 根據上式結果, 我們可以用R2
c來檢定隨機變數X與Y的相關
性; 假定我們想檢定隨機變數X與Y間不存在相關性, 因此虛無假設
為H0 : ρX,Y = 0; 對於這個虛無假設, 假若R2c的數值不等於0, 表示樣本相
關係數ρX,Y 不等於0, 使得以棄卻虛無假設; 此時, 我們所運用的檢定統計量
為
φ =R2
c(n− 2)
1−R2c
∼ F1,n−2.
證明: 由於
φ =R2
c(n− 2)
1−R2c
=(n− 2)
[∑n
i=1(yi−yn)
2
∑n
i=1(yi−yn)2
]2
1−[∑
n
i=1(yi−yn)2∑
n
i=1(yi−yn)2
]2
=(n− 2)
∑ni=1(yi − yn)
2
∑ni=1(yi − yn)2 −
∑ni=1(yi − yn)2
M.-Y. Chen 簡單迴歸
上式中的分子項為
n∑
i=1
(yi − yn)2 =
n∑
i=1
[αn + βnxi − yn]2
=n∑
i=1
[yn − βnxn + βnxi − yn]2
=
n∑
i=1
[βn(xi − xn)]2 = β2
n
n∑
i=1
(xi − xn)2.
而分母項為
n∑
i=1
(yi − yn)2 −
n∑
i=1
(yi − yn)2 =
n∑
i=1
e2i .
M.-Y. Chen 簡單迴歸
因此在虛無假設H0 : ρX,Y = 0或H0 : β0 = 0下,
φ =(n− 2)
∑ni=1(yi − yn)
2
∑ni=1(yi − yn)
2 −∑n
i=1(yi − yn)2
=(βn − β0)
2∑n
i=1(xi − xn)2
∑ni=1 e
2i /(n− 2)
=
(βn−β0)2
σ2
0/∑
n
i=1(xi−xn)2
(n−2)σ2n
σ2
0
/(n− 2)
∼χ2(1)1
χ2(n−2)n−2
= F (1, n− 2).
由此結果, 我們得到t(n− 2)2 = F (1, n− 2), 亦即一個自由度
為n− 2的t-分配之隨機變數, 其平方後, 成為第一個自由度固定
為1而第二自由度為n− 2的F -分配。M.-Y. Chen 簡單迴歸
假定我們相了解台灣的大學生的體重X與身高Y間的關係, 並假
定其間的關係為線形關係:Y = α0 + β0X , 根據此線形關係, 我
們所設定的的簡單線形迴歸模型為yi = α0 + β0xi + ǫi; 假設在
統計學課堂中的80位同學的體重與身高均具有母體代表性, 因
此, 我們可以利用此80組體重與身高成對的樣本資料進行迴歸
分析。
M.-Y. Chen 簡單迴歸
迴歸分析的第三個目的即在於預測(prediction), 尤其在時間序
列迴歸模型的分析上; 在我們以n個樣本觀察
值(yi, xi), i = 1, . . . , n估計迴歸模型得到yi = αn + βnxi的結
果; 若我們得到一個關於X的新觀察值xn+1, 則我們對yn+1的預
測為yn+1 = αn + βnxn+1。
M.-Y. Chen 簡單迴歸
這一個預測值的預測誤差 (prediction error, yn+1 − yn+1) 的平均數為
E(yn+1 − yn+1) = E[(αn + βnxn+1)− (α0 + β0xn+1 + ǫn+1)]
= [E(αn)− α0] + [E(βn)− β0]xn+1 − E(ǫn+1) = 0.
而變異數
E(yn+1 − yn+1)2 = E[(αn − α0) + (βn − β0)xn+1 − ǫn+1]
2
= var(αn) + var(βn)x2n+1 + σ2
0 + 2xn+1cov(αn, βn)
= σ20
(
1 +1
n+
(xn+1 − x)2∑n
i=1(xi − x)2
)
.
由這個變異數, 我們可知當xn+1 = xn時, 預測誤差的變異數最小; 因此,
若xn+1越接近xn, 則可得到較精確的預測值, 即變異數較小的預測值。
M.-Y. Chen 簡單迴歸