78
靜宜大學企管系 97 學年第 4 學期 『統計學』講義 任課老師:陳欣得 2009 8

96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

靜宜大學企管系 97 學年第 4 學期

『統計學』講義

任課老師陳欣得

2009 年 8 月

copy2006 陳欣得 統計學mdash假設檢定 第 6-1 頁

6第六章 假設檢定 2006 年 8 月 21 日 最後修改

61 假設檢定概論

62 檢定統計量

63 假設檢定的形式與步驟

64 單一樣本之假設檢定

65 兩組樣本之假設檢定

66 型 I 錯誤與型 II 錯誤

67 檢定力函數與作業曲線

68 相關係數的檢定

61 假設檢定概論

假設(Hypothesis)一個對母體參數可判定真實與否的陳述

假設檢定(Hypothesis Testing)以樣本檢測對母體參數之陳述是否真實的操作程序

虛無假設(Null Hypothesis)用來檢定的陳述(寫成 0H )

對立假設(Alternate Hypothesis)虛無假設的否定陳述(寫成 1H )

範例 61 虛無假設與對立假設

以下是有關母體平均數虛無假設

0 4H μ le

數學三一律告訴我們對立假設應為

1 4H μ gt

另外的虛無對立假設如 0 1 8 8H Hμ μ= hArr ne 0 1 8 8H Hμ μge hArr lt

假設檢定的邏輯

虛無假設很難證明其為真但只要有一個反證就可證明其為偽

copy2006 陳欣得 統計學mdash假設檢定 第 6-2 頁

不可能樣本拒絕區域

在虛無假設的條件下出現不可能出現的樣本即可證明虛無假設為偽

不可能樣本出現機率為零的樣本

拒絕區域(Reject Region)不可能樣本的區域(範圍)

顯著水準

機率小於某個臨界值就會被當成零該臨界值稱為顯著水準

顯著水準(Level of Significance)顯然不是零的臨界值

顯著水準是一個機率值習慣上以α 來表示如 005α =

找到不可能樣本然後推翻虛無假設才有意義反之則沒有意義

在統計裡我們只有一次推翻虛無假設的機會

另外我們需要知道這個樣本出現的機率如此才可以判斷其是否為不可能樣本

其者需要抽樣分配的知識後者需要會計算拒絕區域(已知分配下給機率求臨界值)

範例 62 (假設檢定的邏輯)

張三宣稱袋中的 100 個球都是白色的(虛無假設)若從袋中抽出紅球來(不可能樣

本)則可證明張三的宣稱為偽反過來即使抽出來的是白球(合理樣本)我們也

不能證實『袋中都是白球』的虛無假設為真(接受對立假設沒有意義)要證實該陳

述為真的唯一方法是把所有球都拿出來檢查(支持虛無假設很困難)

抽出一個紅球後張三改口說『袋中的 100 個球中除了三個紅球之外都是白色的』

(虛無假設)若第二次又抽出紅球來這時有人會跳出來指責張三撒謊因為不可

能連續抽出兩個紅球(出現不可能樣本)事實上連續兩次抽出紅球的機率大約

00006並不是不可能只是出面指責的人認為 00006 與 0 沒有差異(00006 已經小

於他的顯著水準)不可否認的這時還是有些神經比較大條的人會認為連續出現

兩次紅球的機率是小一點但是也不是不可能呀(他們的顯著水準比 00006 小)如

果第三次又抽出紅球呢剛剛還耐得住性子的人也該翻臉了因為連續三次紅球的機

率只有 0000006

虛無假設與對立假設

統計虛無假設的形式如下

copy2006 陳欣得 統計學mdash假設檢定 第 6-3 頁

0Hge=le

母體參數 常數

其中 2 2 2 x y x y x yp p pμ σ μ μ σ σisin minus minus母體參數

範例 63 (常見之虛無假設與對立假設)

以下是常見的虛無假設與對立假設

母體參數 兩組樣本右尾檢定 雙尾檢定 左尾檢定

平均數

比例

變異數

0

1

H aH a

μμle

gt0

1

H aH a

μμ=

ne0

1

H aH a

μμge

lt0 1 2

1 1 2

0 0

HH

μ μμ μ

minus =

minus ne

0

1

H p aH p a

legt

0

1

H p aH p a

=ne

0

1

H p aH p a

gelt

0 1 2

1 1 2

0 0

H p pH p p

minus =minus ne

20

21

H a

H a

σ

σ

le

gt

20

21

H a

H a

σ

σ

=

ne

20

21

H a

H a

σ

σ

ge

lt

2 20 1 2

2 21 1 2

1

1

H

H

σ σ

σ σ

=

ne

其中 a 為一常數

寫出虛無假設

假設檢定的兩種結果

(1)出現不可能樣本rarr拒絕虛無假設rarr證實虛無假設的陳述為偽rarr接受對立假設

(2)沒有出現不可能樣本rarr無法拒絕虛無假設rarr無法證實虛無假設的陳述為偽

有學者這樣做但我不喜歡(因為在我的認知以下的推論是錯誤的)

無法拒絕虛無假設 rarr 接受虛無假設 rarr 接受虛無假設的陳述為真

就假設檢定的邏輯出現拒絕虛無假設的結果才有意義

撰寫虛無假設的三個考量點

(1)將被拒絕後(證實其為偽)關係人會採取行動的陳述列為虛無假設

(2)將被拒絕後(證實其為偽)後果比較嚴重的陳述列為虛無假設

(3)將看起來不正確的陳述列為虛無假設

範例 64 (寫出虛無假設與對立假設)

copy2006 陳欣得 統計學mdash假設檢定 第 6-4 頁

檢定某罐裝飲料的裝填量是否為設定的 250cc (a)若關係人是顧客則虛無假設 0 250H μ ge 拒絕虛無假設後顧客會有行動

(b)若關係人是老闆則虛無假設 0 250H μ le 拒絕虛無假設後老闆會有行動

(c)若關係人是廠長則虛無假設 0 250H μ = 拒絕虛無假設後廠長會有行動

在法院裡虛無假設是『被告無罪』該假設證實為偽的結果是被告需坐牢反之

則只是原告不爽快而已若訴訟雙方一為高官一為平民虛無假設是高官有理道

理同上高官輸的結果比較嚴重(對法官對社會都很嚴重)

某罐裝飲料應該裝 250cc初步非正式調查平均裝填量不到 250cc則虛無假設應

該寫成 0 250H μ ge

62 檢定統計量

檢定統計量樣本檢定統計量值

檢定統計量(test statistic)用來檢定虛無假設的抽樣分配

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

樣本檢定統計量值檢定統計量帶入樣本所求出的函數值

範例 65 (樣本檢定統計量值) 檢定

0 H μ μle 常用的檢定統計量為

xt

σminus

=

其中 μ σ 分別為母體平均數與母體標準差若已知 5μ = 2σ = 且樣本為

1 2 3 4 58 47x x x x =

則樣本檢定統計量值為

6 5 5 8 4 71 6

42 4t xminus + + +⎛ ⎞= = = =⎜ ⎟

⎝ ⎠

範例 66 (檢定母體參數與檢定統計量的關係) 常見之檢定母體參數有三個 μ p與 2σ

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

copy2006 陳欣得 統計學mdash假設檢定 第 6-5 頁

這兩者的關係如下

母體參數 檢定統計量

平均數

比例

變異數

μ

Xznμ

σminus

= 1df n

Xts n

μ= minus

minus=

( )1

p pzp p n

minus=

minus

( ) 22

1 2

1df n

n sχ

σ= minus

minus=

p

( )1 2

2 21 2

1 1 2 22 1

df n n

sF

sσσ= minus minus =

範例 67 (虛無假設與拒絕區域的關係)

下表是虛無假設型態與拒絕區域(不可能樣本區域)型態之關係

0 H aθ le

0 H aθ =

0 H aθ ge θ lt

uθ θlt gt或

uθ gt

其中θ 為母體參數θ 為檢定統計量值 為下臨界值u 為上臨界值

顯著水準拒絕區域與 p 值

顯著水準與拒絕區域大小成正向關係

顯著水準小則拒絕區域也較小

基與保守原則拒絕區域習慣不包含臨界值如 921R χ= gt 或 196R z= lt minus

範例 68 (給顯著水準求拒絕區域)

若檢定統計量為 z 分配右尾檢定已知顯著水準 005α = 則拒絕區域為 1645R z= gt

又若雙尾檢定已知顯著水準 005α = 則拒絕區域為 196 196R z z= lt minus gt或

copy2006 陳欣得 統計學mdash假設檢定 第 6-6 頁

p 值(p value)不可能樣本區間(拒絕區域)的機率

決策法則(Decision Rule)若檢定統計量值在拒絕區域內則拒絕 0H 否則無法拒絕 0H

範例 69 (給拒絕區域求 p 值) 若檢定統計量為 z 分配右尾檢定已知拒絕區域 258R z= gt 則 p 值為

( )258 001p z gt =

又若雙尾檢定已知拒絕區域 1645 1645R z z= lt minus gt或 則 p 值為

( )1645 1645 01p z zlt minus gt =或

63 假設檢定的形式與步驟

三種檢定的形式z 值法p 值法與信賴區間法

z 值法

假設檢定五步驟(z 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四計算樣本檢定統計量值作假設檢定決策(若在拒絕區域則拒絕 0H )

步驟五寫假設檢定報告

範例 610 (步驟一寫出虛無假設)

寫出虛無假設有兩個步驟(1)決定母體參數(2)決定左右或雙尾檢定

第一個步驟不會有問題第二個步驟有以下原則

(1)拒絕虛無假設後必須有所行動(2)拒絕虛無假設才有意義

拒絕虛無假設後必須有所行動 假設研究對象是罐裝飲的料裝填量是否正常對顧

客而言裝填量太少就會有抗議行動因此不可能樣本在左端應為左尾檢定對

工程師而言裝填量太多或太少都顯示機器設定有問題必須檢修機器因此應為雙

尾檢定對老闆而言裝填量太多會增加成本因此應為右尾檢定

copy2006 陳欣得 統計學mdash假設檢定 第 6-7 頁

拒絕虛無假設才有意義 我們希望虛無假設容易被推翻因此如果樣本檢定統計

量值偏高則為右尾檢定反之若統計量值偏低則為左尾檢定

範例 611 (步驟一寫出虛無假設)

(1)平均減肥量為 10 磅樣本平均數為 9 磅 rArr 左尾檢定

(2)平均睡眠 7 小時樣本平均睡眠時間為 68 小時 rArr 左尾檢定

(3)Has the special additive increased the mean weight of the chickens rArr 右尾檢定

(4)Is there a change in the mean length of the bars rArr 雙尾檢定

範例 612 (母體平均數檢定z 值法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)樣本檢定統計量為26 20 18 225

88 9Rminus

= = isin

(5)拒絕虛無假設有充分證據證實咖啡因含量高於 20cc

p 值法

假設檢定五步驟(p 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量

步驟三計算樣本檢定統計量值寫出假定之拒絕區域

步驟四以拒絕區域檢定型式與檢定統計量求出 p 值

步驟五寫假設檢定報告

範例 613 (母體平均數檢定p 值法)

copy2006 陳欣得 統計學mdash假設檢定 第 6-8 頁

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)樣本檢定統計量為26 20 18 225

88 9minus

= =

(4)右尾檢定自由度 1 8n minus = 的 t 分配臨界值為 225求得 00273p =

(5)若顯著水準高於 00273 則應該拒絕 0H 否則應接受 1H

z 值法與 p 值法的關係

z 值法已有決策者的顯著水準求不可能樣本區間(給機率求區間)

p 值法沒有決策者的顯著水準假定不可能樣本區間後求 p 值(給區間求機率)

p 值法中假定以樣本檢定統計量值為臨界值的區間為不可能樣本區間

信賴區間法

假設檢定五步驟(信賴區間法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出信賴區間

步驟四計算樣本檢定統計量值作假設檢定決策(若在信賴區間則無法拒絕 0H )

步驟五寫假設檢定報告

一般信賴區間法常用於雙尾檢定其他形式的檢定比較少見但也不是不可以畢竟將

信賴區間視為拒絕區域的補集合則一切是那麼自然

範例 614 (母體平均數檢定信賴區間法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用信賴區間法(信賴度1 95αminus = )

來檢定其標示是否為真

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 2: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-1 頁

6第六章 假設檢定 2006 年 8 月 21 日 最後修改

61 假設檢定概論

62 檢定統計量

63 假設檢定的形式與步驟

64 單一樣本之假設檢定

65 兩組樣本之假設檢定

66 型 I 錯誤與型 II 錯誤

67 檢定力函數與作業曲線

68 相關係數的檢定

61 假設檢定概論

假設(Hypothesis)一個對母體參數可判定真實與否的陳述

假設檢定(Hypothesis Testing)以樣本檢測對母體參數之陳述是否真實的操作程序

虛無假設(Null Hypothesis)用來檢定的陳述(寫成 0H )

對立假設(Alternate Hypothesis)虛無假設的否定陳述(寫成 1H )

範例 61 虛無假設與對立假設

以下是有關母體平均數虛無假設

0 4H μ le

數學三一律告訴我們對立假設應為

1 4H μ gt

另外的虛無對立假設如 0 1 8 8H Hμ μ= hArr ne 0 1 8 8H Hμ μge hArr lt

假設檢定的邏輯

虛無假設很難證明其為真但只要有一個反證就可證明其為偽

copy2006 陳欣得 統計學mdash假設檢定 第 6-2 頁

不可能樣本拒絕區域

在虛無假設的條件下出現不可能出現的樣本即可證明虛無假設為偽

不可能樣本出現機率為零的樣本

拒絕區域(Reject Region)不可能樣本的區域(範圍)

顯著水準

機率小於某個臨界值就會被當成零該臨界值稱為顯著水準

顯著水準(Level of Significance)顯然不是零的臨界值

顯著水準是一個機率值習慣上以α 來表示如 005α =

找到不可能樣本然後推翻虛無假設才有意義反之則沒有意義

在統計裡我們只有一次推翻虛無假設的機會

另外我們需要知道這個樣本出現的機率如此才可以判斷其是否為不可能樣本

其者需要抽樣分配的知識後者需要會計算拒絕區域(已知分配下給機率求臨界值)

範例 62 (假設檢定的邏輯)

張三宣稱袋中的 100 個球都是白色的(虛無假設)若從袋中抽出紅球來(不可能樣

本)則可證明張三的宣稱為偽反過來即使抽出來的是白球(合理樣本)我們也

不能證實『袋中都是白球』的虛無假設為真(接受對立假設沒有意義)要證實該陳

述為真的唯一方法是把所有球都拿出來檢查(支持虛無假設很困難)

抽出一個紅球後張三改口說『袋中的 100 個球中除了三個紅球之外都是白色的』

(虛無假設)若第二次又抽出紅球來這時有人會跳出來指責張三撒謊因為不可

能連續抽出兩個紅球(出現不可能樣本)事實上連續兩次抽出紅球的機率大約

00006並不是不可能只是出面指責的人認為 00006 與 0 沒有差異(00006 已經小

於他的顯著水準)不可否認的這時還是有些神經比較大條的人會認為連續出現

兩次紅球的機率是小一點但是也不是不可能呀(他們的顯著水準比 00006 小)如

果第三次又抽出紅球呢剛剛還耐得住性子的人也該翻臉了因為連續三次紅球的機

率只有 0000006

虛無假設與對立假設

統計虛無假設的形式如下

copy2006 陳欣得 統計學mdash假設檢定 第 6-3 頁

0Hge=le

母體參數 常數

其中 2 2 2 x y x y x yp p pμ σ μ μ σ σisin minus minus母體參數

範例 63 (常見之虛無假設與對立假設)

以下是常見的虛無假設與對立假設

母體參數 兩組樣本右尾檢定 雙尾檢定 左尾檢定

平均數

比例

變異數

0

1

H aH a

μμle

gt0

1

H aH a

μμ=

ne0

1

H aH a

μμge

lt0 1 2

1 1 2

0 0

HH

μ μμ μ

minus =

minus ne

0

1

H p aH p a

legt

0

1

H p aH p a

=ne

0

1

H p aH p a

gelt

0 1 2

1 1 2

0 0

H p pH p p

minus =minus ne

20

21

H a

H a

σ

σ

le

gt

20

21

H a

H a

σ

σ

=

ne

20

21

H a

H a

σ

σ

ge

lt

2 20 1 2

2 21 1 2

1

1

H

H

σ σ

σ σ

=

ne

其中 a 為一常數

寫出虛無假設

假設檢定的兩種結果

(1)出現不可能樣本rarr拒絕虛無假設rarr證實虛無假設的陳述為偽rarr接受對立假設

(2)沒有出現不可能樣本rarr無法拒絕虛無假設rarr無法證實虛無假設的陳述為偽

有學者這樣做但我不喜歡(因為在我的認知以下的推論是錯誤的)

無法拒絕虛無假設 rarr 接受虛無假設 rarr 接受虛無假設的陳述為真

就假設檢定的邏輯出現拒絕虛無假設的結果才有意義

撰寫虛無假設的三個考量點

(1)將被拒絕後(證實其為偽)關係人會採取行動的陳述列為虛無假設

(2)將被拒絕後(證實其為偽)後果比較嚴重的陳述列為虛無假設

(3)將看起來不正確的陳述列為虛無假設

範例 64 (寫出虛無假設與對立假設)

copy2006 陳欣得 統計學mdash假設檢定 第 6-4 頁

檢定某罐裝飲料的裝填量是否為設定的 250cc (a)若關係人是顧客則虛無假設 0 250H μ ge 拒絕虛無假設後顧客會有行動

(b)若關係人是老闆則虛無假設 0 250H μ le 拒絕虛無假設後老闆會有行動

(c)若關係人是廠長則虛無假設 0 250H μ = 拒絕虛無假設後廠長會有行動

在法院裡虛無假設是『被告無罪』該假設證實為偽的結果是被告需坐牢反之

則只是原告不爽快而已若訴訟雙方一為高官一為平民虛無假設是高官有理道

理同上高官輸的結果比較嚴重(對法官對社會都很嚴重)

某罐裝飲料應該裝 250cc初步非正式調查平均裝填量不到 250cc則虛無假設應

該寫成 0 250H μ ge

62 檢定統計量

檢定統計量樣本檢定統計量值

檢定統計量(test statistic)用來檢定虛無假設的抽樣分配

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

樣本檢定統計量值檢定統計量帶入樣本所求出的函數值

範例 65 (樣本檢定統計量值) 檢定

0 H μ μle 常用的檢定統計量為

xt

σminus

=

其中 μ σ 分別為母體平均數與母體標準差若已知 5μ = 2σ = 且樣本為

1 2 3 4 58 47x x x x =

則樣本檢定統計量值為

6 5 5 8 4 71 6

42 4t xminus + + +⎛ ⎞= = = =⎜ ⎟

⎝ ⎠

範例 66 (檢定母體參數與檢定統計量的關係) 常見之檢定母體參數有三個 μ p與 2σ

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

copy2006 陳欣得 統計學mdash假設檢定 第 6-5 頁

這兩者的關係如下

母體參數 檢定統計量

平均數

比例

變異數

μ

Xznμ

σminus

= 1df n

Xts n

μ= minus

minus=

( )1

p pzp p n

minus=

minus

( ) 22

1 2

1df n

n sχ

σ= minus

minus=

p

( )1 2

2 21 2

1 1 2 22 1

df n n

sF

sσσ= minus minus =

範例 67 (虛無假設與拒絕區域的關係)

下表是虛無假設型態與拒絕區域(不可能樣本區域)型態之關係

0 H aθ le

0 H aθ =

0 H aθ ge θ lt

uθ θlt gt或

uθ gt

其中θ 為母體參數θ 為檢定統計量值 為下臨界值u 為上臨界值

顯著水準拒絕區域與 p 值

顯著水準與拒絕區域大小成正向關係

顯著水準小則拒絕區域也較小

基與保守原則拒絕區域習慣不包含臨界值如 921R χ= gt 或 196R z= lt minus

範例 68 (給顯著水準求拒絕區域)

若檢定統計量為 z 分配右尾檢定已知顯著水準 005α = 則拒絕區域為 1645R z= gt

又若雙尾檢定已知顯著水準 005α = 則拒絕區域為 196 196R z z= lt minus gt或

copy2006 陳欣得 統計學mdash假設檢定 第 6-6 頁

p 值(p value)不可能樣本區間(拒絕區域)的機率

決策法則(Decision Rule)若檢定統計量值在拒絕區域內則拒絕 0H 否則無法拒絕 0H

範例 69 (給拒絕區域求 p 值) 若檢定統計量為 z 分配右尾檢定已知拒絕區域 258R z= gt 則 p 值為

( )258 001p z gt =

又若雙尾檢定已知拒絕區域 1645 1645R z z= lt minus gt或 則 p 值為

( )1645 1645 01p z zlt minus gt =或

63 假設檢定的形式與步驟

三種檢定的形式z 值法p 值法與信賴區間法

z 值法

假設檢定五步驟(z 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四計算樣本檢定統計量值作假設檢定決策(若在拒絕區域則拒絕 0H )

步驟五寫假設檢定報告

範例 610 (步驟一寫出虛無假設)

寫出虛無假設有兩個步驟(1)決定母體參數(2)決定左右或雙尾檢定

第一個步驟不會有問題第二個步驟有以下原則

(1)拒絕虛無假設後必須有所行動(2)拒絕虛無假設才有意義

拒絕虛無假設後必須有所行動 假設研究對象是罐裝飲的料裝填量是否正常對顧

客而言裝填量太少就會有抗議行動因此不可能樣本在左端應為左尾檢定對

工程師而言裝填量太多或太少都顯示機器設定有問題必須檢修機器因此應為雙

尾檢定對老闆而言裝填量太多會增加成本因此應為右尾檢定

copy2006 陳欣得 統計學mdash假設檢定 第 6-7 頁

拒絕虛無假設才有意義 我們希望虛無假設容易被推翻因此如果樣本檢定統計

量值偏高則為右尾檢定反之若統計量值偏低則為左尾檢定

範例 611 (步驟一寫出虛無假設)

(1)平均減肥量為 10 磅樣本平均數為 9 磅 rArr 左尾檢定

(2)平均睡眠 7 小時樣本平均睡眠時間為 68 小時 rArr 左尾檢定

(3)Has the special additive increased the mean weight of the chickens rArr 右尾檢定

(4)Is there a change in the mean length of the bars rArr 雙尾檢定

範例 612 (母體平均數檢定z 值法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)樣本檢定統計量為26 20 18 225

88 9Rminus

= = isin

(5)拒絕虛無假設有充分證據證實咖啡因含量高於 20cc

p 值法

假設檢定五步驟(p 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量

步驟三計算樣本檢定統計量值寫出假定之拒絕區域

步驟四以拒絕區域檢定型式與檢定統計量求出 p 值

步驟五寫假設檢定報告

範例 613 (母體平均數檢定p 值法)

copy2006 陳欣得 統計學mdash假設檢定 第 6-8 頁

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)樣本檢定統計量為26 20 18 225

88 9minus

= =

(4)右尾檢定自由度 1 8n minus = 的 t 分配臨界值為 225求得 00273p =

(5)若顯著水準高於 00273 則應該拒絕 0H 否則應接受 1H

z 值法與 p 值法的關係

z 值法已有決策者的顯著水準求不可能樣本區間(給機率求區間)

p 值法沒有決策者的顯著水準假定不可能樣本區間後求 p 值(給區間求機率)

p 值法中假定以樣本檢定統計量值為臨界值的區間為不可能樣本區間

信賴區間法

假設檢定五步驟(信賴區間法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出信賴區間

步驟四計算樣本檢定統計量值作假設檢定決策(若在信賴區間則無法拒絕 0H )

步驟五寫假設檢定報告

一般信賴區間法常用於雙尾檢定其他形式的檢定比較少見但也不是不可以畢竟將

信賴區間視為拒絕區域的補集合則一切是那麼自然

範例 614 (母體平均數檢定信賴區間法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用信賴區間法(信賴度1 95αminus = )

來檢定其標示是否為真

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 3: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-2 頁

不可能樣本拒絕區域

在虛無假設的條件下出現不可能出現的樣本即可證明虛無假設為偽

不可能樣本出現機率為零的樣本

拒絕區域(Reject Region)不可能樣本的區域(範圍)

顯著水準

機率小於某個臨界值就會被當成零該臨界值稱為顯著水準

顯著水準(Level of Significance)顯然不是零的臨界值

顯著水準是一個機率值習慣上以α 來表示如 005α =

找到不可能樣本然後推翻虛無假設才有意義反之則沒有意義

在統計裡我們只有一次推翻虛無假設的機會

另外我們需要知道這個樣本出現的機率如此才可以判斷其是否為不可能樣本

其者需要抽樣分配的知識後者需要會計算拒絕區域(已知分配下給機率求臨界值)

範例 62 (假設檢定的邏輯)

張三宣稱袋中的 100 個球都是白色的(虛無假設)若從袋中抽出紅球來(不可能樣

本)則可證明張三的宣稱為偽反過來即使抽出來的是白球(合理樣本)我們也

不能證實『袋中都是白球』的虛無假設為真(接受對立假設沒有意義)要證實該陳

述為真的唯一方法是把所有球都拿出來檢查(支持虛無假設很困難)

抽出一個紅球後張三改口說『袋中的 100 個球中除了三個紅球之外都是白色的』

(虛無假設)若第二次又抽出紅球來這時有人會跳出來指責張三撒謊因為不可

能連續抽出兩個紅球(出現不可能樣本)事實上連續兩次抽出紅球的機率大約

00006並不是不可能只是出面指責的人認為 00006 與 0 沒有差異(00006 已經小

於他的顯著水準)不可否認的這時還是有些神經比較大條的人會認為連續出現

兩次紅球的機率是小一點但是也不是不可能呀(他們的顯著水準比 00006 小)如

果第三次又抽出紅球呢剛剛還耐得住性子的人也該翻臉了因為連續三次紅球的機

率只有 0000006

虛無假設與對立假設

統計虛無假設的形式如下

copy2006 陳欣得 統計學mdash假設檢定 第 6-3 頁

0Hge=le

母體參數 常數

其中 2 2 2 x y x y x yp p pμ σ μ μ σ σisin minus minus母體參數

範例 63 (常見之虛無假設與對立假設)

以下是常見的虛無假設與對立假設

母體參數 兩組樣本右尾檢定 雙尾檢定 左尾檢定

平均數

比例

變異數

0

1

H aH a

μμle

gt0

1

H aH a

μμ=

ne0

1

H aH a

μμge

lt0 1 2

1 1 2

0 0

HH

μ μμ μ

minus =

minus ne

0

1

H p aH p a

legt

0

1

H p aH p a

=ne

0

1

H p aH p a

gelt

0 1 2

1 1 2

0 0

H p pH p p

minus =minus ne

20

21

H a

H a

σ

σ

le

gt

20

21

H a

H a

σ

σ

=

ne

20

21

H a

H a

σ

σ

ge

lt

2 20 1 2

2 21 1 2

1

1

H

H

σ σ

σ σ

=

ne

其中 a 為一常數

寫出虛無假設

假設檢定的兩種結果

(1)出現不可能樣本rarr拒絕虛無假設rarr證實虛無假設的陳述為偽rarr接受對立假設

(2)沒有出現不可能樣本rarr無法拒絕虛無假設rarr無法證實虛無假設的陳述為偽

有學者這樣做但我不喜歡(因為在我的認知以下的推論是錯誤的)

無法拒絕虛無假設 rarr 接受虛無假設 rarr 接受虛無假設的陳述為真

就假設檢定的邏輯出現拒絕虛無假設的結果才有意義

撰寫虛無假設的三個考量點

(1)將被拒絕後(證實其為偽)關係人會採取行動的陳述列為虛無假設

(2)將被拒絕後(證實其為偽)後果比較嚴重的陳述列為虛無假設

(3)將看起來不正確的陳述列為虛無假設

範例 64 (寫出虛無假設與對立假設)

copy2006 陳欣得 統計學mdash假設檢定 第 6-4 頁

檢定某罐裝飲料的裝填量是否為設定的 250cc (a)若關係人是顧客則虛無假設 0 250H μ ge 拒絕虛無假設後顧客會有行動

(b)若關係人是老闆則虛無假設 0 250H μ le 拒絕虛無假設後老闆會有行動

(c)若關係人是廠長則虛無假設 0 250H μ = 拒絕虛無假設後廠長會有行動

在法院裡虛無假設是『被告無罪』該假設證實為偽的結果是被告需坐牢反之

則只是原告不爽快而已若訴訟雙方一為高官一為平民虛無假設是高官有理道

理同上高官輸的結果比較嚴重(對法官對社會都很嚴重)

某罐裝飲料應該裝 250cc初步非正式調查平均裝填量不到 250cc則虛無假設應

該寫成 0 250H μ ge

62 檢定統計量

檢定統計量樣本檢定統計量值

檢定統計量(test statistic)用來檢定虛無假設的抽樣分配

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

樣本檢定統計量值檢定統計量帶入樣本所求出的函數值

範例 65 (樣本檢定統計量值) 檢定

0 H μ μle 常用的檢定統計量為

xt

σminus

=

其中 μ σ 分別為母體平均數與母體標準差若已知 5μ = 2σ = 且樣本為

1 2 3 4 58 47x x x x =

則樣本檢定統計量值為

6 5 5 8 4 71 6

42 4t xminus + + +⎛ ⎞= = = =⎜ ⎟

⎝ ⎠

範例 66 (檢定母體參數與檢定統計量的關係) 常見之檢定母體參數有三個 μ p與 2σ

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

copy2006 陳欣得 統計學mdash假設檢定 第 6-5 頁

這兩者的關係如下

母體參數 檢定統計量

平均數

比例

變異數

μ

Xznμ

σminus

= 1df n

Xts n

μ= minus

minus=

( )1

p pzp p n

minus=

minus

( ) 22

1 2

1df n

n sχ

σ= minus

minus=

p

( )1 2

2 21 2

1 1 2 22 1

df n n

sF

sσσ= minus minus =

範例 67 (虛無假設與拒絕區域的關係)

下表是虛無假設型態與拒絕區域(不可能樣本區域)型態之關係

0 H aθ le

0 H aθ =

0 H aθ ge θ lt

uθ θlt gt或

uθ gt

其中θ 為母體參數θ 為檢定統計量值 為下臨界值u 為上臨界值

顯著水準拒絕區域與 p 值

顯著水準與拒絕區域大小成正向關係

顯著水準小則拒絕區域也較小

基與保守原則拒絕區域習慣不包含臨界值如 921R χ= gt 或 196R z= lt minus

範例 68 (給顯著水準求拒絕區域)

若檢定統計量為 z 分配右尾檢定已知顯著水準 005α = 則拒絕區域為 1645R z= gt

又若雙尾檢定已知顯著水準 005α = 則拒絕區域為 196 196R z z= lt minus gt或

copy2006 陳欣得 統計學mdash假設檢定 第 6-6 頁

p 值(p value)不可能樣本區間(拒絕區域)的機率

決策法則(Decision Rule)若檢定統計量值在拒絕區域內則拒絕 0H 否則無法拒絕 0H

範例 69 (給拒絕區域求 p 值) 若檢定統計量為 z 分配右尾檢定已知拒絕區域 258R z= gt 則 p 值為

( )258 001p z gt =

又若雙尾檢定已知拒絕區域 1645 1645R z z= lt minus gt或 則 p 值為

( )1645 1645 01p z zlt minus gt =或

63 假設檢定的形式與步驟

三種檢定的形式z 值法p 值法與信賴區間法

z 值法

假設檢定五步驟(z 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四計算樣本檢定統計量值作假設檢定決策(若在拒絕區域則拒絕 0H )

步驟五寫假設檢定報告

範例 610 (步驟一寫出虛無假設)

寫出虛無假設有兩個步驟(1)決定母體參數(2)決定左右或雙尾檢定

第一個步驟不會有問題第二個步驟有以下原則

(1)拒絕虛無假設後必須有所行動(2)拒絕虛無假設才有意義

拒絕虛無假設後必須有所行動 假設研究對象是罐裝飲的料裝填量是否正常對顧

客而言裝填量太少就會有抗議行動因此不可能樣本在左端應為左尾檢定對

工程師而言裝填量太多或太少都顯示機器設定有問題必須檢修機器因此應為雙

尾檢定對老闆而言裝填量太多會增加成本因此應為右尾檢定

copy2006 陳欣得 統計學mdash假設檢定 第 6-7 頁

拒絕虛無假設才有意義 我們希望虛無假設容易被推翻因此如果樣本檢定統計

量值偏高則為右尾檢定反之若統計量值偏低則為左尾檢定

範例 611 (步驟一寫出虛無假設)

(1)平均減肥量為 10 磅樣本平均數為 9 磅 rArr 左尾檢定

(2)平均睡眠 7 小時樣本平均睡眠時間為 68 小時 rArr 左尾檢定

(3)Has the special additive increased the mean weight of the chickens rArr 右尾檢定

(4)Is there a change in the mean length of the bars rArr 雙尾檢定

範例 612 (母體平均數檢定z 值法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)樣本檢定統計量為26 20 18 225

88 9Rminus

= = isin

(5)拒絕虛無假設有充分證據證實咖啡因含量高於 20cc

p 值法

假設檢定五步驟(p 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量

步驟三計算樣本檢定統計量值寫出假定之拒絕區域

步驟四以拒絕區域檢定型式與檢定統計量求出 p 值

步驟五寫假設檢定報告

範例 613 (母體平均數檢定p 值法)

copy2006 陳欣得 統計學mdash假設檢定 第 6-8 頁

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)樣本檢定統計量為26 20 18 225

88 9minus

= =

(4)右尾檢定自由度 1 8n minus = 的 t 分配臨界值為 225求得 00273p =

(5)若顯著水準高於 00273 則應該拒絕 0H 否則應接受 1H

z 值法與 p 值法的關係

z 值法已有決策者的顯著水準求不可能樣本區間(給機率求區間)

p 值法沒有決策者的顯著水準假定不可能樣本區間後求 p 值(給區間求機率)

p 值法中假定以樣本檢定統計量值為臨界值的區間為不可能樣本區間

信賴區間法

假設檢定五步驟(信賴區間法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出信賴區間

步驟四計算樣本檢定統計量值作假設檢定決策(若在信賴區間則無法拒絕 0H )

步驟五寫假設檢定報告

一般信賴區間法常用於雙尾檢定其他形式的檢定比較少見但也不是不可以畢竟將

信賴區間視為拒絕區域的補集合則一切是那麼自然

範例 614 (母體平均數檢定信賴區間法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用信賴區間法(信賴度1 95αminus = )

來檢定其標示是否為真

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 4: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-3 頁

0Hge=le

母體參數 常數

其中 2 2 2 x y x y x yp p pμ σ μ μ σ σisin minus minus母體參數

範例 63 (常見之虛無假設與對立假設)

以下是常見的虛無假設與對立假設

母體參數 兩組樣本右尾檢定 雙尾檢定 左尾檢定

平均數

比例

變異數

0

1

H aH a

μμle

gt0

1

H aH a

μμ=

ne0

1

H aH a

μμge

lt0 1 2

1 1 2

0 0

HH

μ μμ μ

minus =

minus ne

0

1

H p aH p a

legt

0

1

H p aH p a

=ne

0

1

H p aH p a

gelt

0 1 2

1 1 2

0 0

H p pH p p

minus =minus ne

20

21

H a

H a

σ

σ

le

gt

20

21

H a

H a

σ

σ

=

ne

20

21

H a

H a

σ

σ

ge

lt

2 20 1 2

2 21 1 2

1

1

H

H

σ σ

σ σ

=

ne

其中 a 為一常數

寫出虛無假設

假設檢定的兩種結果

(1)出現不可能樣本rarr拒絕虛無假設rarr證實虛無假設的陳述為偽rarr接受對立假設

(2)沒有出現不可能樣本rarr無法拒絕虛無假設rarr無法證實虛無假設的陳述為偽

有學者這樣做但我不喜歡(因為在我的認知以下的推論是錯誤的)

無法拒絕虛無假設 rarr 接受虛無假設 rarr 接受虛無假設的陳述為真

就假設檢定的邏輯出現拒絕虛無假設的結果才有意義

撰寫虛無假設的三個考量點

(1)將被拒絕後(證實其為偽)關係人會採取行動的陳述列為虛無假設

(2)將被拒絕後(證實其為偽)後果比較嚴重的陳述列為虛無假設

(3)將看起來不正確的陳述列為虛無假設

範例 64 (寫出虛無假設與對立假設)

copy2006 陳欣得 統計學mdash假設檢定 第 6-4 頁

檢定某罐裝飲料的裝填量是否為設定的 250cc (a)若關係人是顧客則虛無假設 0 250H μ ge 拒絕虛無假設後顧客會有行動

(b)若關係人是老闆則虛無假設 0 250H μ le 拒絕虛無假設後老闆會有行動

(c)若關係人是廠長則虛無假設 0 250H μ = 拒絕虛無假設後廠長會有行動

在法院裡虛無假設是『被告無罪』該假設證實為偽的結果是被告需坐牢反之

則只是原告不爽快而已若訴訟雙方一為高官一為平民虛無假設是高官有理道

理同上高官輸的結果比較嚴重(對法官對社會都很嚴重)

某罐裝飲料應該裝 250cc初步非正式調查平均裝填量不到 250cc則虛無假設應

該寫成 0 250H μ ge

62 檢定統計量

檢定統計量樣本檢定統計量值

檢定統計量(test statistic)用來檢定虛無假設的抽樣分配

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

樣本檢定統計量值檢定統計量帶入樣本所求出的函數值

範例 65 (樣本檢定統計量值) 檢定

0 H μ μle 常用的檢定統計量為

xt

σminus

=

其中 μ σ 分別為母體平均數與母體標準差若已知 5μ = 2σ = 且樣本為

1 2 3 4 58 47x x x x =

則樣本檢定統計量值為

6 5 5 8 4 71 6

42 4t xminus + + +⎛ ⎞= = = =⎜ ⎟

⎝ ⎠

範例 66 (檢定母體參數與檢定統計量的關係) 常見之檢定母體參數有三個 μ p與 2σ

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

copy2006 陳欣得 統計學mdash假設檢定 第 6-5 頁

這兩者的關係如下

母體參數 檢定統計量

平均數

比例

變異數

μ

Xznμ

σminus

= 1df n

Xts n

μ= minus

minus=

( )1

p pzp p n

minus=

minus

( ) 22

1 2

1df n

n sχ

σ= minus

minus=

p

( )1 2

2 21 2

1 1 2 22 1

df n n

sF

sσσ= minus minus =

範例 67 (虛無假設與拒絕區域的關係)

下表是虛無假設型態與拒絕區域(不可能樣本區域)型態之關係

0 H aθ le

0 H aθ =

0 H aθ ge θ lt

uθ θlt gt或

uθ gt

其中θ 為母體參數θ 為檢定統計量值 為下臨界值u 為上臨界值

顯著水準拒絕區域與 p 值

顯著水準與拒絕區域大小成正向關係

顯著水準小則拒絕區域也較小

基與保守原則拒絕區域習慣不包含臨界值如 921R χ= gt 或 196R z= lt minus

範例 68 (給顯著水準求拒絕區域)

若檢定統計量為 z 分配右尾檢定已知顯著水準 005α = 則拒絕區域為 1645R z= gt

又若雙尾檢定已知顯著水準 005α = 則拒絕區域為 196 196R z z= lt minus gt或

copy2006 陳欣得 統計學mdash假設檢定 第 6-6 頁

p 值(p value)不可能樣本區間(拒絕區域)的機率

決策法則(Decision Rule)若檢定統計量值在拒絕區域內則拒絕 0H 否則無法拒絕 0H

範例 69 (給拒絕區域求 p 值) 若檢定統計量為 z 分配右尾檢定已知拒絕區域 258R z= gt 則 p 值為

( )258 001p z gt =

又若雙尾檢定已知拒絕區域 1645 1645R z z= lt minus gt或 則 p 值為

( )1645 1645 01p z zlt minus gt =或

63 假設檢定的形式與步驟

三種檢定的形式z 值法p 值法與信賴區間法

z 值法

假設檢定五步驟(z 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四計算樣本檢定統計量值作假設檢定決策(若在拒絕區域則拒絕 0H )

步驟五寫假設檢定報告

範例 610 (步驟一寫出虛無假設)

寫出虛無假設有兩個步驟(1)決定母體參數(2)決定左右或雙尾檢定

第一個步驟不會有問題第二個步驟有以下原則

(1)拒絕虛無假設後必須有所行動(2)拒絕虛無假設才有意義

拒絕虛無假設後必須有所行動 假設研究對象是罐裝飲的料裝填量是否正常對顧

客而言裝填量太少就會有抗議行動因此不可能樣本在左端應為左尾檢定對

工程師而言裝填量太多或太少都顯示機器設定有問題必須檢修機器因此應為雙

尾檢定對老闆而言裝填量太多會增加成本因此應為右尾檢定

copy2006 陳欣得 統計學mdash假設檢定 第 6-7 頁

拒絕虛無假設才有意義 我們希望虛無假設容易被推翻因此如果樣本檢定統計

量值偏高則為右尾檢定反之若統計量值偏低則為左尾檢定

範例 611 (步驟一寫出虛無假設)

(1)平均減肥量為 10 磅樣本平均數為 9 磅 rArr 左尾檢定

(2)平均睡眠 7 小時樣本平均睡眠時間為 68 小時 rArr 左尾檢定

(3)Has the special additive increased the mean weight of the chickens rArr 右尾檢定

(4)Is there a change in the mean length of the bars rArr 雙尾檢定

範例 612 (母體平均數檢定z 值法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)樣本檢定統計量為26 20 18 225

88 9Rminus

= = isin

(5)拒絕虛無假設有充分證據證實咖啡因含量高於 20cc

p 值法

假設檢定五步驟(p 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量

步驟三計算樣本檢定統計量值寫出假定之拒絕區域

步驟四以拒絕區域檢定型式與檢定統計量求出 p 值

步驟五寫假設檢定報告

範例 613 (母體平均數檢定p 值法)

copy2006 陳欣得 統計學mdash假設檢定 第 6-8 頁

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)樣本檢定統計量為26 20 18 225

88 9minus

= =

(4)右尾檢定自由度 1 8n minus = 的 t 分配臨界值為 225求得 00273p =

(5)若顯著水準高於 00273 則應該拒絕 0H 否則應接受 1H

z 值法與 p 值法的關係

z 值法已有決策者的顯著水準求不可能樣本區間(給機率求區間)

p 值法沒有決策者的顯著水準假定不可能樣本區間後求 p 值(給區間求機率)

p 值法中假定以樣本檢定統計量值為臨界值的區間為不可能樣本區間

信賴區間法

假設檢定五步驟(信賴區間法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出信賴區間

步驟四計算樣本檢定統計量值作假設檢定決策(若在信賴區間則無法拒絕 0H )

步驟五寫假設檢定報告

一般信賴區間法常用於雙尾檢定其他形式的檢定比較少見但也不是不可以畢竟將

信賴區間視為拒絕區域的補集合則一切是那麼自然

範例 614 (母體平均數檢定信賴區間法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用信賴區間法(信賴度1 95αminus = )

來檢定其標示是否為真

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 5: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-4 頁

檢定某罐裝飲料的裝填量是否為設定的 250cc (a)若關係人是顧客則虛無假設 0 250H μ ge 拒絕虛無假設後顧客會有行動

(b)若關係人是老闆則虛無假設 0 250H μ le 拒絕虛無假設後老闆會有行動

(c)若關係人是廠長則虛無假設 0 250H μ = 拒絕虛無假設後廠長會有行動

在法院裡虛無假設是『被告無罪』該假設證實為偽的結果是被告需坐牢反之

則只是原告不爽快而已若訴訟雙方一為高官一為平民虛無假設是高官有理道

理同上高官輸的結果比較嚴重(對法官對社會都很嚴重)

某罐裝飲料應該裝 250cc初步非正式調查平均裝填量不到 250cc則虛無假設應

該寫成 0 250H μ ge

62 檢定統計量

檢定統計量樣本檢定統計量值

檢定統計量(test statistic)用來檢定虛無假設的抽樣分配

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

樣本檢定統計量值檢定統計量帶入樣本所求出的函數值

範例 65 (樣本檢定統計量值) 檢定

0 H μ μle 常用的檢定統計量為

xt

σminus

=

其中 μ σ 分別為母體平均數與母體標準差若已知 5μ = 2σ = 且樣本為

1 2 3 4 58 47x x x x =

則樣本檢定統計量值為

6 5 5 8 4 71 6

42 4t xminus + + +⎛ ⎞= = = =⎜ ⎟

⎝ ⎠

範例 66 (檢定母體參數與檢定統計量的關係) 常見之檢定母體參數有三個 μ p與 2σ

常用的檢定統計量z 分配t 分配 2χ 分配F 分配

copy2006 陳欣得 統計學mdash假設檢定 第 6-5 頁

這兩者的關係如下

母體參數 檢定統計量

平均數

比例

變異數

μ

Xznμ

σminus

= 1df n

Xts n

μ= minus

minus=

( )1

p pzp p n

minus=

minus

( ) 22

1 2

1df n

n sχ

σ= minus

minus=

p

( )1 2

2 21 2

1 1 2 22 1

df n n

sF

sσσ= minus minus =

範例 67 (虛無假設與拒絕區域的關係)

下表是虛無假設型態與拒絕區域(不可能樣本區域)型態之關係

0 H aθ le

0 H aθ =

0 H aθ ge θ lt

uθ θlt gt或

uθ gt

其中θ 為母體參數θ 為檢定統計量值 為下臨界值u 為上臨界值

顯著水準拒絕區域與 p 值

顯著水準與拒絕區域大小成正向關係

顯著水準小則拒絕區域也較小

基與保守原則拒絕區域習慣不包含臨界值如 921R χ= gt 或 196R z= lt minus

範例 68 (給顯著水準求拒絕區域)

若檢定統計量為 z 分配右尾檢定已知顯著水準 005α = 則拒絕區域為 1645R z= gt

又若雙尾檢定已知顯著水準 005α = 則拒絕區域為 196 196R z z= lt minus gt或

copy2006 陳欣得 統計學mdash假設檢定 第 6-6 頁

p 值(p value)不可能樣本區間(拒絕區域)的機率

決策法則(Decision Rule)若檢定統計量值在拒絕區域內則拒絕 0H 否則無法拒絕 0H

範例 69 (給拒絕區域求 p 值) 若檢定統計量為 z 分配右尾檢定已知拒絕區域 258R z= gt 則 p 值為

( )258 001p z gt =

又若雙尾檢定已知拒絕區域 1645 1645R z z= lt minus gt或 則 p 值為

( )1645 1645 01p z zlt minus gt =或

63 假設檢定的形式與步驟

三種檢定的形式z 值法p 值法與信賴區間法

z 值法

假設檢定五步驟(z 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四計算樣本檢定統計量值作假設檢定決策(若在拒絕區域則拒絕 0H )

步驟五寫假設檢定報告

範例 610 (步驟一寫出虛無假設)

寫出虛無假設有兩個步驟(1)決定母體參數(2)決定左右或雙尾檢定

第一個步驟不會有問題第二個步驟有以下原則

(1)拒絕虛無假設後必須有所行動(2)拒絕虛無假設才有意義

拒絕虛無假設後必須有所行動 假設研究對象是罐裝飲的料裝填量是否正常對顧

客而言裝填量太少就會有抗議行動因此不可能樣本在左端應為左尾檢定對

工程師而言裝填量太多或太少都顯示機器設定有問題必須檢修機器因此應為雙

尾檢定對老闆而言裝填量太多會增加成本因此應為右尾檢定

copy2006 陳欣得 統計學mdash假設檢定 第 6-7 頁

拒絕虛無假設才有意義 我們希望虛無假設容易被推翻因此如果樣本檢定統計

量值偏高則為右尾檢定反之若統計量值偏低則為左尾檢定

範例 611 (步驟一寫出虛無假設)

(1)平均減肥量為 10 磅樣本平均數為 9 磅 rArr 左尾檢定

(2)平均睡眠 7 小時樣本平均睡眠時間為 68 小時 rArr 左尾檢定

(3)Has the special additive increased the mean weight of the chickens rArr 右尾檢定

(4)Is there a change in the mean length of the bars rArr 雙尾檢定

範例 612 (母體平均數檢定z 值法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)樣本檢定統計量為26 20 18 225

88 9Rminus

= = isin

(5)拒絕虛無假設有充分證據證實咖啡因含量高於 20cc

p 值法

假設檢定五步驟(p 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量

步驟三計算樣本檢定統計量值寫出假定之拒絕區域

步驟四以拒絕區域檢定型式與檢定統計量求出 p 值

步驟五寫假設檢定報告

範例 613 (母體平均數檢定p 值法)

copy2006 陳欣得 統計學mdash假設檢定 第 6-8 頁

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)樣本檢定統計量為26 20 18 225

88 9minus

= =

(4)右尾檢定自由度 1 8n minus = 的 t 分配臨界值為 225求得 00273p =

(5)若顯著水準高於 00273 則應該拒絕 0H 否則應接受 1H

z 值法與 p 值法的關係

z 值法已有決策者的顯著水準求不可能樣本區間(給機率求區間)

p 值法沒有決策者的顯著水準假定不可能樣本區間後求 p 值(給區間求機率)

p 值法中假定以樣本檢定統計量值為臨界值的區間為不可能樣本區間

信賴區間法

假設檢定五步驟(信賴區間法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出信賴區間

步驟四計算樣本檢定統計量值作假設檢定決策(若在信賴區間則無法拒絕 0H )

步驟五寫假設檢定報告

一般信賴區間法常用於雙尾檢定其他形式的檢定比較少見但也不是不可以畢竟將

信賴區間視為拒絕區域的補集合則一切是那麼自然

範例 614 (母體平均數檢定信賴區間法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用信賴區間法(信賴度1 95αminus = )

來檢定其標示是否為真

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 6: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-5 頁

這兩者的關係如下

母體參數 檢定統計量

平均數

比例

變異數

μ

Xznμ

σminus

= 1df n

Xts n

μ= minus

minus=

( )1

p pzp p n

minus=

minus

( ) 22

1 2

1df n

n sχ

σ= minus

minus=

p

( )1 2

2 21 2

1 1 2 22 1

df n n

sF

sσσ= minus minus =

範例 67 (虛無假設與拒絕區域的關係)

下表是虛無假設型態與拒絕區域(不可能樣本區域)型態之關係

0 H aθ le

0 H aθ =

0 H aθ ge θ lt

uθ θlt gt或

uθ gt

其中θ 為母體參數θ 為檢定統計量值 為下臨界值u 為上臨界值

顯著水準拒絕區域與 p 值

顯著水準與拒絕區域大小成正向關係

顯著水準小則拒絕區域也較小

基與保守原則拒絕區域習慣不包含臨界值如 921R χ= gt 或 196R z= lt minus

範例 68 (給顯著水準求拒絕區域)

若檢定統計量為 z 分配右尾檢定已知顯著水準 005α = 則拒絕區域為 1645R z= gt

又若雙尾檢定已知顯著水準 005α = 則拒絕區域為 196 196R z z= lt minus gt或

copy2006 陳欣得 統計學mdash假設檢定 第 6-6 頁

p 值(p value)不可能樣本區間(拒絕區域)的機率

決策法則(Decision Rule)若檢定統計量值在拒絕區域內則拒絕 0H 否則無法拒絕 0H

範例 69 (給拒絕區域求 p 值) 若檢定統計量為 z 分配右尾檢定已知拒絕區域 258R z= gt 則 p 值為

( )258 001p z gt =

又若雙尾檢定已知拒絕區域 1645 1645R z z= lt minus gt或 則 p 值為

( )1645 1645 01p z zlt minus gt =或

63 假設檢定的形式與步驟

三種檢定的形式z 值法p 值法與信賴區間法

z 值法

假設檢定五步驟(z 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四計算樣本檢定統計量值作假設檢定決策(若在拒絕區域則拒絕 0H )

步驟五寫假設檢定報告

範例 610 (步驟一寫出虛無假設)

寫出虛無假設有兩個步驟(1)決定母體參數(2)決定左右或雙尾檢定

第一個步驟不會有問題第二個步驟有以下原則

(1)拒絕虛無假設後必須有所行動(2)拒絕虛無假設才有意義

拒絕虛無假設後必須有所行動 假設研究對象是罐裝飲的料裝填量是否正常對顧

客而言裝填量太少就會有抗議行動因此不可能樣本在左端應為左尾檢定對

工程師而言裝填量太多或太少都顯示機器設定有問題必須檢修機器因此應為雙

尾檢定對老闆而言裝填量太多會增加成本因此應為右尾檢定

copy2006 陳欣得 統計學mdash假設檢定 第 6-7 頁

拒絕虛無假設才有意義 我們希望虛無假設容易被推翻因此如果樣本檢定統計

量值偏高則為右尾檢定反之若統計量值偏低則為左尾檢定

範例 611 (步驟一寫出虛無假設)

(1)平均減肥量為 10 磅樣本平均數為 9 磅 rArr 左尾檢定

(2)平均睡眠 7 小時樣本平均睡眠時間為 68 小時 rArr 左尾檢定

(3)Has the special additive increased the mean weight of the chickens rArr 右尾檢定

(4)Is there a change in the mean length of the bars rArr 雙尾檢定

範例 612 (母體平均數檢定z 值法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)樣本檢定統計量為26 20 18 225

88 9Rminus

= = isin

(5)拒絕虛無假設有充分證據證實咖啡因含量高於 20cc

p 值法

假設檢定五步驟(p 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量

步驟三計算樣本檢定統計量值寫出假定之拒絕區域

步驟四以拒絕區域檢定型式與檢定統計量求出 p 值

步驟五寫假設檢定報告

範例 613 (母體平均數檢定p 值法)

copy2006 陳欣得 統計學mdash假設檢定 第 6-8 頁

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)樣本檢定統計量為26 20 18 225

88 9minus

= =

(4)右尾檢定自由度 1 8n minus = 的 t 分配臨界值為 225求得 00273p =

(5)若顯著水準高於 00273 則應該拒絕 0H 否則應接受 1H

z 值法與 p 值法的關係

z 值法已有決策者的顯著水準求不可能樣本區間(給機率求區間)

p 值法沒有決策者的顯著水準假定不可能樣本區間後求 p 值(給區間求機率)

p 值法中假定以樣本檢定統計量值為臨界值的區間為不可能樣本區間

信賴區間法

假設檢定五步驟(信賴區間法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出信賴區間

步驟四計算樣本檢定統計量值作假設檢定決策(若在信賴區間則無法拒絕 0H )

步驟五寫假設檢定報告

一般信賴區間法常用於雙尾檢定其他形式的檢定比較少見但也不是不可以畢竟將

信賴區間視為拒絕區域的補集合則一切是那麼自然

範例 614 (母體平均數檢定信賴區間法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用信賴區間法(信賴度1 95αminus = )

來檢定其標示是否為真

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 7: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-6 頁

p 值(p value)不可能樣本區間(拒絕區域)的機率

決策法則(Decision Rule)若檢定統計量值在拒絕區域內則拒絕 0H 否則無法拒絕 0H

範例 69 (給拒絕區域求 p 值) 若檢定統計量為 z 分配右尾檢定已知拒絕區域 258R z= gt 則 p 值為

( )258 001p z gt =

又若雙尾檢定已知拒絕區域 1645 1645R z z= lt minus gt或 則 p 值為

( )1645 1645 01p z zlt minus gt =或

63 假設檢定的形式與步驟

三種檢定的形式z 值法p 值法與信賴區間法

z 值法

假設檢定五步驟(z 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四計算樣本檢定統計量值作假設檢定決策(若在拒絕區域則拒絕 0H )

步驟五寫假設檢定報告

範例 610 (步驟一寫出虛無假設)

寫出虛無假設有兩個步驟(1)決定母體參數(2)決定左右或雙尾檢定

第一個步驟不會有問題第二個步驟有以下原則

(1)拒絕虛無假設後必須有所行動(2)拒絕虛無假設才有意義

拒絕虛無假設後必須有所行動 假設研究對象是罐裝飲的料裝填量是否正常對顧

客而言裝填量太少就會有抗議行動因此不可能樣本在左端應為左尾檢定對

工程師而言裝填量太多或太少都顯示機器設定有問題必須檢修機器因此應為雙

尾檢定對老闆而言裝填量太多會增加成本因此應為右尾檢定

copy2006 陳欣得 統計學mdash假設檢定 第 6-7 頁

拒絕虛無假設才有意義 我們希望虛無假設容易被推翻因此如果樣本檢定統計

量值偏高則為右尾檢定反之若統計量值偏低則為左尾檢定

範例 611 (步驟一寫出虛無假設)

(1)平均減肥量為 10 磅樣本平均數為 9 磅 rArr 左尾檢定

(2)平均睡眠 7 小時樣本平均睡眠時間為 68 小時 rArr 左尾檢定

(3)Has the special additive increased the mean weight of the chickens rArr 右尾檢定

(4)Is there a change in the mean length of the bars rArr 雙尾檢定

範例 612 (母體平均數檢定z 值法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)樣本檢定統計量為26 20 18 225

88 9Rminus

= = isin

(5)拒絕虛無假設有充分證據證實咖啡因含量高於 20cc

p 值法

假設檢定五步驟(p 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量

步驟三計算樣本檢定統計量值寫出假定之拒絕區域

步驟四以拒絕區域檢定型式與檢定統計量求出 p 值

步驟五寫假設檢定報告

範例 613 (母體平均數檢定p 值法)

copy2006 陳欣得 統計學mdash假設檢定 第 6-8 頁

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)樣本檢定統計量為26 20 18 225

88 9minus

= =

(4)右尾檢定自由度 1 8n minus = 的 t 分配臨界值為 225求得 00273p =

(5)若顯著水準高於 00273 則應該拒絕 0H 否則應接受 1H

z 值法與 p 值法的關係

z 值法已有決策者的顯著水準求不可能樣本區間(給機率求區間)

p 值法沒有決策者的顯著水準假定不可能樣本區間後求 p 值(給區間求機率)

p 值法中假定以樣本檢定統計量值為臨界值的區間為不可能樣本區間

信賴區間法

假設檢定五步驟(信賴區間法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出信賴區間

步驟四計算樣本檢定統計量值作假設檢定決策(若在信賴區間則無法拒絕 0H )

步驟五寫假設檢定報告

一般信賴區間法常用於雙尾檢定其他形式的檢定比較少見但也不是不可以畢竟將

信賴區間視為拒絕區域的補集合則一切是那麼自然

範例 614 (母體平均數檢定信賴區間法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用信賴區間法(信賴度1 95αminus = )

來檢定其標示是否為真

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 8: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-7 頁

拒絕虛無假設才有意義 我們希望虛無假設容易被推翻因此如果樣本檢定統計

量值偏高則為右尾檢定反之若統計量值偏低則為左尾檢定

範例 611 (步驟一寫出虛無假設)

(1)平均減肥量為 10 磅樣本平均數為 9 磅 rArr 左尾檢定

(2)平均睡眠 7 小時樣本平均睡眠時間為 68 小時 rArr 左尾檢定

(3)Has the special additive increased the mean weight of the chickens rArr 右尾檢定

(4)Is there a change in the mean length of the bars rArr 雙尾檢定

範例 612 (母體平均數檢定z 值法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)樣本檢定統計量為26 20 18 225

88 9Rminus

= = isin

(5)拒絕虛無假設有充分證據證實咖啡因含量高於 20cc

p 值法

假設檢定五步驟(p 值法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量

步驟三計算樣本檢定統計量值寫出假定之拒絕區域

步驟四以拒絕區域檢定型式與檢定統計量求出 p 值

步驟五寫假設檢定報告

範例 613 (母體平均數檢定p 值法)

copy2006 陳欣得 統計學mdash假設檢定 第 6-8 頁

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)樣本檢定統計量為26 20 18 225

88 9minus

= =

(4)右尾檢定自由度 1 8n minus = 的 t 分配臨界值為 225求得 00273p =

(5)若顯著水準高於 00273 則應該拒絕 0H 否則應接受 1H

z 值法與 p 值法的關係

z 值法已有決策者的顯著水準求不可能樣本區間(給機率求區間)

p 值法沒有決策者的顯著水準假定不可能樣本區間後求 p 值(給區間求機率)

p 值法中假定以樣本檢定統計量值為臨界值的區間為不可能樣本區間

信賴區間法

假設檢定五步驟(信賴區間法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出信賴區間

步驟四計算樣本檢定統計量值作假設檢定決策(若在信賴區間則無法拒絕 0H )

步驟五寫假設檢定報告

一般信賴區間法常用於雙尾檢定其他形式的檢定比較少見但也不是不可以畢竟將

信賴區間視為拒絕區域的補集合則一切是那麼自然

範例 614 (母體平均數檢定信賴區間法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用信賴區間法(信賴度1 95αminus = )

來檢定其標示是否為真

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 9: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-8 頁

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用顯著水準 005α = 來檢定其標示是否

為真

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)樣本檢定統計量為26 20 18 225

88 9minus

= =

(4)右尾檢定自由度 1 8n minus = 的 t 分配臨界值為 225求得 00273p =

(5)若顯著水準高於 00273 則應該拒絕 0H 否則應接受 1H

z 值法與 p 值法的關係

z 值法已有決策者的顯著水準求不可能樣本區間(給機率求區間)

p 值法沒有決策者的顯著水準假定不可能樣本區間後求 p 值(給區間求機率)

p 值法中假定以樣本檢定統計量值為臨界值的區間為不可能樣本區間

信賴區間法

假設檢定五步驟(信賴區間法)

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出信賴區間

步驟四計算樣本檢定統計量值作假設檢定決策(若在信賴區間則無法拒絕 0H )

步驟五寫假設檢定報告

一般信賴區間法常用於雙尾檢定其他形式的檢定比較少見但也不是不可以畢竟將

信賴區間視為拒絕區域的補集合則一切是那麼自然

範例 614 (母體平均數檢定信賴區間法)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc請利用信賴區間法(信賴度1 95αminus = )

來檢定其標示是否為真

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 10: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-9 頁

【解】 (基本資料為 20 9 26 8 005n x sμ α= = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配1 95αminus = 信賴區間 1860tCI t= le

或者820 1860 24969xCI x⎧ ⎫= le + times =⎨ ⎬

⎩ ⎭

826 1860 21049

CIμ μ⎧ ⎫= ge minus times =⎨ ⎬⎩ ⎭

(4)樣本檢定統計量為26 20 18 225

88 9 tt CIminus= = = notin 拒絕虛無假設

或者 26 xx CI= notin 20 CIμμ = notin 拒絕虛無假設

(5)有充分證據證實咖啡因含量高於 20cc

64 單一樣本之假設檢定

單一樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

(a)Y x=

x xxz

n nσ μμ μ σ

σminus

= = rArr =

x xs xs tn s n

μμ μ minus= = rArr =

(b)Y p=

( )

( )1

1

p p

p p p pp zn p p n

μ σminus minus

= = rArr =minus

單一樣本與變異數有關之檢定統計量只有下列一組

( ) 2

22

1n sχ

σminus

=

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 11: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-10 頁

範例 615 (母體比例檢定)

某系宣稱有 5的畢業生考上研究所今隨機抽問 50 位當年度畢業生其中有 1 人考

上研究所請作統計推論

【解】 (基本資料為 005 50 1 50 002p n p= = = = )

(1)虛無假設為 0 005H p ge (左尾檢定)

(2)檢定統計量 ( )1

p pzp p n

minus=

minus 為 z 分配

(3)樣本檢定統計量為( )

002 005 09740005 1 005 50

z minus= = minus

times minus

(4)左尾檢定z 分配臨界值為 09740minus 求得 01650p =

(5)若顯著水準高於 01650 則應該拒絕 0H 否則應接受 1H

範例 616 (母體變異數檢定)

A company claims that the standard deviation in their delivery time is less than 5 days A

sample of 27 past customers is taken The average delivery time in the sample was 14

days with a standard deviation of 45 days At 95 confidence test the companys claim

【解】

( z 值法 基本資料σsup2=25雙尾n=27ssup2=2025α=005 )

(1) 虛無假設 Hoσsup2 = 25(雙尾檢定)

(2) 檢定統計量 (n-1)ssup2σsup2 為 自由度 26 的 χ2 分配

(3) 自由度 26 的 χ2 分配雙尾α=005求得拒絕區域

  R = χ2 lt 138439 或 χ2 gt 419232

(4) 樣本檢定統計量值 χ2= 26 2025 25 = 2106 不屬於 拒絕區域 R

(5) 沒有充分理由來拒絕虛無假設 Ho

65 兩組樣本之假設檢定

兩組樣本與平均有關(設相關統計量 Y)之檢定統計量有下列兩組

Y Y

Y Y

Y Yz ts

μ μσminus minus

= =

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 12: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-11 頁

(a) 1 2Y x x= minus

( ) ( )

1 2 1 2

2 21 2 1 21 2

1 2 2 21 2 1 2

1 2

x x x x

x xz

n nn n

μ μσ σμ μ μ σσ σ

minus minus

minus minus minus= minus = + rArr =

+

( 1σ 2σ 未知且 1 2σ σne )

( ) ( )

1 2

2 21 2 1 21 2

2 21 2 1 2

1 2

x x

x xs ss tn n s s

n n

μ μminus

minus minus minus= + rArr =

+

其中自由度 df ( ) ( ) ( )2 2 22 2 2 2

1 1 2 2 1 1 2 2

1 21 1

s n s n s n s n

df n n

+= +

minus minus

( 1σ 2σ 未知且 1 2σ σ= )

( ) ( )

1 2

2 21 2 1 2

2 21 2

1 2

p px x

p p

s s x xs t

n n s sn n

μ μminus

minus minus minus= + rArr =

+

其中聯合估計之樣本變異數為 ( ) ( )( ) ( )

2 21 1 2 22

1 2

1 11 1P

n s n ss

n nminus + minus

=minus + minus

(b) 1 2Y p p= minus

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p pz

n n p p p pn n

σ minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p pne )

( ) ( ) ( ) ( )

( ) ( )1 2

1 1 2 2 1 2 1 2

1 2 1 1 2 2

1 2

1 1

1 1p p

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

(若 1p 2p 未知 1 2p p= )

( ) ( ) ( ) ( )

( ) ( )1 2

1 2 1 2

1 2

1 2

1 1

1 1c c c c

p pc c c c

p p p p p p p ps t

n n p p p pn n

minus

minus minus minus minus minus= + rArr =

minus minus+

其中聯合估計之樣本比例為 1 1 2 2

1 2c

n p n ppn n+

=+

一般 1n 2n 都很大不需要查 t 分配表(以 z 分配表代替)

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 13: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-12 頁

兩組樣本與變異數有關之檢定統計量只有下列一組

212 2 21 1 22 2 22 2 122

ssF

s sσ σ

σσ

= =

範例 617 (平均數差之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問兩生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知且不知其是否相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 22 21 1 2 2

X X

X X

X X X Xts s n s n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( )

( ) ( )

22 21 1 2 2

2 22 21 1 1 2 2 2

98

( 1) ( 1)

s n s ndf

s n n s n n

⎢ ⎥+⎢ ⎥= asymp⎢ ⎥minus + minus⎣ ⎦

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(若以大樣本看待查 z 分配表則拒絕區域 196 196R z z= lt minus gt )

(4)樣本檢定統計量值2 2

1436 1502 1285624 64 25 36

Rminus= minus notin

+

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 618 (平均數差之檢定母體變異數相等)

某保養品工廠生產某種神奇美容乳液該工廠每天定期作品檢以下是前後兩天品檢

取樣檢查的結果

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 14: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-13 頁

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

第一天 第二天

請問這兩天生產線的裝填量是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(兩獨立樣本母體變異數未知相同生產線故假設母體變異數相等)

(1)虛無假設為 0 1 2H μ μ= 或 0 1 2 0H μ μminus = (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 2

1 2 1 2

1 21 1X X

X X P

X X X Xts s n n

μ minus

minus

minus minus minus= =

+為自由度 98df = 的 t 分配

其中( ) ( )2 2

1 1 2 21 2

1 2

1 12 98

2P

n s n sdf n n s

n nminus + minus

= + minus = =+ minus

(3)自由度 98 的 t 分配雙尾檢定 005α = 拒絕區域 1984 1984R t t= lt minus gt

(4)樣本檢定統計量值2 2

1436 1502 130063 24 35 25 1 1

64 36 2 64 36

Rminus= minus notin

times + times ⎛ ⎞+⎜ ⎟+ minus ⎝ ⎠

(5)無法拒絕虛無假設『沒有充分的證據懷疑兩生產線的裝填量設定不同』

範例 619 (比例之檢定)

某兩系分別調查其畢業生考研究所的情況第一個系隨機抽問 20 人其中有 3 人考

上研究所第二個系抽問 12 人其中有 1 人考上研究所請問這兩者考上研究所學

生的比例是否有差異

【解】 (基本資料為 1 1 2 220 3 20 12 112 005n p n p α= = = = = )

(兩獨立樣本母體變異數未知由虛無假設得知其相等)

(1)虛無假設為 0 1 2H p p= (雙尾檢定)

(2)檢定統計量 ( )

1 2

1 21 1 1c c

p ptp p n n

minus=

minus + 為自由度 30df = 的 t 分配

其中 1 1 2 21 2

1 2

3 1 12 30 20 12 8c

n p n pdf n n pn n+ +

= + minus = = = =+ +

(3)自由度 30 的 t 分配雙尾檢定 005α = 拒絕區域 20423 20423R t t= lt minus gt

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 15: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-14 頁

(4)樣本檢定統計量值

3 10066720 12 05521012081 7 1 1

8 8 20 12

Rminus

= = notintimes +

(5)無法拒絕虛無假設『沒有充分的證據顯示兩系的錄取率有差異』

範例 620 (變異數之檢定)

某保養品工廠生產某種神奇美容乳液生產線設定每瓶裝填量為 15cc今該工廠新設

立一條生產線為了驗證新生產線的效能分別對兩生產線作隨機取樣檢查結果如

1 2

1 2

1 2

64 36

1436 150224 25

n n

x xs s

= =

= == =

舊生產線 新生產線

請問這兩天生產線的裝填量之變異數是否有差異

【解】 (基本資料為 1 1 1 2 2 264 1436 24 36 1502 25 005n x s n x s α= = = = = = = )

(1)虛無假設為 2 20 1 2H σ σ= 或 2 2

0 1 2 1H σ σ = (雙尾檢定)

(2)檢定統計量 2 2 22 1 22 2 21 2 1

s sFs sσσ

= = 為自由度 ( )3563df = 的 F 分配

其中 ( ) ( )2 11 1 3563df n n= minus minus =

(注意我們習慣把變異數大的擺分子因 2 22 1s sgt 故 2

2s 在分子)

(3)自由度 ( )3563 的 F 分配雙尾檢定 005α =

拒絕區域 05393 17637R F F= lt gt

(4)樣本檢定統計量值2

2

25 108524

R= notin

(5)無法拒絕虛無假設『沒有充分證據懷疑兩生產線裝填量之變異數不同』

範例 621 (母體變異數比例檢定)

The following information was obtained from two independent random samples

representing populations A and B

Population A Population BSample Size 18 21

Sample Mean 200 230Sample Variance 40 90

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 16: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-15 頁

If you were to test for the equality of the two sample means would you need to pool the

variances Why or why not Use a 005 level of significance

【解】 (基本資料

2

22 21 18 40 21 90 005A

B A A B Bn s n sσσ α= = = = = = )

(1)虛無假設為2

20 1A

BH σ

σ = (雙尾檢定)

(2)檢定統計量

2

2

2

2

2 2

2 2

A

A

B

B

sA B

sB A

ss

σ

σ

σσ

= times 為自由度 ( ) ( )1 1 1720A Bn nminus minus = 的 F 分配

(3)雙尾檢定自由度 ( )1720 的 F 分配 005α = 拒絕區域為

038 252R F F= lt gt或

(4)樣本檢定統計量為40 1 0444490

Rtimes = notin

(5)無法拒絕虛無假設兩母體變異數應視為相等因此需聯合估計樣本變異數

66 型 I 錯誤與型 II 錯誤

型 I 錯誤(Type I Error)拒絕 0H 所產生的錯誤

型 II 錯誤(Type II Error)沒有拒絕 0H (接受 0H )所產生的錯誤

型 I 錯誤的機率α ( 0H 為真時才有型 I 錯誤)

型 II 錯誤的機率 β ( 0H 為偽時才有型 II 錯誤)

令 ( )P i 是真實分配的機率函數則 ( )1 Pβ = minus 拒絕區域

計算型 II 錯誤β值的步驟

步驟一寫出虛無假設(與對立假設)

步驟二確定檢定統計量(zt 2χ 或 F)

步驟三以顯著水準檢定型式與檢定統計量求出拒絕區域

步驟四以新檢定統計量(新母體參數)轉換拒絕區域之臨界值

步驟五以相反檢定型式新拒絕區域求出機率(β值)

其中

前三步驟與假設檢定完全相同

相反檢定型式右尾rarr左尾左尾rarr右尾雙尾rarr信賴區間

檢定統計量涉及兩個(母體參數不同)檢定統計量

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 17: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-16 頁

臨界值的轉換公式

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yzz

z zYz

μσ μ σ μ μ μ

σ σμσ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

( )

Y

Y Y Y Y Y Y

Y YY

Y

Yts t s

t ts sYt

s

μμ μ μ μ

μ

⎧ minus=⎪ prime+ times minus primeminus⎪ primerArr = = +⎨

primeminus⎪ prime =⎪⎩

其中 Yμprime zprime分別為新母體參數與新臨界值最常見到的是

z zn

μ μσ

primeminusprime = +

範例 622 (計算型 II 錯誤)

某罐裝咖啡標示其咖啡因含量少於 20cc今隨機抽取 9 罐此品牌咖啡作檢查發現其

平均咖啡因的含量為 26cc標準差 8cc在用顯著水準 005α = 來檢定的場合若真

正的咖啡因含量為 30cc 下的 β 值

【解】 (基本資料為 20 9 26 8 005 30n x sμ α μprime= = = = = = )

(1)虛無假設為 0 20H μ le (右尾檢定)

(2)檢定統計量 xts n

μminus= 為自由度 1 8n minus = 的 t 分配

(3)右尾檢定自由度 1 8n minus = 的 t 分配 005α = 拒絕區域為 1860R t= gt

(4)轉換臨界值 20 301860 18918 9

t ts nμ μprimeminus minusprime = + = + = minus

(5)左尾檢定自由度 1 8n minus = 的 t 分配臨界值 1891t = minus 求得 09523β =

67 檢定力函數與作業曲線

檢定力(Power of Test)不犯型 II 錯誤的機率 ( )1 Pβminus = 拒絕區域

檢定力越高表示 0H 為偽時越不會犯錯

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 18: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-17 頁

檢定力函數(Power Function)表示1 βminus 與 μprime(真實的 μ )之關係的函數

作業曲線(Operation Characteristic Curve)表示 β 與 μprime之關係的曲線(函數)

右尾檢定情況下(不可能樣本在右) β 與 μprime有反向關係

左尾檢定情況下(不可能樣本在左) β 與 μprime有正向關係

雙尾檢定情況下(不可能樣本在兩端) β 與 μprime為中央高(臨界值位置)兩端低

範例 623 ( β 與 μprime的關係)

因有以下關係

( )1 P Rβminus = = 拒絕區域 或 ( )1 P Rβ = minus

得知 β 與 R 有反向關係(1 βminus 與 R 有反向關係)

右尾檢定R 在右邊rArrR 與 μprime有正向關係rArr β 與 μprime有反向關係

左尾檢定R 在左邊rArrR 與 μprime有反向關係rArr β 與 μprime有正向關係

雙尾檢定R 在 μ 兩邊rArr μprime離 μ 越遠 R 越大rArr β 中央高兩頭低

68 相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 624 (相關係數的檢定92-政大-財管)

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 19: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash假設檢定 第 6-18 頁

【解】

(a)

計算原始資料 x 75 89 60 71 92 105 55 87 73 77 84 91 75 82 76 1192

y 38 56 35 45 59 70 31 52 48 41 51 58 45 49 47 725

x2 5625 7921 3600 5041 8464 11025 3025 7569 5329 5929 7056 8281 5625 6724 5776 96990

y2 1444 3136 1225 2025 3481 4900 961 2704 2304 1681 2601 3364 2025 2401 2209 36461

xy 2850 4984 2100 3195 5428 7350 1705 4524 3504 3157 4284 5278 3375 4018 3572 59324 ( )( )

( ) ( )2 2 2 22 2

1192 72515

1192 72515 15

5932409539

96990 36461

x yn

x yn n

xyr

x y

Σ Σ times

Σ Σ

minusΣ minus= = =

minus minusΣ minus Σ minus

(b)

xy 之間有高度正相關

(c)

基本資料 15n = 09539r =

(1)虛無假設 0 0H ρ =

(2)檢定統計量 ( ) ( )21 2

rtr n

ρminus=

minus minus自由度 2 15 2 13n minus = minus =

(3)雙尾自由度 13 之 t 分配 001α = 求得拒絕區域 30123R t= gt

(4)樣本檢定統計量 ( ) ( )

2

09539 1145971 09539 15 2

t R= = isinminus minus

拒絕虛無假設

(5)相關係數顯然不為零

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 20: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-1 頁

7第七章 變異數分析

2006 年 8 月 22 日 最後修改

71 變異數分析概論 72 單因子變異數分析 73 雙因子變異數分析 74 有交互影響之變異數分析

71 變異數分析概論

變異數分析(Analysis Of VarianceANOVA)

一種假設檢定的特殊型態

ANOVA 的基本想法是將總變異數分成兩部分與虛無假設有關的可解釋變異以及

與虛無假設無關的不可解釋變異一般若虛無假設為真則可解釋變異應為零對

兩組變異數的檢定我們有 F 分配可以用(可解釋變異在分子不可解釋變異在分

母)更進一步來說ANOVA 一律是右尾檢定(為什麼)

範例 71 (變異數分析的各種變異數)

前一章的假設檢定無法處理這種虛無假設

0 1 2 kH μ μ μ= = = 3k ge

令觀察值為 ijx 1 ji n= hellip 1 j k= hellip 其中一共有 k 組觀察值而 jn 為第 j 組的

觀察值數目以下是所有觀察值的均差平方和

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x

x

n x

μ μ μ μ

μ μ μ

μ μ μ

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 21: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-2 頁

= +總均差平方和 組間均差平方和 組內均差平方和 SST SSB SSW= +

其中 μ 為總平均數 jμ 為第 j 組的平均數在虛無假設成立的狀況下組間均差

平方和應為零 0SSB =

幾個均差平方和的中英文名詞如下

總均差平方和(total sum of squareSST)

組間均差平方和(sum of square between groupsSSB)

組內均差平方和(sum of square within groupsSSW)

由於均差平方和與變異數之間只差變異數需除樣本數(嚴格來說是自由度 1n minus )

為方便起見我們常稱之為總變異組間變異與組內變異即

= +總變異 組間變異 組內變異

另外組間變異與虛無假設有關又稱為處置變異(sum of square of treatmentSSTR)

或可解釋變異相對地組內變異又稱為誤差變異(sum of square of errorSSE)

隨機變異或不可解釋變異

典型的變異數分析的檢定統計量為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= = =

minus可解釋變異數

不可解釋變異數

其中 1 2 kN n n n= + + + 而 MSTR 稱為處置均方和(mean sum of square of

treatment)MSE 稱為誤差均方和(mean sum of square of error)

變異數分析就是假設檢定其虛無假設一律為

0 1 2 kH μ μ μ= = = 3k ge

其檢定統計量一律為

( )( )

1SSTR k MSTRFSSE N k MSE

minus= =

minus自由度 ( )1df k N k= minus minus 右尾檢定

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 22: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-3 頁

我們真正要作的是計算樣本的 MSTR 與 MSE也就是計算樣本檢定統計量值因為這兩

個數值的計算過程比一般假設檢定繁複我們用變異數分析表(ANOVA table)來整合計

算過程

範例 72 (變異數分析表)

以下是變異數分析表

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE

Error SSE N-k MSE = SSE N-kTotal SST N-1

變異來源 平方和 自由度 均方和 F組間變異 SSTR k-1 MSTR = SSTR k-1 F = MSTR MSE組內變異 SSE N-k MSE = SSE N-k

總變異 SST N-1

請注意表內各項數值間的關係一般只要知道其中四項其他各項就可以用相互間

的關係推算出來

範例 73 (變異數分析表)

就以下變異數分析表請推求出表中其他數值

變異來源 平方和 自由度 均方和 F處置變異 4416 2組內變異

總變異 5371 13

【解】

5371 4416 955SSE SST SSTR= minus = minus = ( ) ( )1 1 13 2 11N k N kminus = minus minus minus = minus =

4416 22081 2

SSTRMSTRk

= = =minus

955 08711

SSEMSEN k

= = =minus

2208 24435087

MSTRFMSE

= = =

完整的變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 23: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-4 頁

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 24435組內變異 955 11 087

總變異 5371 13

就可解釋變異有不同的定義變異數分析分成三類 (1)單因子變異數分析(one-way ANOVA) (2)雙因子變異數分析(two-way ANOVA) (3)有交互影響之變異數分析(two-way ANOVA with interaction) 或稱為 因子實驗(Factorial Experiment)

變異數分析的假設

(1)各組母體均為常態分配

(2)各組母體的標準差相等

(3)各組母體互相獨立

72 單因子變異數分析

單因子變異數分析只從總變異中抽取出一組可解釋變異

( ) ( )

( ) ( )

( ) ( )

2 2

2 2

2 2

ij ij j jij ij

j ij jj i j i

j j ij jj j i

x x x x x x

x x x x

n x x x x

minus = minus + minus

= minus + minus

= minus + minus

sum sum

sumsum sumsum

sum sumsum

= +總變異 組間變異 組內變異

SST SSTR SSE= +

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 24: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-5 頁

( ) ( )22 2 2 2 ij

ij ij ijij

xSST x x x nx x

= minus = Σ minus = Σ minussum

( ) ( )2 2 2 2 2 21 1 2 2j j j k k

j i j

SSTR x x n x x n x n x n x Nx= minus = minus = + + + minussumsum sum

SSE SST SSTR= minus

也就是說我們可以用下列公式計算 SST 與 SSTR

( ) ( ) ( ) ( )2 2 2 2

1 2

1 2

k

k

A A A TSSTR

n n n NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR= minus

其中

jAΣ 為第 j 因子(行)觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

母體標準差的估計

ANOVA 假設各組母體標準差皆相等令其為σ

σ 的最佳估計量為 MSE

檢定兩組平均數是否相等

虛無假設 0 1 2H μ μ=

檢定統計量 ( )1 2

1 21 1x xt

MSE n nminus

=+

自由度 df N k= minus

檢定任兩組平均數是否相等

以信賴區間法來作檢定 jμ 的信賴區間為

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 25: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-6 頁

2 2 a aj j j j j jdf n k df n kCI x t MSE n x t MSE nμ μ= minus = minus= minus times le le + times

範例 74 (單因子 ANOVA)

給定資料

A B C10 8 711 9 812 10 610 8 712 6

將資料作以下整理

A B C 合計

10 8 711 9 812 10 610 8 712 6

ΣA 55 35 34 124nA 5 4 5 14

(ΣA)sup2nA 605 30625 2312 114245

xsup2 A B C 合計

100 64 49121 81 64144 100 36100 64 49144 36

合計 609 309 234 1152

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 4416 2 2208 25435組內變異 955 11 087

總變異 5371 13

其中

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 26: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-7 頁

3 5 4 =5 14A B C A B Ck n n n N n n n= = = = + + =

( )2124114245 4416

14SSTR = minus =

( )21241152 5371

14SST = minus =

5371 4416 955SSE SST SSTR= minus = minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSEF = 為自由度 ( )211 的 F 分配

(3)右尾檢定自由度 ( )211 的 F 分配 005α = 拒絕區域 39823R F= gt

(4)樣本檢定統計量 2543MSTRMSEF R= = isin

(5)拒絕虛無假設三組的平均數不完全相等

成對檢定

(1) 0 A BH μ μ= (雙尾檢定)

(2)檢定統計量 ( )1 1

A B

A B

n n

x xtMSE

minus=

+ 為自由度11的 t 分配

(3)雙尾檢定自由度 11 的 t 分配 005α = 拒絕區域 2201 2201R t t= lt minus gt

(4)樣本檢定統計量

( ) ( )55 355 4

1 11 15 4

35960087

A B

A B

n n

x xt RMSE

minusminus= = = isin

times ++

(5)拒絕虛無假設AB 兩組的平均數不相等

成對檢定(信賴區間法)

555 2201 087 5 10083 11917

A ACIμ μ= plusmn times = le le

354 2201 087 4 7725 9775

B BCIμ μ= plusmn times = le le

345 2201 087 5 5883 7717

C CCIμ μ= plusmn times = le le

因A B

CI CIμ μcap =empty 故可推論在 005α = 下會拒絕 0 A BH μ μ= 同理虛無假設

0 A CH μ μ= 與 0 B CH μ μ= 也都不會成立

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 27: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-8 頁

73 雙因子變異數分析

原始資料有兩種分組方法 處置變異(Treatments VariationSSTR)主要分組(共分 k 組) 集區變異(Block VariablesSSBK)次要分組(共分 b 組)

將單因子變異數分析中的隨機變異分離出集群(列)因子的影響(變異)

( )= + = + +總變異 處置變異 隨機變異 處置變異 集區變異 隨機變異

SST SSTR SSBK SSE= + +

計算公式如下

( ) ( ) ( ) ( )2 2 2 2

1 2 kA A A TSSTR

b b b NΣ Σ Σ Σ

= + + + minus

( ) ( ) ( ) ( )2 2 2 2

1 2 bB B B TSSBK

k k k NΣ Σ Σ Σ

= + + + minus

( )2

2 TSST x

= Σ minus

SSE SST SSTR SSBK= minus minus

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

有兩組檢定

( )( )( )

11 1TR

SSTR kMSTRFMSE SSE k b

minus= =

minus minus檢測主要分組(處置)平均數是否完全相等

( )( )( )

11 1BK

SSBK bMSBKFMSE SSE k b

minus= =

minus minus檢測次要分組(集區)平均數是否完全相等

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 28: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-9 頁

Source of Variation Sum of Squares Degree of Freedom Mean Square FTreatments SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE

Blocks SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSEError SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)Total SST N-1

變異來源 平方和 自由度 均方和 F處置變異 SSTR k-1 MSTR = SSTR k-1 FTR = MSTR MSE集區變異 SSBK b-1 MSBK = SSBK b-1 FBK = MSBK MSE組內變異 SSE (k-1)(b-1) MSE = SSE (k-1)(b-1)

總變異 SST N-1

範例 75 (雙因子 ANOVA)

給定資料

A1 A2 A2B1 7 9 12B2 11 12 14B3 13 11 8B4 8 9 7B5 9 10 13

將資料作以下整理

A1 A2 A2 ΣB nB (ΣB)sup2kB1 7 9 12 28 3 2613B2 11 12 14 37 3 4563B3 13 11 8 32 3 3413B4 8 9 7 24 3 1920B5 9 10 13 32 3 3413

ΣA 48 51 54 153 15 15923

nA 5 5 5 15

(ΣA)sup2b 4608 5202 5832 15642

xsup2 A1 A2 A2 合計

B1 49 81 144 274B2 121 144 196 461B3 169 121 64 354B4 64 81 49 194B5 81 100 169 350

合計 1633

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 29: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-10 頁

整理成變異數分析表如下

變異來源 平方和 自由度 均方和 F處置變異 360 2 180 0388處置變異 3173 4 793 1712

組內變異 3707 8 463總變異 7240 14

其中

3 5 15k b N kb= = = =

( )215315642 36

15SSTR = minus =

( )215315923 3173

15SSBK = minus =

( )21531633 7240

15SST = minus =

3707SSE SST SSTR SSBK= minus minus =

假設檢定

(1) 0 A B CH μ μ μ= = (右尾檢定)

(2)檢定統計量 MSTRMSE 為自由度 ( ) ( ) 28TR Edf df = 的 F 分配

(3)右尾檢定自由度(28)的 F 分配 005α = 拒絕區域 44590R F= gt

(4)樣本檢定統計量 0388MSTRMSE R= notin

(5)無法拒絕虛無假設各處置分組的平均數相等

(1) 0 1 2 3 4 5 b b b b bH μ μ μ μ μ= = = = (右尾檢定)

(2)檢定統計量 MSBKMSE 為自由度 ( ) ( ) 48BK Edf df = 的 F 分配

(3)右尾檢定自由度(48)的 F 分配 005α = 拒絕區域 38379R F= gt

(4)樣本檢定統計量 1712MSBKMSE R= notin

(5)無法拒絕虛無假設各集區間的平均數相等

74 有交互影響之變異數分析

雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響(變異)

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 30: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-11 頁

= + + +總變異 行間變異 列間變異 交互影響變異 隨機變異

SST SSA SSB SSAB SSE= + + +

(這裡的 SSASSB 即上節的 SSTRSSBK)

計算公式如下

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

1 2

1 2

2 2 2 21 2

2 2 2 21 2

2

2 2 21 2

1 1 1 1

a

b

ij

a

A A A

b

B B B

b a b aij

ij ij ij ni j i j ij

A A A TSSA

n n n N

B B B TSSB

n n n N

xSSE ij x x x

n

SSAB SST SSA SSB SSE

= = = =

Σ Σ Σ Σ= + + + minus

Σ Σ Σ Σ= + + + minus

⎛ ⎞Σ⎜ ⎟= = + + + minus⎜ ⎟⎝ ⎠

= minus minus minus

sumsum sumsum第 方格內之變異

其中

jAΣ 為第 j 行觀察值之和

iBΣ 為第 i 列觀察值之和

TΣ 為全部觀察值之和

2xΣ 為全部觀察值之平方和

原始資料中每一個實驗方格需有一個以上的觀察值 (在雙因子 ANOVA 中每一方格恰好有一個觀察值)

有三組檢定

( )( )

1A

SSA aMSAFMSE SSE N ab

minus= =

minus檢測主要分組(行因子)平均數是否完全相等

( )( )

1B

SSB bMSBFMSE SSE N ab

minus= =

minus檢測次要分組(列因子)平均數是否完全相等

( )( )( )

1 1AB

SSAB a bMSABFMSE SSE N ab

minus minus= =

minus檢測兩因子間是否有交互影響

變異數分析表如下

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 31: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-12 頁

變異來源 平方和 自由度 均方和 F行因子變異 SSA a-1 MSA = SSA a-1 FA = MSA MSE列因子變異 SSB b-1 MSB = SSB b-1 FB = MSB MSE

交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB (a-1)(b-1) FAB = MSAB MSE隨機變異 SSE N-ab MSE = SSE (N-ab)總變異 SST N-1

範例 76 (有交互影響之雙因子 ANOVA)

【解】

原始資料整理成以下標準形式

甲 64 71 67 75 76 74 57 67 62乙 72 73 71 71 71 71 59 71 65丙 76 84 90 65 64 66 61 77 69

B CAijx

甲 4096 5041 4489 5625 5776 5476 3249 4489 3844乙 5184 5329 5041 5041 5041 5041 3481 5041 4225丙 5776 7056 8100 4225 4096 4356 3721 5929 4761

A B C2ijx

將每方格加總

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 32: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-13 頁

A B C ΣB nB (ΣB)sup2a甲 202 225 186 613 9 417521乙 216 213 195 624 9 432640丙 250 195 207 652 9 472338

ΣA 668 633 588 1889 27 1322499nA 9 9 9 27

(ΣA)sup2b 495804 445210 384160 1325174

ijxΣ

A B C 合計

甲 13626 16877 11582 42085乙 15554 15123 12747 43424丙 20932 12677 14411 48020

合計 133529

2ijxΣ

隨機變異 A B C 合計

甲 2467 200 5000 7667乙 200 000 7200 7400丙 9867 200 12800 22867

合計 37933

例如 ( )2

22 20213626 2467

3A

AA

Ax

xnΣ

= Σ minus = minus =甲

甲方格變異

整理成以下變異數分析表

變異來源 平方和 自由度 均方 FA因子 3574 2 17870 8480B因子 899 2 4493 2132

交互作用 5424 4 13559 6434隨機 3793 18 2107總和 13690 26

其中

1 2 3 1 2 33 5 3 9 3 9 27ij A A A B B Ba b n i j n n n n n n N= = = forall = = = = = = = times =

( )218891325174 3754

27SSA = minus =

( )218891322499 899

27SSB = minus =

3793SSE =

( )21889

133529 1369027

SST = minus =

5424SSAB SST SSA SSB SSE= minus minus minus =

(a)

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 33: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash變異數分析 第 7-14 頁

右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 8480AF R= isin 拒絕虛無假設 0H

品種的不同會影響產量

(b) 右尾檢定自由度(218)的 F 分配 005α = 拒絕區域 35546R F= gt

樣本檢定統計量 2132BF R= notin 無法拒絕虛無假設 0H

施肥方式不會影響產量

(c) 右尾檢定自由度(418)的 F 分配 005α = 拒絕區域 29277R F= gt

樣本檢定統計量 6434AF R= isin 拒絕虛無假設 0H

品種與施肥方式有交互作用

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 34: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-1 頁

8第八章 線性迴歸 2006 年 8 月 29 日 最後修改

81 線性迴歸概論

82 相關分析

83 簡單迴歸分析

84 迴歸模型係數的推導

85 多元線性迴歸與簡單線性迴歸

86 考慮質性資料

81 線性迴歸概論

相關分析(correlation analysis)

相關分析探討兩個隨機變數之間的關係

若兩變數有同向的變動則稱為正相關反之為負相關

基本上相關分析在決定兩變數的相關程度

迴歸(regression)

迴歸在以數學方程式建立變數間的關係

若只有兩個變數而且是線性函數關係則稱為簡單線性迴歸(simple linear regression)

相關分析與迴歸分析的異同

相關分析只探討相關程度迴歸分析需找出描述兩者關係數學函數

相關分析中兩變數的地位相等對稱迴歸分析則區分為相依變數獨立變數

(我們有興趣的是相依變數)

範例 81 (相關分析與線性迴歸)

就下列兩變數的數值

x 2 26 54 42 32 66 15 38y 34 48 62 5 42 65 46 53

在 x yminus 平面畫散佈圖如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 35: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-2 頁

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

xy 的數值變化約為正向關係即 x 值增加則 y 值也會增加其相關係數(其定義在

下節介紹)為

1 087ρ =

相關係數正值表示兩者為正向關係以 y 為相依變數以下為其線性迴歸式

312 051y x= +

又如以下數值

x 22 26 58 42 32 62 15 38y 27 62 39 21 38 08 49 58

其散佈圖如下

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

X

Y

相關係數與線性迴歸式分別如下

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 36: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-3 頁

2 052593 058y x

ρ = minus= minus

這是負向關係而其絕對值 2 052 087ρ = lt 顯示兩者的關係比第一個例子鬆散散

佈圖呈現出來雖可以看得出反相關係但沒有第一圖那麼強烈

多元迴歸(multiple regression)

有一個以上獨立變數的迴歸稱為多元迴歸以下為多元線性迴歸例子

1 2 33 2 5 4y x x x= + minus +

多元迴歸也稱為複迴歸

82 相關分析

相關分析(Correlation Analysis)

相關分析探討兩隨機變數的關連性其目標在於求出相關係數

相關係數(Coefficient of Correlation)

相關係數為描述兩變數間關連性的一個測量值相關係數的定義如下

( )( )

( ) ( )22

x yxyxy

x yx y

x y

x y

μ μσρ

σ σ μ μ

minus minus= =

minus minus

sumsum sum

樣本相關係數定義如下

( )( )

( ) ( )2 2

xyxy

x y

s x x y yr

s s x x y y

minus minus= =

minus minus

sumsum sum

完全相關(perfect correlation)零相關(zero correlation)

由定義可知相關係數的範圍

1 1xyρminus le le

其中 xyρ 有三個特殊值 1xyρ = minus 1xyρ = 與 0xyρ =

當 1xyρ = minus 時稱為完全負相關(perfect negative correlation)

兩變數為負相關且成線性關係

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 37: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-4 頁

當 1xyρ = 時稱為完全正相關(perfect positive correlation)

兩變數為正相關且成線性關係

當 0xyρ = 時稱為零相關(zero correlation)

兩變數沒有任何關係

一般若 05xyρ lt 稱為低度相關若 05xyρ gt 稱為高度相關

範例 82 (相關係數)

以下是各種相關係數的散佈圖

ρ = 1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -1

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = 03

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

ρ = -08

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 38: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-5 頁

ρ = 0

0

1

2

3

4

5

6

7

0 1 2 3 4 5 6 7

範例 83 (相關係數的計算)

計算下列數值的相關係數

X 2 4 3 5 6Y 6 5 9 8 7

【解】 ( ) ( )2 22

2

1 1x

x x x x ns

n nΣ minus Σ minus Σ

= =minus minus

( ) ( )2 222

1 1y

y y y y ns

n nΣ minus Σ minus Σ

= =minus minus

( )( ) ( )1 1xy

x x y y xy x y ns

n nΣ minus minus Σ minus Σ Σ

= =minus minus

( )( ) ( )2 22 2

xyxy

x y

s xy x y nr

s s x x n y y n

Σ minus Σ Σ= =

Σ minus Σ Σ minus Σ

將資料作以下整理

X Y Xsup2 Ysup2 XY2 6 4 36 124 5 16 25 203 9 9 81 275 8 25 64 406 7 36 49 42

20 35 90 255 141ΣX ΣY ΣXsup2 ΣYsup2 ΣXY

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 39: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-6 頁

( )( ) ( )

( )2 2 2 22 2

141 20 35 501

90 20 5 255 35 5xy

xy x y nr

x x n y y n

Σ minus Σ Σ minus times= = =

minus minusΣ minus Σ Σ minus Σ

相關係數的檢定

虛無假設 0 0H ρ = 時

檢定統計量 ( ) ( )21 2

r

r nminus minus 為自由度 2df n= minus 的 t 分配

虛無假設 0 0H ρ ρ= 時

檢定統計量 ( )1 3rZ Zn

ρminus

minus 為 z 分配( 30n gt 大樣本時)

其中1 1ln2 1r

rZr

+=

minus 0

0

11 ln2 1

Zρρρ

+=

minus

13rZ N Z

nρ⎛ ⎞⎜ ⎟minus⎝ ⎠

sim

範例 84 (相關係數的假設檢定)

請檢定下列數值是否有相關( 005α = )

X 2 4 3 5 6

Y 6 5 9 8 7 【解】

已經計算 01xyr =

(基本資料為 0 5 01 005xy xyn rρ α= = = = )

(1)虛無假設為 0 0xyH ρ = (雙尾檢定)

(2)檢定統計量 ( ) ( )21 2

xy

xy

rt

r n=

minus minus 為自由度 2 3n minus = 的 t 分配

(3)雙尾檢定自由度 3 的 t 分配 005α = 拒絕區域為 31824 31824R t t= lt minus gt

(4)樣本檢定統計量值為( ) ( )2

01 017411 01 5 2

R= notinminus minus

(5)無法拒絕虛無假設沒有充分證據懷疑 X 與 Y 無關

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 40: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-7 頁

83 簡單迴歸分析

迴歸係數(coefficients of regression)

簡單線性迴歸之迴歸函數的一般式為

Y Xα β= +

其中α β 稱為迴歸係數Y 為依變數X 為獨立變數

依變數(dependent variables)

迴歸分析中我們有興趣的是依變數又稱為相依變數Y 變數

迴歸分析中 Y 變數是隨機變數X 變數不是隨機變數因此迴歸式應寫成

Y Xα β ε= + +

其中迴歸係數α β 為常數誤差項ε 為隨機變數

誤差項一般假設為 ( ) 0E ε = ( ) 2V ε σ= 的常態分配

迴歸係數的估計量

若 ( )i ix y 1 i n= hellip 為實際觀測值(樣本)以觀測值來估計迴歸係數是迴歸分析

中的首要工作α β 的估計量寫成α β 則以估計量寫成的迴歸式為

ˆˆ ˆY Xα β= +

請注意α β 是估計量是隨機變數的函數當然也是隨機變數

線性迴歸的假設

將觀測值 ( )i ix y 1 i n= hellip 寫成迴歸形式則為

i i iy xα β ε= + +

對 iε ix iy 1 i n= hellip 有以下假設

(1) 1 2 nε ε εhellip 為個別分配 ( )20N σ 的獨立且一致分配(iid)即

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 41: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-8 頁

1 2 nε ε εhellip 皆為常態分配 ( ) 0iE ε = ( ) 2iV ε σ= ( ) 0 i jCov i jε ε = ne

(2)所有 ix 皆不是隨機變數即

( ) 0j iCov Xε =

(3) iy 為隨機變數且 iy 之分配為

( )2i iy N xα β σ+sim

測量標準誤(Standard Error of Estimate)

Y 之觀察值與迴歸函數值之差誤 ( )( ) ( )i i iV y x Vα β ε σminus + = =

獨立且一致分配(Independent Identical Distributionsiid)

一組隨機變數有相同的分配且互相獨立

迴歸係數的估計

估計迴歸係數由觀察資料 ( ) 12 i ix y i n= hellip 求得α β 過程

常見之估計迴歸係數方法

最小平方法(Least Square method)讓(Y 之)觀察值與估計值之誤差平方和最小

最大概似法(Maximum Likelihood Method)讓觀察樣本出現的機率最大

最小平方估計式(Ordinary Least Squares Estimator OLSE)

最小平方法求得之迴歸係數估計量

( )2 22

2

ˆ xy yxy

xx

n ys sx xy n xy x y r

n x ssn x xx x

β

ΣΣ Σ Σ minusΣ Σ

= = = =Σ Σ minus Σ

Σ Σ

( )

2 2

22

2

ˆˆ

y xxy x y x x xy y xn x n x xx x

α β

Σ ΣΣ Σ Σ Σ minusΣ Σ

= = = minusΣ Σ minus Σ

Σ Σ

範例 85 (最小平方法估計迴歸係數)

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 42: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-9 頁

給定 ( ) 12 i ix y i n= hellip

迴歸函數為 12 i i iY X i nα β ε= + + = hellip

迴歸估計式為 ˆˆ ˆ 12 i iY X i nα β= + = hellip

估計誤差平方和 ( ) ( )22

1 1

ˆˆˆn n

i i i ii i

SSE y y y xα β= =

= minus = minus minussum sum

求α β 使 SSE 最小

2ˆ 2ˆ

0 ˆ ˆˆˆmin ˆˆˆ0ˆ

SSEy n x n x y

SSE SSE x x xyxy x xα β

αα βαβα β

β

part⎧ =⎪ ⎧ ⎡ ⎤Σ = + Σ Σ Σ⎡ ⎤ ⎡ ⎤part⎪ ⎪rArr rArr rArr =⎨ ⎨ ⎢ ⎥⎢ ⎥ ⎢ ⎥part Σ Σ ΣΣ = Σ + Σ ⎣ ⎦ ⎣ ⎦⎪ ⎣ ⎦⎪ ⎩=⎪ part⎩

2 2 2ˆˆ

y x n x n y n xxy x x x x xy x x

α βΣ Σ Σ Σ Σ

rArr = =Σ Σ Σ Σ Σ Σ Σ Σ

迴歸係數之假設檢定

兩種主要的檢定

(1) 0 0H α β= =

變異數分析F 檢定右尾檢定

(2) 0 0H α = 或 0 0H β =

t 檢定雙尾檢定

迴歸分析之變異數分析表

變異來源 平方和 自由度 均方 F 值迴歸變異 SSR k-1 MSR = SSR k-1 F = MSR MSE隨機變異 SSE n-k MSE = SSE n-k總和 SST n-1

其中k 為迴歸係數數目SSTSSR 分別為 Y Y 的均差平方和

( )

( ) ( )

22

2 22 2 2 2

2 2

ˆ ˆˆ ˆˆ 2

ˆ

ySST y

ny y

SSR y n x xn n

SSE SST SSR y y

α αβ β

Σ= Σ minus

Σ Σ= Σ minus = + Σ + Σ minus

= minus = Σ minusΣ

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 43: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-10 頁

判定係數(Coefficient of Determination)迴歸變異佔總變異的比例

2 1SSR SSERSST SST

= = minus

調整判定係數(Adjusted Coefficient of Determination)以自由度調整後的判定係數

( )( )

221 1

1adjy

SSE n k MSERSST n s

minus= minus = minus

minus

測量標準誤 2σ 之分配

2σ 之不偏估計量為 MSE即 ( )2E MSEσ =

檢定統計量 ( )

2

n k MSEσ

minus 為自由度 df n k= minus 的 2χ 分配

迴歸係數估計量α β 之分配

α β 分別為α β 之不偏估計量即

( ) ( )ˆˆ E Eα α β β= =

α β 的變異數分別為

( )( )

( )( )

22 2

2 22 2ˆˆ x nV V

n x x n x xα σ β σΣ

= =Σ minus Σ Σ minus Σ

α β 成為常態分配即

( ) ( )

22 2

2 22 2ˆˆ x nN N

n x x n x xα α σ β β σ

⎛ ⎞ ⎛ ⎞Σ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟Σ minus Σ Σ minus Σ⎝ ⎠ ⎝ ⎠

sim sim

虛無假設 0 0H α = 時

檢定統計量

( )

2

22

ˆ

x MSEn x x

α

Σ times

Σ minus Σ

為自由度 df n k= minus 的 t 分配

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 44: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-11 頁

虛無假設 0 0H β = 時

檢定統計量

( )22

ˆ

n MSEn x x

βtimes

Σ minus Σ

為自由度 df n k= minus 的 t 分配

範例 86 (迴歸之係數估計與檢定)

給定資料

x y4 95 89 6

12 3

將資料作以下整理

x y xsup2 xy ysup24 9 16 36 81 898 80565 8 25 40 64 827 68369 6 81 54 36 544 2958

12 3 144 36 9 332 110030 26 266 166 190 2600 18951Σx Σy Σxsup2 Σxy Σysup2

y

2yΣ

2y

其中 ˆˆˆi iy xα β= +

計算順序為

(1)整理資料留下 2ˆ ˆy y 兩欄

(2)算出 ˆˆ α β 之值

(3)完成 2ˆ ˆy y 兩欄

(4)完成 ANOVA 表

(5)完成迴歸分析表

其中

( )22

ˆ ˆ ˆˆ0707 11805n xy x y y xy xn nn x x

β α β βΣ minusΣ Σ Σ Σ= = minus = minus = minus =

Σ minus Σ

( ) ( )2 22 2ˆ2100 2051

y ySST y SSR y

n nΣ Σ

= Σ minus = = Σ minus =

2 2ˆ 049SSE y y= Σ minus Σ =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 45: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-12 頁

( ) ( )

2

ˆ ˆ2 22 20629 0077x ns MSE s MSE

n x x n x xα β

Σ= = = =

Σ minus Σ Σ minus Σ

( )( )

2 209768 1 096521adj

SSE n kSSRR RSST SST n

minus= = = minus =

minus

結果如下

期望值 標準差 自由度 t 值11805 0629 2 18769-0707 0077 2 -91710976809652

αβ

2R2adjR

迴歸式為 11805 0707y x= minus

變異來源 平方和 自由度 均方 F 值迴歸變異 2051 1 2051 84100隨機變異 049 2 024

總和 2100 3

假設檢定

(1) 0 0H α β= = (右尾檢定)

(2)檢定統計量 MSRMSE 為自由度 ( ) ( ) 12R Edf df = 的 F 分配

(3)右尾檢定自由度(12)的 F 分配 005α = 拒絕區域 185128R F= gt

(4)樣本檢定統計量 84100MSRMSE R= isin

(5)拒絕虛無假設

(1) 0 0H β = (雙尾檢定)

(2)檢定統計量 ( ) ( )( )22

ˆ

n MSE n x x

β

times Σ minus Σ 為自由度 2 2n minus = 的 t 分配

(3)雙尾檢定自由度 2 的 t 分配 005α = 拒絕區域 43027 43027R t t= lt minus gt或

(4)樣本檢定統計量 ( ) ( )( )22

ˆ0707 0077 9171 R

n MSE n x x

β= minus = minus isin

times Σ minus Σ

(5)拒絕虛無假設

預測值的區間估計

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 46: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-13 頁

有兩種預測值(1)群體預測(2)個別預測

群體預測給一個群體平均的 gX x= 值代入迴歸估計式得到的 Y 值

ˆˆg gy xα βprime = +

個別預測給單一個體的 dX x= 值代入迴歸估計式得到的 Y 值

ˆˆd dy xα β εprime = + +

(群體預測的測量誤差ε 因取平均而消失)

gyprime 與 dyprime 的分配

( )2

22 2

1 gg g

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟⎜ ⎟prime + +⎜ ⎟⎜ ⎟Σ minus⎜ ⎟⎝ ⎠⎝ ⎠

sim

( )22

2 2

1 1 dd d

x xy N x

n x nxα β σ⎛ ⎞⎛ ⎞minus⎜ ⎟prime ⎜ ⎟+ + +

⎜ ⎟⎜ ⎟Σ minus⎝ ⎠⎝ ⎠sim

若以 MSE 代替 2σ 則以下兩檢定統計量為自由度 df n k= minus 的 t 分配

( ) ( )

( )2

2 2

ˆˆ

1

g g

g

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus⎜ ⎟+⎜ ⎟Σ minus⎝ ⎠

( ) ( )

( )2

2 2

ˆˆ

11

d d

d

x xt

x xMSE

n x nx

α β α β+ minus +=

⎛ ⎞minus+ +⎜ ⎟⎜ ⎟Σ minus⎝ ⎠

範例 87 (群體預測值的信賴區間)

就上題的資料假設有某團體的 X 平均值為 5請寫出該團體之 Y 值在1 95αminus = 信

賴度下的信賴區間

【解】 基本資料 5gx = 1 95αminus =

預測值之期望值為 ( ) ˆˆ 8268g gE y xα βprime = + =

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 47: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-14 頁

( )2

2 2

1 0313g

gy

x xs MSE

n x nxprime

⎛ ⎞minus⎜ ⎟= + =⎜ ⎟Σ minus⎝ ⎠

2 2 43027tα =

信賴區間為 ( ) 2 2 8268 43027 0313 6920 9616g y gE y t s yα primeprime primeplusmn = plusmn times = le le

變數變換(Transforming Data)

有些非線性的迴歸函數能以變數轉換的技巧轉換成線性函數

(1) 2Y Xα β= +

2 Z X Y Zα β= rArr = +令

(2) XY eβα= (兩邊取對數)

ln ln ln ln Y X Z Y a Z a Xα β α β= + rArr = = rArr = +令

(3)Y X βα= (兩邊取對數)

ln ln ln ln ln ln Y X Z Y W X a Z a Wα β α β= + rArr = = = rArr = +令

(4) Ye X βα= (兩邊取對數)

ln ln ln ln Y X W X a Y a Wα β α β= + rArr = = rArr = +令

殘差分析(Analysis of Residuals)

殘差(Residuals)

觀察值 iy 與其對應預測值 ˆiy 之差誤 ˆˆi i ie y xα β= minus minus

殘差分析藉由分析 ie 之分佈情形以瞭解對線性迴歸的假設是否成立

我們在意的假設主要有兩個重點

(1)線性假設

(2)估計標準誤 iε 的假設

( )20i Nε σsim 且 1 2 nε ε εhellip 間 iid

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 48: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-15 頁

範例 88 (殘差分析)

以下是幾種常見的殘差分佈圖

84 迴歸模型係數的推導

假設變數 y 1x 2x kx 間有以下關係

0 1 1 2 2 k ky x x xβ β β β= + + + +

其中 0 1 2 k Rβ β β β isinhellip 假設第 i 次 12 i n= hellip 測量到的數值分別為 1 2 i i i iky x x xhellip

測量誤差為 iε 即

0 1 1 2 2i i i k ik iy x x xβ β β β ε= + + + + + (8-1)

其中 1 2 nε ε εhellip 假設為 iid(Independent Identical Distribution獨立且一致分配)平均數

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 49: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-16 頁

0μ = 變異數為 2σ 之常態分配即 1 2 nε ε εhellip 有以下性質

(1) 12 i i nε = hellip 為常態分配

(2) ( ) ( ) ( )1 2 0nE E Eε ε ε= = = =

(3) ( ) ( ) ( ) 21 2 nV V Vε ε ε σ= = = =

(4) ( ) 0 i jCov i jε ε = ne

更進一步假設測量誤差完全來自 iy 亦即假設 iy 為隨機變數且

(1) ( ) ( ) ( ) 21 2 nV y V y V y σ= = = =

(2) ( ) 0 i jCov y y i j= ne

而 1 2 i i ikx x xhellip 只是一般變數令 0 1 2ˆ ˆ ˆ ˆ kβ β β βhellip 分別為 0 1 2 kβ β β βhellip 之估計量為了方

便起見定義

0 1 1 2 2ˆ ˆ ˆ ˆˆi i i k iky x x xβ β β β= + + + +

12 i n= hellip 請注意 ˆiy 只是一個方便寫法不是估計量

將(8-1)寫成矩陣形式

= +y Xβ ε (8-2)

其中

1 11 1 0 1

2 21 2 1 2

1

11

1

k

k

n n nk k n

y x xy x x

y x x

β εβ ε

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

y X β ε

由假設得知

( ) ( )

2

22

2

0 00 0

0 0

nV V

σσ

σ

σ

⎡ ⎤⎢ ⎥⎢ ⎥= = =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

y ε I

其中 nI 為 n 階的單位矩陣而且

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 50: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-17 頁

ˆˆ =y Xβ

其中

01

2 1

ˆˆˆˆ ˆˆ

ˆ ˆn k

yy

y

β

β

β

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

y β

以最小平方法估計β

( ) ( )TT= = minus minusε ε y Xβ y Xβ平方和

( )

( ) ( )T

T T T2 2part

= minus minus = minuspart

ε εX y Xβ X Xβ X y

β

( )

T T T T

1T T

ˆ ˆ

ˆ minus

minus = rArr =

rArr =

X Xβ X y 0 X Xβ X y

β X X X y

β之期望值與變異數

( ) ( ) ( ) ( )

( ) ( ) ( )

1 1T T T T

1 1T T T T

ˆ

E E E

E

minus minus

minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= + = =

β X X X y X X X y

X X X Xβ ε X X X Xβ β

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

1 1 1T T T T T

1 1 1 1 1T T 2 T 2 T T T 2 T

ˆ

n

V V V

σ σ σ

minus minus minus

minus minus minus minus minus

⎛ ⎞= =⎜ ⎟⎝ ⎠

= = =

β X X X y X X X y X X X

X X X I X X X X X X X X X X X

yx yx之期望值與變異數

令 x x分別為某一個人與某一群體之 1 2 kx x xhellip 觀測值則其 y 之估計值分別為

T

T

ˆ

ˆy

y

ε= +

=x

x

x β

x β

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 51: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-18 頁

個體觀測值尚有測量誤差群體觀測值因以取平均故沒有測量誤差項 yx yx之期望

值與變異數可如下計算

( ) ( ) ( )( ) ( ) ( ) ( ) ( )

T T T

1T T 2 T 2 2 T T 2

ˆ ˆ

ˆ ˆ ˆ

E y E E

V y V V V

ε

ε σ σ σ σminus

= + = =

= + = + = + = +

x

x

x β x β x β

x β x β x β x x X X x

( ) ( ) ( )( ) ( ) ( ) ( )

T T T

1T T 2 T T

ˆ ˆ

ˆ ˆ

E y E E

V y V V σminus

= = =

= = =

x

x

x β x β x β

x β x β x x X X x

迴歸的變異數分析

在β之估計值 β計算出來後我們有兩組應變數觀測值 y以及其估計值 ˆˆ =y Xβ

由觀測值計算來的均差平方和為總變異(SST)而從估計值計算來的均差平方和為迴歸變

異(SSR)此兩者的差值為無法解釋的變異(SSE)以下是變異數分析需要的相關資料

( ) ( )( ) ( ) ( )

( ) ( ) ( )

( ) ( )

T

T

T

1

ˆ ˆ 1 1

ˆ ˆ 1

1 1 1

SST n

SSR k

SSE SST SSR n k

SSR SSE MSRMSR MSE Fk n k MSE

= minus minus = minus

= minus minus = + minus

= minus = minus minus = minus +

= = =+ minus minus +

y y y y

y y y y

y y y y

自由度

自由度

自由度

請注意我們一共有 ( )1k + 個需要估計的 β (k 個 x 變數之係數和一個常數項)

判定係數 2R 與修正判定係數 2R

判定係數是迴歸變異(可解釋變異)佔總變異的百分比

2 100 1 100SSR SSERSST SST

⎛ ⎞= times = minus times⎜ ⎟⎝ ⎠

修正判定係數是判定係數中的 SSESST 要作自由度的修正

( )2 1ˆ 1 100

1SSE n k

RSST n

⎛ ⎞minus += minus times⎜ ⎟⎜ ⎟minus⎝ ⎠

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 52: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-19 頁

2σ 的估計與變異數

我們以 MSE 作為 2σ 估計統計量

( )

( ) ( )( )

( )( )

2

1T T T TT

ˆ1

ˆ ˆ

1 1

SSEMSEn k

n k n k

σ

minus

= =minus +

minusminus minus= =

minus + minus +

y y y X X X X yy y y y

85 多元線性迴歸與簡單線性迴歸

簡單線性回歸 y xα β= + 的資料寫成矩陣形式為

1 1

2 2

11

1n n

y xy x

y x

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

y X

1

2

1 2

1 1 1T

n

n

yy y

x x x xyy

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X y

1

22

1 2

11 1 1 1

1

T

n

n

xx n x

x x x x xx

⎡ ⎤⎢ ⎥ Σ⎡ ⎤ ⎡ ⎤⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ Σ Σ⎣ ⎦⎣ ⎦⎢ ⎥⎣ ⎦

X X

因此α β 的估計量分別為

( )

2

11T T

2

2

ˆˆ

x xn x y yx n

n xx x xy xyx x

α

β

minusminus

⎡ ⎤Σ minusΣ⎢ ⎥⎡ ⎤ Σ Σ ΣminusΣ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ΣΣ Σ Σ Σ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦Σ Σ

X X X y

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 53: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-20 頁

( )

( )

2

22

22

ˆ

ˆ

y x x xyn x x

n xy x yn x x

α

β

⎧ Σ Σ minus Σ Σ=⎪

Σ minus Σ⎪rArr ⎨ Σ minusΣ Σ⎪ =⎪ Σ minus Σ⎩

α β 的變異數分別為

( ) ( )( ) ( ) ( )

2

12 T 2

2

ˆˆ ˆ ˆˆ ˆ ˆˆ

x xV Cov x n

Vn xCov Vx x

α α βασ σ

β α β β

minus

⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎛ ⎞ minusΣ⎡ ⎤ ⎣ ⎦⎢ ⎥= = =⎜ ⎟⎢ ⎥ ⎢ ⎥ Σ⎣ ⎦⎝ ⎠ ⎣ ⎦ Σ Σ

X X

( )

( )

( )( )

22

22

222

ˆ

ˆ

xVn x x

nVn x x

α σ

β σ

⎧ Σ=⎪

Σ minus Σ⎪rArr ⎨⎪ =⎪ Σ minus Σ⎩

群體預測值 ˆˆg gy xα βprime = + 的變異數為

( ) ( ) ( )

( )

12 T T

2

2

2 22 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

1

g g g

g g

gg g

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β

β

α β σ

σ σ

minus

⎡ ⎤prime ⎡ ⎤= + = ⎢ ⎥⎣ ⎦

⎣ ⎦

prime = + =

⎡ ⎤⎡ ⎤Σ minusΣ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎛ ⎞⎣ ⎦ minusminusΣ⎣ ⎦ ⎣ ⎦ ⎜ ⎟= = +

⎜ ⎟Σ Σ minus⎝ ⎠

Σ Σ

x X X x

個別預測值 ˆˆd dy xα β εprime = + + 的變異數為

[ ]

( ) ( ) ( )

[ ] ( )

12 T T 2

2

22 2 2

2 2

2

ˆˆˆ 1 ˆ

ˆˆ

11

11

d d d

d d

dd d

y x x

V y V x

x xx

x x xx nn x n x nxx x

αα β ε ε

β

α β ε σ σ

σ σ σ

minus

⎡ ⎤prime = + + = +⎢ ⎥

⎣ ⎦

prime = + + = +

⎡ ⎤ ⎡ ⎤Σ minusΣ⎢ ⎥ ⎢ ⎥ ⎛ ⎞minusminusΣ ⎣ ⎦⎣ ⎦ ⎜ ⎟= + = + +

⎜ ⎟Σ Σ minus⎝ ⎠Σ Σ

x X X x

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 54: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-21 頁

86 考慮質性資料

迴歸模式中如有質性資料須以虛擬變數(dummy variables)替換

範例 89 (處理質性資料)

如下資料

y x9 38 25 23 16 34 1

其中獨立變數 x 為有三個選項的名目尺度我們需將 x 變數轉換成三的虛擬變數

1Dx 2Dx 3Dx 1 2 3 01D D Dx x x isin 其規則為

1 2 3

1 2 3

1 2 3

1 1 0 02 0 1 03 0 0 1

D D D

D D D

D D D

x x x xx x x xx x x x

= rarr = = == rarr = = == rarr = = =

資料轉換的結果如下表

y xD1 xD2 xD3

9 0 0 18 0 1 05 0 1 03 1 0 06 0 0 14 1 0 0

迴歸模型應為

0 1 1 2 2 3 3D D Dy x x xβ β β β= + + +

然而因為 0x ne 故常數項係數 0β 沒有意義實務上的作法是去掉第一個虛擬變數

1Dx 也就是說我們以下列資料作迴歸分析

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 55: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash線性迴歸 第 8-22 頁

y xD2 xD3

9 0 18 1 05 1 03 0 06 0 14 0 0

迴歸模型為

0 2 2 3 3D Dy x xβ β β= + +

以 Excel 分析的結果如下

迴歸統計

R 的倍數 08037R 平方 06460

調整的 R 平方 04099標準誤 17795

觀察值個數 6

ANOVA自由度 SS MS F p-值

迴歸 2 1733 867 27368 02107 殘差 3 950 317 總和 5 2683

係數 標準誤 t 統計 p-值截距 35 12583 27815 00689 xD2 30 17795 16859 01904 xD3 40 17795 22478 01102

當 1x = 時y 的估計值為 1 0 35xy β= = = 2x = 時y 的估計值為 2 0 2 65xy β β= = + =

3x = 時y 的估計值為 3 0 3 75xy β β= = + =

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 56: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-1 頁

9第九章 計數資料之假設檢定 2006 年 9 月 6 日 最後修改

91 計數資料檢定概論

92 適合度檢定

93 計數資料檢定的限制

94 列聯表分析

95 符號檢定

91 計數資料檢定概論

無母數方法應用於收集到的資料為非量化資料的場合即名目尺度(nominal level

data)或順序尺度(ordinal level data)的場合非量化資料無法計算平均數因此第六

七八章的假設檢定方法都無法派上用場

無母數方法有兩個基本作法(1)計算觀察個數然後對這些計數數值最文章(2)將

資料排序後給名次然後對名次作檢定前者適用所有的資料後者適用於順序尺度資料

以上的資料當然對於名目尺度資料而言前者是唯一可以使用的分析分法

排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法

分組是計數資料檢定最重要的特徵若不分組只算得一個樣本數作不了任何有意

義的分析就分組組數的多寡計數資料檢定分成兩類(1)分成兩組者適用的檢定統

計量成二項分配(2)分成兩組以上者適用的檢定統計量成卡方分配後者應用的範圍

比較廣因而有學者直接稱計數資料檢定為卡方檢定( 2χ test)

比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數(observation

frequency)為各組的樣本計數值理論次數(theoretical frequency)則為各組在虛無假設

成立下應該分配到的計數值檢定的原則為觀察次數與理論次數差距大則拒絕虛無假

設反之則接受虛無假設

範例 91 觀察次數與理論次數

若要檢定中位數是否為 30虛無假設寫成

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 57: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-2 頁

0 30H median =

並將樣本分成 A(大於 30 組)B(小於 30 組)兩組等於 30 的樣本捨棄不用則

理論上(虛無假設成立的話)樣本歸屬於 A 組或 B 組的機率應各為二分之一如果

實際觀察的樣本大於 30 者過多表示中位數不應該是 30(拒絕虛無假設)

範例 92 觀察次數與理論次數

某產品有三大品牌AB與 C一般認為這三品牌均分市場亦即三品牌的市佔

率各佔 333現訪問使用該產品的顧客 90 人發現三品牌的使用者各有 25 人37

人與 28 人若市佔率真如一般預期則這 90 訪問這中三品牌的使用者應各為

30 人30 人30 人這個例子中觀察值為 [ ]253728=o 理論值為 [ ]303030=e

若認為 o 與 e 不相同則會拒絕三品牌市佔率相等的假設

92 適合度檢定

適合度檢定(Goodness-of-Fit Test)

用於兩組以上的資料資料整理成一般次數分配表

若整理成列聯表則稱為獨立性檢定與齊一性檢定

令 io ie 分別為第 i 組的觀察值與理論值 1 i n= hellip 則統計量

( )2

1

ni i

i i

o ee=

minussum

為自由度 n kminus 的卡方分配(χsup2)其中n 為分組數 k 為減少的自由度一般在計算理

論值時都會用等式 i ie oΣ = Σ 因此自由度至少會減少一個亦即沒有其他母體參數需要

估計的情況下自由度為 1n minus

適合度檢定為右尾檢定為什麼

範例 93 適合度檢定

以下是六位大聯盟球員之棒球卡的銷售情形

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 58: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-3 頁

組別 OiTom Seaver 13Nolan Ryan 33

Ty Cobb 14George Bratt 7Hank Aaron 36

Johnny Bench 17合計 120

請以 005α = 檢定這六位球員的受歡迎程度是否相同

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2EiTom Seaver 16 13 20 - 7 2450Nolan Ryan 16 33 20 13 8450

Ty Cobb 16 14 20 - 6 1800George Bratt 16 7 20 - 13 8450Hank Aaron 16 36 20 16 12800

Johnny Bench 16 17 20 - 3 0450合計 120 34400

自由度 1 5n minus = 之卡方分配 005α = 得 2 1107R χ= gt

樣本檢定統計量( )2

344i i

i

o eR

eminus

= isinsum 拒絕虛無假設

六位球員的受歡迎程度不同

範例 94 適合度檢定

AHAA 對全國的調查顯示國民一年中住院次數的比例為從未住院者 40一次

者 30兩次者 20兩次以上者 10今調查 B 城的 150 位民眾發現住院次數

的人數依次為55 人50 人32 人與 13 人請檢定 B 城民眾的住院狀況與全國

的狀況是否有差異( 005α = )

【解】

組別 Pi Oi Ei OindashEi (OindashEi)sup2Ei0 04 55 60 -5 04171 03 50 45 5 05562 02 32 30 2 0133

3 or more 01 13 15 -2 0267總和 150 1372

自由度 1 3n minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

1372i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 59: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-4 頁

B 城民眾的住院狀況與全國的狀況沒有差異

93 計數資料檢定的限制

適合度檢定之檢定統計量中理論次數 ie 除在分母的位置若有 ie 的數值太小會使整

個統計量之數值變成偏高而不穩定因此有以下兩個限制

(a)只有兩組資料的情況下兩個理論次數都需等於或大於 5

(b)多於兩組資料的情況下理論值小於 5 的組數不能超過 20

若無法滿足上兩個條件則需合併理論值小於 5 的分組

94 列聯表分析

有兩種列聯表分析獨立性檢定與齊一性檢定

範例 95 獨立性檢定

受刑人出獄後的生活狀況調查結果如下

組別 極佳 良好 平平 不適應 總和

家鄉 27 35 33 25 120外地 13 15 27 25 80總和 40 50 60 50 200

觀察資料(Oi)

其中橫列是出獄後的居住地分成住家鄉與外地兩組縱行為生活適應狀況分成

極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況

是否有關聯( 001α = )

【解】 資料顯示調查的 200 人中有 120 人住家鄉80 人住外地其比例分別為120 200

80 200 如果居住地與生活適應情況無關則適應狀況極佳的 40 人理論上也應以

此比例分佈在家鄉與外地即住家鄉且適應極佳的理論人數為 40 120 200 24times = 人

而住外地且適應極佳的理論人數為 40 80 200 16times = 人

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 60: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-5 頁

令 ijo 為列聯表中第 i 列第 j 行的觀察次數令 ioΣ i joΣ i 為列聯表之第 i 列第 j

行的總和N 為全部觀察次數理論值的計算公式如下

i jij

o oe

NΣ timesΣ

= i i

例如

12 22120 50 80 5030 20

200 200e etimes times

= = = =

自由度的計算公式如下

( )( )1 1 1df N c r c r= minus minus + = minus minus

其中c 為行數r 為列數在本例子中 4c = 2r = 因此自由度為 ( )( )4 1 2 1 3minus minus =

組別 極佳 良好 平平 不適應 總和家鄉 2400 3000 3600 3000 120外地 1600 2000 2400 2000 80總和 40 50 60 50 200

理論次數(Ei)

組別 極佳 良好 平平 不適應 總和家鄉 0375 0833 0250 0833 2292外地 0563 1250 0375 1250 3438總和 0938 2083 0625 2083 5729

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 001α = 得 2 11345R χ= gt

樣本檢定統計量( )2

5729i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

出獄受刑人的居住地與其生活適應狀況無關

範例 96 齊一性檢定

對 A 市與 B 市之市民作市政建設的滿意度調查其結果如下

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 61: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-6 頁

組別 A市 B市 總和

很滿意 100 100 200滿意 150 150 300

不滿意 300 200 500很不滿意 200 150 350

總和 750 600 1350

觀察資料(Oi)

請檢兩市市民的施政滿意度是否相同( 005α = )

【解】

齊一性檢定與獨立性檢定的計算過程完全相同

組別 A市 B市 總和很滿意 11111 8889 200滿意 16667 13333 300

不滿意 27778 22222 500很不滿意 19444 15556 350

總和 750 600 1350

理論次數(Ei)

組別 A市 B市 總和很滿意 1111 1389 2500滿意 1667 2083 3750

不滿意 1778 2222 4000很不滿意 0159 0198 0357

總和 4714 5893 10607

(OindashEi)sup2Ei

自由度 ( )( )1 1 3r cminus minus = 之卡方分配 005α = 得 2 7815R χ= gt

樣本檢定統計量( )2

10607i i

i

o eR

eminus

= isinsum 拒絕虛無假設

兩市市民的施政滿意度是否不相同

範例 97 適合度檢定(檢定資料是否為常態分配)

某次考試的成績如下

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 62: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-7 頁

請檢定這 25 筆成績是否成為常態分配( 005α = )

【解】 經計算這 25 筆成績的平均數與標準差分別為 7264μ = 1155σ =

因此假設理論值為 7264μ = 1155σ = 的常態分配

將資料分成五組且令每組之理論次數皆為 5即各組的機率皆為1 5 02= 其結果

如下

組別 Pi Oi Ei OindashEi (OindashEi)sup2Eix ≦6292 02 7 5 2 0800

6292 <x≦ 6971 02 2 5 -3 18006971 <x≦ 7557 02 6 5 1 02007557 <x≦ 8236 02 4 5 -1 0200

x gt 8236 02 6 5 1 0200總和 1 25 3200

自由度的計算如下

1 5 2 1 2df n k= minus minus = minus minus =

其中n 為組數k 為分配的參數個數

自由度 1 2n kminus minus = 之卡方分配 005α = 得 2 5991R χ= gt

樣本檢定統計量( )2

32i i

i

o eR

eminus

= notinsum 無法拒絕虛無假設

這 25 筆成績可視為為常態分配

95 符號檢定

範例 98 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 63: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash計數資料之假設檢定 第 9-8 頁

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p le 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 05H p le

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 9R x= gt

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 64: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-1 頁

10第十章 順序資料之假設檢定 2006 年 9 月 11 日 最後修改

101 順序資料檢定概論

102 符號檢定

103 符號秩檢定(成對樣本檢定)

104 秩和檢定(兩獨立樣本檢定)

105 Kruskal-Wallis 檢定(變異數分析)

106 等級相關分析

107 統計量推導

101 順序資料檢定概論

順序資料無法使用量化資料的假設檢定

順序資料檢定的原則

將資料排序給名次然後對名次作量化的計算

順序資料檢定的模式

(1)符號檢定(中位數檢定成對樣本檢定)

(2)符號秩檢定(成對樣本檢定)

(3)秩和檢定(兩獨立樣本檢定)

(4) Kruskal-Wallis 檢定(變異數分析)

(5)順序尺度相關分析

秩(rank)

排序後給的名次

符號秩(signed rank)

帶有正負號的名次正負符號的目的在於將樣本分成兩組

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 65: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-2 頁

102 符號檢定

符號檢定(sign test)

符號是分組的依據分成兩組我們有興趣那組稱為『+』組或成功組

資料的順序特性只用來將資料分組

統計技術為計數mdashmdash計算成功組的出現次數

用以檢定的機率分配為二項分配

範例 101 二項分配與符號檢定

下表是員工作某項訓練課程之前後測驗成績請檢定該測驗是否有效( 01α = )

員工 訓練前 訓練後

1 Good Outstanding2 Fair Excelient3 Excelient Good4 Poor Good5 Excelient Excelient6 Good Outstanding7 Poor Fair8 Excelient Outstanding9 Good Fair10 Poor Good11 Good Outstanding12 Fair Excelient13 Good Fair14 Good Outstanding15 Poor Good

【解】

虛無假設為『訓練與測驗成績無關』若這個虛無假設為真則訓練後成績比訓練前

『進步』與『退步』的機率應該相同亦即去除不進不退者後『進步』的機率應

佔 50真正用於檢定的虛無假設為『 0 05H p = 』其中 p 為進步的機率

以進步為『+』退步為『ndash』不進不退為『0』則結果如下表

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 66: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-3 頁

員工 訓練前 訓練後 進步與否

1 Good Outstanding +

2 Fair Excelient +

3 Excelient Good ndash4 Poor Good +

5 Excelient Excelient 06 Good Outstanding +

7 Poor Fair +

8 Excelient Outstanding +

9 Good Fair ndash10 Poor Good +

11 Good Outstanding +

12 Fair Excelient +

13 Good Fair ndash14 Good Outstanding +

15 Poor Good +

統計結果為 11 人進步3 人退步(不進不退者不列入計算)

0 H 訓練與測驗成績無關( 0 05H p = )

檢定統計量 x(正向反應個數)為 14n = 05p = 的二項分配

005α = 下拒絕區域 3 10R x x= lt gt或 (也可以寫成 2 11R x x= le ge或 )

樣本檢定統計量值 11x R= isin 拒絕 0H 該訓練課程有正面效果

範例 102 大樣本之二項分配

上題中若進步者『+』有 35 人退步者『ndash』有 21 人請以 005α = 檢定該訓練

課程是否有效

【解】 大樣本以 z 分配來取代二項分配注意 1

2plusmn 的修正問題

0 H 訓練與測驗成績無關

檢定統計量 x(正向反應個數)為 28μ = 37417σ = 的常態分配

(其中 56 05 28npμ = = times = ( )1 56 05 05 37417np pσ = minus = times times = )

005α = 下拒絕區域 196R z= gt

樣本檢定統計量值1235 28

20037417

xz Rμσ

+ minusminus= = = isin 拒絕 0H

該訓練課程有正面效果

範例 103 中位數檢定

某次考試的成績如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 67: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-4 頁

90 68 88 75 7080 85 62 58 6167 50 72 74 6076 58 77 62 7083 98 76 72 84

請檢定這 60 是否為中位數( 005α = )

【解】

統計結果高於 60 者有 21 人低於 60 者有 3 人(等於 60 者不列入計算)

0 60H median =

檢定統計量 x(正向反應個數)為 24n = 05p = 的二項分配

005α = 下拒絕區域 7 16R x x= lt gt或 (也可以寫成 6 17R x x= le ge或 )

樣本檢定統計量值 21x R= isin 拒絕 0H 60 不是中位數

103 符號秩檢定(成對樣本檢定)

符號秩檢定(signed rank test)

成對樣本檢定量化資料版本

di i i d

d

dd x y d s tsμminus

= minus rArr rArr =計算 檢定統計量

順序尺度資料版本

0 0

min i i

i i i i i i i i i

i ir R r R

d x y r d R r d R r d

R r R r

T R R

+ minus

+ minus

+ minus

isin isin

+ minus

= minus rArr = = gt = lt

rArr Σ = Σ Σ = Σ

rArr = Σ Σ

排序後名次

計算

檢定統計量

符號秩檢定的假設

成對樣本內是等距尺度( ix iy 間可加減) 樣本間為順序尺度( id jd 間不可加減)

Wilcoxon 符號秩檢定統計量(T)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 符號秩 T 的步驟

(1)將兩資料相減得 d A B= minus

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 68: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-5 頁

(2)將該差值取絕對值得 d A B= minus

(3)將 d A B= minus 排序給名次 d 最小者為 1最大者為 n如有相同值則平分名次

( 0d = 者不參與排名)

(4)將上一步驟得到的名次依據 d 的正負分成兩組 R+與 Rminus (5)計算兩組名次的總和 R+Σ 與 RminusΣ 最後計算 min T R R+ minus= Σ Σ

此 T 為 Wilcoxon 符號秩的檢定統計量

Wilcoxon T 的期望值與變異數分別如下

( ) ( )

( ) ( )( )

14

1 2 124

n nE T

n n nV T

+=

+ +=

其中n 為 R+ Rminus兩組個數的總和注意n 不一定等於樣本數為什麼

Wilcoxon T 需查其特有的機率分配表而如同其他分配在大樣本( 30n gt )時趨近

於常態分配

範例 104 成對樣本的檢定

下表 AB 欄分別是 12 員工訓練前後的成績請以 005α = 檢定該訓練法是否有效

A B13 1124 2715 1618 1822 2120 2218 2415 1816 2019 1714 1517 21

【解】

資料排序整理的結果如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 69: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-6 頁

A B AminusB |AminusB| 排名 R+ Rmacr13 11 2 2 5 524 27 -3 3 75 7515 16 -1 1 2 218 18 0 ----22 21 1 1 2 220 22 -2 2 5 518 24 -6 6 11 1115 18 -3 3 75 7516 20 -4 4 95 9519 17 2 2 5 514 15 -1 1 2 217 21 -4 4 95 95

12 54

11 min 12n T R R+ minus= = Σ Σ =

假設檢定的結果如下

(1) Ho兩者無差異 (雙尾)

(2) 檢定統計量 T 為 n = 11 的 Wilcoxon Singed-Rank 檢定

(3) α=005拒絕區域 R = T≦10 (4) 樣本統計量 T = 12 不屬於 R無法拒絕 Ho

104 秩和檢定(兩獨立樣本檢定)

秩和檢定(rank-sum test)

獨立樣本檢定量化資料版本

( ) ( )

x yx y x y

x y

x yx s y s s t

sμ μ

minusminus

minus minus minusrArr rArr =計算 計算 檢定統計量

順序尺度資料版本

a b a b a bi j i j i j

a bA i B j

A

x x r r x x

W r W r

W W

rArr = Σ = Σ

rArr =

將 混合排名 令 分別為 的名次

計算

檢定統計量

Wilcoxon 秩和檢定統計量(W)

假設取得的兩組資料為 A 與 B計算 Wilcoxon 秩和 W 的步驟

(1)將 A 與 B 組資料作混合排名即最小者名次為 1最大者名次為 A Bn n+ 其中 A Bn n

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 70: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-7 頁

分別為兩組的樣本數

(2)求該排名的總和 AW BW 令 AW W=

Wilcoxon W 的期望值與變異數如下

( ) ( )

( ) ( )

12

112

A A B

A B A B

n n nE W

n n n nV W

+ +=

+ +=

其中 AW W=

Wilcoxon W 在大樣本時( max 10A Bn n gt )可以用常態分配來近似小樣本的情況

需查特殊分配表

Mann-Whitney 秩和檢定統計量(U)

Mann-Whitney 將 Wilcoxon W 作以下的轉換

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

Mann-Whitney U 的期望值與變異數如下

( )

( ) ( )2

112

A B

A B A B

n nE U

n n n nV U

=

+ +=

兩者相比較Mann-Whitney U 的好處在於期望值的計算式中 A Bn n 是對稱的

範例 105 兩獨立樣本 Wilcoxon 檢定

下表 AB 欄分別兩個部門之員工測驗成績請以 005α = 檢定兩部門員工該測驗的

成績是否有差異

A B45 3333 2967 3235 3035 1230

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 71: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-8 頁

【解】

Wilcoxon W 統計量值計算過程如下

A B Rank A Rank B45 33 10 6533 29 65 267 32 11 535 30 85 3535 12 85 130 35

48 18

6 5 48A B An n W W= = = =

假設檢定過程如下

(1) HoA 組比較大 (右尾)

(2) 檢定統計量 W 為 (n1n2) = (6 5) 的 Wilcoxon Rank-Sum 檢定

(3) α=005拒絕區域 R = W>40 (4) 樣本統計量 W = 48 屬於 R拒絕 Ho

105 Kruskal-Wallis 檢定(變異數分析)

K-W 檢定(Kruskal-Wallis test)

變異數分析量化資料版本

MSBSST SSB SSE MSB MSE FMSE

rArr rArr =計算 計算 檢定統計量

順序尺度資料版本

( )22

a b c a b a bi j k i j i jx x x r r x x

SSBSSB SSBH

MSEχ

σ

rArr

⎛ ⎞rArr = =⎜ ⎟⎝ ⎠

hellip hellip hellip將 混合排名 令 分別為 的名次

計算

檢定統計量 分配

其中( ) ( )2 112

n nMSE σ

+= = 測量誤差

Kruskal-Wallis 檢定統計量(H)與 Friedman 檢定統計量( rF )

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 72: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-9 頁

順序尺度資料在需要變異數分析時如同上兩節的技術先將資料轉成排名值後再

以該排名值來計算檢定統計量

我們有兩個順序尺度的變異數分析統計量

單因子時用 Kruskal-Wallis H 統計量

雙因子時用 Friedman rF 統計量

兩者皆為自由度 1k minus 的 2χ 分配其中 k 為組數

假設 k 組的樣本數分別為 1 kn nhellip 名次等級和分別為 1 kR Rhellip 則

Kruskal-Wallis H 的計算公式為

( ) ( )

22 21 2

1 2

12 3 11

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中 1 1 kn n n n= + + +

Friedman rF 的計算公式如下

( ) ( )

22 21 212 3 1

1k

rRR RF b k

k k b b b⎡ ⎤

= times + + + minus +⎢ ⎥+ ⎣ ⎦

其中b 為集區數即 1 1 kn n n b= = = =

範例 106 K-W 檢定

就以下順序尺度資料作變異數分析

A B C10 30 1043 70 1623 98 6056 23 4152 43

【解】

Kruskal-Wallis H 統計量值計算過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 73: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-10 頁

A B C 合計

15 6 1585 13 345 14 1211 45 710 85

ΣA 355 375 32 105nA 5 4 5 14

(ΣA)sup2nA 25205 35156 20480 80841

( ) ( )

( ) [ ] ( )

22 21 2

1 2

12 3 11

12 80841 3 14 114 14 17195

k

k

RR RH nn n n n n

⎡ ⎤= times + + + minus +⎢ ⎥+ ⎣ ⎦

= times minus times +times +

=

假設檢定過程如下

(1) Ho各組沒有差異 (右尾)

(2) 檢定統計量 H 為 df = 3 minus1 = 2 的 χsup2 分配

(3) α = 005拒絕區域 R = χsup2 gt 5991 (4) 樣本統計量 H = 7195 屬於 R拒絕 Ho (p 值 = 00274)

106 等級相關分析

等級相關(rank-order correlation)

量化資料相關係數Pearson 相關係數(Pearson coefficient of correlation)

( )( )( ) ( )

( )( )

( ) ( )2 2 2 22 2

i ii i

i i

i i i ii i

x yx yx x y y nr

x x y y x yx y

n n

Σ ΣΣ minusΣ minus minus

= =Σ minus Σ minus Σ Σ

Σ minus Σ minus

順序尺度資料Spearman 等級相關係數(Spearman coefficient of rank correlation)

( )( )

( ) ( ) ( )2

222

611

i i is

i i

a a b b drn na a b b

Σ minus minus Σ= = minus

minusΣ minus Σ minus

其中 ia ib 分別為 ix iy 排序後名次 ( )22i i id a b= minus

等級相關係數檢定

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 74: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-11 頁

如同量化資料的相關係數當虛無假設 0 0H ρ = 時檢定統計量

( ) ( )21 2

s

s

r

r nminus minus

為自由度 2df n= minus 的 t 分配

範例 107 Spearman 相關係數檢定

請計算下列順序尺度資料的相關係數並作檢定

A B8 4

10 49 44 3

12 611 911 97 68 6

13 910 512 9

【解】

Spearman 相關係數的計算過程如下

A B Rank A Rank B d dsup28 4 35 30 05 025

10 4 65 30 35 12259 4 50 30 20 4004 3 10 10 00 000

12 6 105 70 35 122511 9 85 105 - 20 40011 9 85 105 - 20 4007 6 20 70 - 50 25008 6 35 70 - 35 1225

13 9 120 105 15 22510 5 65 50 15 22512 9 105 105 00 000

7850

( ) ( )

2

2 2

6 6 7851 1 072551 12 12 1

is

drn n

Σ times= minus = minus =

minus times minus

( ) ( ) ( ) ( )2 2

07255 333381 2 1 07255 12 2

s

s

rtr n

= = =minus minus minus minus

假設檢定的過程如下

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 75: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-12 頁

(1) Hoρ=0 (雙尾)

(2) 檢定統計量 (rminusρ) [(1minusrsup2)(nminus2)] 為 df = nminus2 = 10 的 t 分配

(3) α=001拒絕區域 R = t<-3169 或 t>3169 (4) 樣本統計量 t = 3334 屬於 R拒絕 Ho (p值 = 00076)

107 統計量推導

幾個基本公式

( )

( )( )

( )( )( )

( ) ( )

2

2

12

1 2 16

1 1 3 212

112

n ni

n n ni

n n n nij

n nV i σ

+Σ =

+ +Σ =

+ minus +Σ =

+= =

其中

2 2

1 1 1 i n i n i j n i ji i i i ij i j

= = = ne

Σ equiv Σ equiv Σ equiv timessum sum sum

( )

( ) ( ) ( )( ) ( )( )( )

2 2

222 2

1 2

1 1 2 1 1 1 3 24 6 12

n i ij

n n n n n n n n nij i i

+ + + = Σ + Σ

+ + + + minus +rArr Σ = Σ minusΣ = minus =

( )( ) ( )( ) ( )

( )2 2

2 1 2 1 116 4

1 1 12

i n n n n ni n nnV i

n n

Σ + + +Σ minus minus +

= = =minus minus

Wilcoxon T 的期望值與變異數

1 212 12 n i iT x x x x n x= + + + isin hellip 出現的機率為

( ) ( )

( )

1 2

12

14

nE T E x x x

i

n n

= + + +

= Σ

+=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 76: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-13 頁

( ) ( ) ( )

( )

( )( )

221 2

22

22

2

1 1 12 4 21 12 414

1 2 124

nV T x x x E T

i ij i

i i ij

i

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

⎡ ⎤= Σ + Σ minus Σ⎢ ⎥⎣ ⎦

⎡ ⎤= Σ minus Σ minusΣ⎣ ⎦

= Σ

+ +=

Wilcoxon W 的期望值與變異數

1 2 12 aA n i a bW W x x x x n n n n= = + + + isin = +hellip

( ) ( )12

aa n nnE W in

+= timesΣ =

( ) ( ) ( )( )( )( )( ) ( ) ( )

( ) ( ) ( )

( )( )( ) ( )

( )( ) ( )

( )

221 2

22

22 22 2

2

222

22

11

11

1 1

1 2 1 111 6 4

11

1 12

112

n

a aa a

a aa a

a b a b

a b

a b

a b

V W x x x E T

n nn ni ij in n n n

n nn ni i i in n n n

n n n ni in n n n

n n n n nn nn n n

n nn n nn n

n n n

= Σ + + + minus ⎡ ⎤⎣ ⎦

minus ⎡ ⎤= Σ + Σ minus Σ⎢ ⎥minus ⎣ ⎦

minus ⎡ ⎤= Σ + Σ minusΣ minus Σ⎣ ⎦minus

= Σ minus Σminus minus

⎡ ⎤+ + += minus times⎢ ⎥

minus ⎢ ⎥⎣ ⎦+

= times times minusminus

+=

Mann-Whitney U 的期望值與變異數

( ) ( )

( ) ( )

1 12 2 2

1 12 2 2

min

A A A A BA BA A B A A

B B B A BA BB A B B B

A B

n n n n nn nU n n W W

n n n n nn nU n n W W

U U U

+ + += + minus = + minus

+ + += + minus = + minus

=

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 77: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-14 頁

( ) ( )

( ) ( )

12

1 12 2

2

A AA A B A

A A A A BA B

A B

n nE U E n n W

n n n n nn n

n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠+ + +

= + minus

=

( ) ( )

( )( )

12

112

A AA A B A

A

A B A B

n nV U V n n W

V W

n n n n

⎛ + ⎞= + minus⎜ ⎟

⎝ ⎠=

+ +=

Kruskal-Wallis H

( ) ( )

( )

2 22 22 2 2 21 2 1 2

1 2 1 2

2

14

112

k k

k k

i n nR RR R R RSSBn n n n n n n

n nMSE σ

Σ += + + + minus = + + + minus

+= =

( )

( )

( ) ( )

2

222 21 2

1 2

22 21 2

1 2

14

112

12 3 11

k

k

k

k

SSBH

n nRR Rn n n

n n

RR R nn n n n n

σ=

++ + + minus

=+

⎛ ⎞= + + + minus +⎜ ⎟+ ⎝ ⎠

Spearman 等級相關係數

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定
Page 78: 96 4 stat 講義 - pu.edu.thdchen/handout_bank/stat/97_4_stat_handout.pdf · ©2006 陳欣得 統計學—假設檢定 第6-4 頁 檢定某罐裝飲料的裝填量是否為設定的250cc,

copy2006 陳欣得 統計學mdash順序資料之假設檢定 第 10-15 頁

( )( )( ) ( )

( )( )

( ) ( )

( )

( ) ( )

( )( )( )( )

( )( )( )

2 2 222 2

2

2

2 22 2

22 2

22

2

1

21 11 1

22 12

61

1 1

i ii ii i

s

i ii ii i

i ii i

i ii i i i

i i

a ba ba a b b nr

a ba a b b a bn n

ia b i a bn

i ii i

n na ba a b b

n n nii

n

a bn n n

Σ ΣΣ minusΣ minus minus

= =Σ ΣΣ minus Σ minus Σ minus Σ minus

ΣΣ minus Σ minusΣ

= = minusΣ Σ

Σ minus Σ minus

Σ minusΣ minus Σ + Σ= minus = minus

+ minus⎛ ⎞Σ timesΣ minus⎜ ⎟⎜ ⎟⎝ ⎠

Σ minus= minus

+ minus

  • 第六章 假設檢定
  • 第七章 變異數分析
  • 第八章 線性迴歸
  • 第九章 計數資料之假設檢定
  • 第十章 順序資料之假設檢定