85
© 蘇蘇蘇 2004 蘇蘇蘇蘇 蘇蘇 () Page 1 Analysis of Variance 蘇蘇蘇蘇 • 蘇蘇蘇蘇蘇 蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇 蘇蘇蘇蘇蘇蘇蘇蘇蘇 ,體。 蘇蘇蘇蘇 蘇蘇蘇蘇蘇蘇蘇 蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇 體。 • 蘇蘇蘇蘇蘇蘇蘇蘇蘇 蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇 蘇蘇蘇 體, 蘇蘇蘇 蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇 蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇蘇

Analysis of Variance 變異數分析

Embed Size (px)

DESCRIPTION

Analysis of Variance 變異數分析. 觀念. 在前幾章中,我們學會了如何檢定兩母體平均數是否有差異。在本章中,我們將介紹對於 兩個以上 母體的平均值的比較。 檢定三個或以上的母體平均數是否相等的統計方法,或檢定 名目變數 或 序列尺度的因子 對於 等距尺度或比率尺度的依變數 是否有影響統計方法稱為變異數分析。. Analysis of Variance 變異數分析. 觀念. 例如: 比較各省籍 ( 台灣、大陸、客家人 ) 人士在平均收入及教育年數上的差異。 大學中各年級的同學智商是否有別? 三種不同的教學方法對於學生的成績是否有影響?. - PowerPoint PPT Presentation

Citation preview

Page 1: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 1

Analysis of Variance 變異數分析

• 在前幾章中,我們學會了如何檢定兩母體平均數是否有差異。在本章中,我們將介紹對於兩個以上母體的平均值的比較。

• 檢定三個或以上的母體平均數是否相等的統計方法,或檢定名目變數或序列尺度的因子對於等距尺度或比率尺度的依變數是否有影響統計方法稱為變異數分析。

觀念觀念

Page 2: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 2

Analysis of Variance 變異數分析

• 例如:• 比較各省籍 ( 台灣、大陸、客家人 ) 人士在平均收入及教育年數上的差異。

• 大學中各年級的同學智商是否有別?• 三種不同的教學方法對於學生的成績是否有影響?

觀念觀念

Page 3: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 3

Analysis of Variance 變異數分析

• 在比較多組母體的平均值時,我們通常不採用兩兩比較的方式,主要的原因有二:

• 一、這種做法太浪費時間,因為比較幾個母體可能產生很多的比較組,例如比較五個母體的平均值差異,如果以兩兩比較的方式,我們必須進行 C5

2=10 次的 t-test 。• 二、如果每組的顯著水準皆為 α ,則全體比較的顯著水準會高於 α 。

觀念觀念

Page 4: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 4

Analysis of Variance 變異數分析

• 假設我們在 .05 的顯著水準下要檢定下列虛擬假設:

• H0: u1=u2=u3

• 如果拆成下列三組虛擬假設:• H0: u1=u2 , H0: u1=u3 , H0: u2=u3

• 每個假設被「接受」的機率為 .95 ,三個假設全部被接受的機率為 .953=.857 ,也就是說當假設為真但被推翻的機率為 (1 - 0.857) = 0.143 > 0.05 遠高於顯著水準。

觀念觀念

Page 5: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 5

Analysis of Variance 變異數分析

• 因此我們需要在共同的顯著水準 α 下,同時考量多個平均值得差異,我們以 F分配來進行檢定,稱之為變異數分析 (ANOVA) 。

• 這個名稱容易令人產生誤解,我們是根據樣本資料的變量分析,來檢定母體平均數是否有差異。

觀念觀念

Page 6: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 6

Analysis of Variance 變異數分析

• The One-Factor ANOVA Model 單因子變異數分析

• 設我們從 k 個母體中得到樣本資料來檢定下列虛擬假設 :

• H0: u1 = u2 = … = uk。• H1: 至少有兩個平均值不同。

觀念觀念

Page 7: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 7

Analysis of Variance 變異數分析

• 消費者很想知道哪種車最省油,比較 A, B, C 三種車款每加崙可以行駛的里數如下:

觀念觀念

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

Page 8: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 8

Analysis of Variance 變異數分析觀念觀念

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH

Q: 我們所觀察到的樣本平均數差異是否大到足以推翻上面的虛擬假設 ?

三種汽車每單位汽油的里數皆相同

Page 9: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 9

Analysis of Variance 變異數分析觀念觀念

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH

Q: 各組平均值的差異是來自於抽樣誤差還是母體差異?

4.14.201921 xx 8.28.211931 xx4.18.214.2032 xx

Page 10: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 10

Analysis of Variance 變異數分析觀念觀念

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH 例如 A車與B車的平均值差異為 1.4里,這個差異是否大到我們可以有信心的說 u1 與 u2 也有差異?

這個問題決定於 x1, x2 是否為母體平均值的精確估計值。

4.14.201921 xx

Page 11: Analysis of Variance  變異數分析

Analysis of Variance 變異數分析觀念觀念

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH 如果標準差很小,則兩個樣本平均值一點點的差距都可能是母體平均值不同的訊號。

同理,如果標準差過大,則即使我們觀察到樣本平均值之間有很大的差距,我們也不太有信心能夠宣稱母體的平均數真的有別

Page 12: Analysis of Variance  變異數分析

Analysis of Variance 變異數分析觀念觀念

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH 樣本標準差或變異數測量各個樣本內,各觀察值之間的變異程度。

如果樣本內的變異數很小,則各樣本之間平均數的差距若過大,為母體平均數不同的有力證據

反之,如果樣本內的變異數過大,則即使樣本平均值之間有差異,我們仍然很難下斷論說母體的平均值不同。

Page 13: Analysis of Variance  變異數分析

Analysis of Variance 變異數分析觀念觀念

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH 因此檢定各樣本的平均值是否相同的問題涉及比較樣本內的變異(組內差異)及樣本間的變異(組間差異)。所以通常稱之為變異數分析。

Page 14: Analysis of Variance  變異數分析

樣本內的變異數很小

18 19 20 21 22 23

C

B

A

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

19 20.4 21.8

Page 15: Analysis of Variance  變異數分析

樣本內的變異數很大

15 17 19 21 23 25

C

B

A

A B C17 24.2 26

20.4 22 19.824 17.8 24.4

15.8 16.2 1617.8 21.8 22.8

19 20.4 21.8

27

樣本平均數雖然相同

Page 16: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 16

變異數分析中的幾個專有名詞

• 我們經常設計研究來了解造成某種現象變化的原因,例如我們想要了解為什麼有時候種植西瓜會甜有時候不會甜(甜度變動 ) ,這種我們欲了解的變動稱為依變項 (dependent variable) 、被解釋變項、或反應變項 (response variable) 。

• 我們懷疑西瓜的甜度與栽種過程中是否施肥有關,將某些西瓜種籽加以施肥處理,其他西瓜保持自然生長,這種造成依變項產生變化的變數稱之為因子 (factor) 或獨立變項、 自變項 (independent variable) 。

Page 17: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 17

自變數與依變數

• 在上面的例子中,比較各種汽車的里程數,何者為依變項?何者為獨立變項?

• 依變項:每加崙里數• 自變項:車種

Page 18: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 18

因子水準 (Factor level) 與處理 (Treatment)

• 因子水準為某因子(自變數)之特殊形式或不同狀態,例如我們可以將「施肥」細分成三個水準:完全不施肥、施輕肥、施重肥。

• 如果解釋的因子為單一 (施肥與否),稱為單因子分析,如果解釋因子在兩個以上(施肥與否+栽種溫度),稱為多因子分析。

Page 19: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 19

因子水準 (Factor level) 與處理 (Treatment)

• 在單因子分析中,每一個因素水準皆稱為一種處理 (treatment) ,多因子分析中,因子水準之組合稱為一種處理(施重肥+高溫、無施肥 + 高溫、施重肥+低溫、無施肥+低溫…等。),稱為多因子分析。

Page 20: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 20

變異數分析的邏輯

• 假設從 K 個母體中抽取大小分別為 n1, n2, n3…nk的 K 個獨立隨機樣本。我們對母體有下列的假設:

• 各母體皆為常態分配,且有共同相同的變異數 σ2。

• 以 u1, u2, …uk 來表示母體的平均數,單因子分析檢證下虛擬假設

• H0: u1=u2…=uk vs. H1: 至少有兩組平均數不同

Page 21: Analysis of Variance  變異數分析

x11

x21

x31

x12x22

x32

xn2,2

共有 K 個母體

μ1, σ1 μ2, σ2

x1k

x2k

x3k

μk, σk

Xi j

i代表在樣本中的序號, i = 1,2, …nj

j代表樣本組別, j = 1,2, …k

1,1nx

knkx ,

Page 22: Analysis of Variance  變異數分析

1 2 … k

x 11 x 12 x 1k

x 21 x 22 x 2k

x 31 x 32 x 3k

﹕ ﹕ ﹕x n1 , 1 ﹕ ﹕

x n2 , 2 ﹕x nk,k

分別來自 k 母體的 k 個樣本

第 k 組樣本共有 nk

個觀察值

各組樣本數可以不同,分別為 n1, n2,…nk,

總樣本數 n= n1+n2+…+nk

Page 23: Analysis of Variance  變異數分析

1 2 … k

x 11 x 12 x 1k

x 21 x 22 x 2k

x 31 x 32 x 3k

﹕ ﹕ ﹕x n1 , 1 ﹕ ﹕

x n2 , 2 ﹕x nk,k

1x 2x kx

Kjn

xx

j

n

iij

j

j

,...2,1,各組樣本的平均值 1

K

j

jjK

j

n

i

ij

n

xn

n

xx

j

11 1

總樣本的平均值

Page 24: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 24

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

變異數分析的邏輯

4.2015

)8.21)(5()4.20)(5()0.19)(5(

x

Page 25: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 25

變異數的分解

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

4.20x 總平均數

任何一部車與總平均的差異稱為總差異 :

4.202.18 xxij

Page 26: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 26

變異數的分解

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

4.20x 總平均數

任何一廠牌與總平均的差異稱為由因子所引起的差異 (difference due to factor)

4.20191 xx

Page 27: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 27

變異數的分解

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

4.20x 總平均數同一廠牌中,任何一部車與該廠牌的平均數之間的差異稱為隨機差異 (difference due to error

192.18111 xx

Page 28: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 28

變異數的分解

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

4.20x 總平均數

總差異 =

由因子所引起的差異

隨機差異

Page 29: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 29

變異數的分解

)( xxij )( xx j

總差異 =由因子所引起的差異+ 隨機差異

)( jij xx

ijx )( xx j )( jij xx x

總平均

因子的影響

隨機差異的影響

Page 30: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 30

變異數的分解

k

j

n

iij

j

xx1 1

2)(

k

j

n

ij

j

xx1 1

2)(

k

j

n

ijij

j

xx1 1

2)(

)( xxij )( xx j )( jij xx

兩邊取平方和

k

j

n

ijijj

j

xxxx1 1

))((2

Page 31: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 31

Sum of Squares in ANOVA 變異數分析中的平方和

• 變異數分析是透過各組樣本內的變異與組間變異之比較來檢證各組平均值是否相等的一種方法。

• 全體樣本資料的總變異量為 :

K

j

n

iij

j

xxSST1 1

2)(

• 即個別觀察值與總平均數差距的平方和,稱為總變異量或總平方和。

Page 32: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 32

Sum of Squares in ANOVA 變異數分析中的平方和

• 變異數分析將總變異量分解成下列兩部分 :

總變異 = 組內變異( 或未解釋變

異 )

+ 組間變異( 或已解釋變

異 )

Total Sum of Squares (TSS)

= Within-group Sum of Squares or Sum of Squares Within (SSW)

+ Between-Group Sum of Squares or Sum of Squares Between (SSB)

Page 33: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 33

Sum of Squares Within 組內變異• 組內各個觀察值之間的差異稱為隨機差異 (difference d

ue to random error) ,為不能被因子所解釋的差異。• 在各組樣本內的變異,即每一個組內觀察值的誤差平

方和 :

kn

iKiK

n

ii

n

ii xxxxxxSSW

1

2

1

222

1

211 )()()(

21

K

j

n

ijij

j

xx1 1

2)(KSSSSSS 21

在樣本組內,由於無法解釋的隨機變異,每一個觀察值 xij 與該組平均數會有所不同,因此組內的誤差稱為sum of squares due to error or error sum of squares ( 誤差平均和 )

Page 34: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 34

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

Sum of Squares Within 組內變異

4.20x 20.1)198.18(

)190.19()196.19(

)0.194.19()0.192.18(

2

22

221

SS

04.1)4.200.20(

)4.204.20()4.208.20(

)4.2021()4.208.19(

2

22

222

SS

80.0)8.216.21(

)8.2122()8.214.22(

)8.218.21()8.212.21(

2

22

223

SS

04.38.004.120.1 SSW

Page 35: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 35

Between-Group Sum of Squares組間變異

• 任何一組的平均數與總平均數之間的差異稱為因子引起的差異 (difference due to factor)

• 組間變異是因為已知為處理 (treatment) 所造成的,因此稱為已解釋變異或處理平方和 (treatment sum of squares):

K

jjj

KK

xxn

xxnxxnxxnSSB

1

2

2222

211

)(

)()()(

Page 36: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 36

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

Sum of Squares Between 組間變異

4.20x

6.19)4.208.21)(5()4.204.20)(5()4.200.19)(5( 222 SSB

Page 37: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 37

Sum of Squares Identity

• SST = SSW + SSB• 22.64 = 3.04 + 19.6

總變異 = 組內變異( 或未解釋變

異 )

+ 組間變異( 或已解釋變

異 )

Page 38: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 38

Mean Square Within

• 以變異數分析來檢定母體平均數是否相等必須基於下列假設 :

• Xij are independent and Xij ~ N(uj, σ2)

• 變異數齊一性 (homoegeneity): 每個小母體的變異數皆相等, σj

2=σ2

• 如何估計母體變異數 ?

• ANOVA 檢定奠基於用不同的方式來估計未知的共同母體變異數 σ2

Page 39: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 39

Mean Square Within

• 從第一組樣本的觀察值中我們可以得到一個母體變異數的不偏觀察值 (unbiased estimator):

1

)(

1

1

211

21

1

n

xxs

n

ii 22

1 )( sE

1

)(

2

1

222

22

2

n

xxs

n

ii 22

2 )( sE

同理

Page 40: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 40

Variance of Discrete Random Variable

])[( 22 uXE )2( 22 uuXXE

)()(2)( 22 uEXEuXE 22 2)( uuuXE

22 )( uXE 22 )]([)( XEXE

複習複習

Page 41: Analysis of Variance  變異數分析

])2([1

1])([

1

1)(

1

22

1

22

n

iii

n

ii xxxxE

nxxE

nSE

])()([1

1][

1

1

1

2222

n

iii xnExE

nxnxE

n22 )]([)()var( xExEx

]}))(()[var(])]([)([{1

1 22 xExnxExVarn ii

22222

22

22

}{1

1

]}[][{1

1

nnnn

nn

n

複習複習

22 )]([)()var( xExEx

Page 42: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 42

Mean Square Within

• 雖然各組樣本的變異數皆為母體變異數的不偏估計式,但是一更佳,更有效率的估計式為充分運用所有的樣本觀察值,即將各組的觀察值集合起來一起得到一個混和估計式:

)(

)1()1()1(

21

2222

2112

Knnn

snsnsns

k

kkp

1

)(1

2

2

j

n

ijij

j n

xxs

j

其中

Page 43: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 43

Mean Square Within

• 這個混和估計式等於各組樣本變異數 sj

2的加權平均數,其加權權數為 :

)(

)1(

21 Knnn

n

k

j

j

j

n

ijijjj

j

n

ijij

j xxnsn

xxs

1

221

2

2 )()1(1

)(

第 j 組的組內變異

Page 44: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 44

Mean Square Within

)(

)1()1()1(

21

2222

2112

Knnn

snsnsns

k

kkp

• 估計式的分子部分等於 SSW ,即各組組內變異的總和。

jn

ijijjj xxns

1

22 )()1(

)(2

Kn

SSWsp

Page 45: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 45

Mean Square Within

• 我們把上式稱為MSW (Mean Square Within) 組內均和,有時稱為Mean Square Error (MSE) ,其中分母部分為MSW的自由度 (degree of freedom)

)( Kn

SSWMSEMSW

Page 46: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 46

Mean Square Within

))(

)1(

()()( 1

2

Kn

sn

EKn

SSWEMSWE

K

jjj

為什麼MSW 可以用來估計 σ2?證明MSW 為 σ2

的不偏估計式。

))1(()1

(1

2

K

jjj snE

Kn

221 )()

)1(

(

j

K

jj

sEKn

n

Page 47: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 47

Mean Square Between

• 另一種估計母體變異數 σ2為利用已知的x 全體樣本的平均值

Kxxx ,, 21各組樣本的平均值2)( xx j 及其差異的平方和

Page 48: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 48

Mean Square Between

• 如果母體為常態分配,則樣本平均數的抽樣分配為:

),(~2

jj n

uNX j

jj nXVarXE

2

)()(

• 為了方便討論,我們假設每一個樣本的樣本數相同,即 n1= n2=n3=…=nk 。

• 如果虛擬假設為真 H0: u1=u2=…= uk ,則KXXX 21, 會有相同的機率分配。

Page 49: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 49

Mean Square Between

1

)(1

2

2

K

XX

S

K

jj

X j

因為每一個個別樣本皆為獨立樣本,所以我們可以將

我們可以用由各組平均值所組成的 K 個觀察值來估計母體的變異數如下:

KXXX 21, 視為從 ),(~2

jj n

uNX

中抽出 K 個觀察值的隨機樣本

Page 50: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 50

Mean Square Between

• 從這個由樣本平均數所組成的樣本所計算出來的樣本變異數

的不偏估計式為母體變異數 22

jj XXs

jX nj

22 的不偏估計式為 2

jXjsn

11

)(1

2

2

K

SSB

K

xxn

sn

K

jjj

Xj j

稱為 Mean Square Between (MSB)

Page 51: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 51

Mean Square Between

• 數學上我們可以證明:

1

)(

)1

()( 1

2

22

K

uun

K

SSBEsnE

K

jjj

Xj j

Page 52: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 52

Mean Square Between

)1

)(

()1

()( 1

2

2

K

xxn

EK

SSBEsnE

K

jjj

Xj j

))((1

1

1

2

K

jjj xxnE

K

)(1

1

1

22

K

jjj xnxnE

K))()((

1

1

1

22

K

jj xnExEn

K j

Page 53: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 53

Mean Square Between

))()((1

1

1

22

K

jjj xnExEn

K原式

222

)()()( jjj

j XEXEn

XVar

))()((1

1

1

22

22

K

jj

jj n

nn

nK

)(1

1

1

22

1

22

K

j

K

jjj nn

K

Page 54: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 54

Mean Square Between

)(1

1

1

22

1

22

K

j

K

jjj nn

K

)(1

1 2

1

222 nnkK

K

jjj

2

1

2 )(1

1

K

jjjn

k

k

jj

k

jjj

k

jjj

k

jjjj ununuunuuuun

1

2

11

2

1

22 2)2(

un n

Page 55: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 55

Mean Square Between

• 當虛擬假設所有的母體平均數皆相同為真,則 SSB/(K-1) 為母體變異數的不偏估計式

21

2

22

1

)(

)(

K

uun

snE

K

jjj

Xj j

=0

Page 56: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 56

Mean Square Between

21

2

22

1

)(

)(

K

uun

snE

K

jjj

Xj j

> 0

• 當虛擬假設為不真,則 SSB/(K-1) 為母體變異數的偏差估計式,且偏差隨著

的增加而增加2)( uu j

Page 57: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 57

Mean Square Between

• Mean Square Between (MSB):

1

K

SSBMSB

其中分母 K-1 為 MSB 的自由度, MSB又稱為Between-group mean square 或 Mean square due to treatments (MSTR)

Page 58: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 58

ANOVA

• 這兩種方式皆可估計母體的變異數• 當 H0 為真時,

2)( MSWE 2)( MSBE• 當 H0 為不真時,

2)( MSWE1

)(

)( 1

2

2

K

uun

MSBE

K

jjj

因此 MSB 及 MSW 的比率提供我們判斷虛擬假設是否無真的訊息。

Page 59: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 59

Graphical Explanation of ANOVA

1u

2u

3u

u

2

2

)( 321 uuu

pooled

可以個別先計算每一個分配的變異數,然後取加權平均來估計 σ2 也可以將所有資料彙

整後再來估計 σ2

Page 60: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 60

Graphical Explanation of ANOVA

1u

2u

3u

2

2pooled

1u 2u 3u

如果三個母體的平均值不等,則 pooled 資料所估計的母體變異數會大於σ2

如果三個母體的平均值相等,則兩種方式估計的 σ2應該將等

Page 61: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 61

ANOVA test statistic F

• In One-way ANOVA, the test statistics is

MSW

MSBF

如果 H0 為真,分子分母皆為母體變異數的不偏估計式,因此兩者的比率會十分接近 1 。

如果 H0 為不真,則 MSB 會高估母體變異數,F 值會大於 1 。 F愈大, H0愈不可能為真。

如果假設為真,則 F 統計量依循自由度為 (K-1)及 (n-K) 的 F 分配。

Page 62: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 62

F Distribution

• 欲比較兩母體變異數是否相等時,我們可以計算樣本變異數的比值:

22

21

S

S

• 如果比率很接近 1 ,則我們相信母體變異數很有可能一樣,如果此比值很大或很小,則母體變異數相等的機率不高。

• 究竟此比值要多大或多小才能推翻母體變異數相等的虛擬假設?

Page 63: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 63

F Distribution

• 為了回答此問題,我們必須知道 S21/S2

2此一隨機變數的抽樣分配。設有兩常態分配的母體:

),(~ 2111 uNX ),(~ 2

222 uNX

• 且 X1與 X2互相獨立,自 X1, X2中分別取獨立隨機樣本 n1, n2,令:

1

)(

1

2112

1

n

XXS

1

)(

2

2222

2

n

XXS

1,122

22

21

21

21~ nnF

S

S

Page 64: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 64

F Distribution

• 若虛無假設為真,即 σ21=σ2

2,則檢定量為:1,12

222

21

21

21~ nnF

S

S

22

21

S

SF

• 若將變異數較大者視為來自母體 1 ,則統計檢定量的值會大於 1 。此時單尾檢定都是右尾檢定

01,1n, HF21,則拒絕F單尾檢定:若 值 n

Page 65: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 65

F Distribution

0 1 2 3 4 50

0.5

1

1.51.339

0

dF q 25 120( )

dF p 8 12( )

dF r 2 12( )

50 q p r

Page 66: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 66

Performing one-way ANOVA test

假設我們要檢證下列的虛擬假設:KuuuH 210 :

等至少有一組平均數不相:1H

假設 K 母體皆為常態分配且有共同的變異數 σ2

STEP1: 從母體中抽取樣本規模為 n1, n2, …nK 的 K 個樣本。

Knnnn 21

Page 67: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 67

Performing one-way ANOVA test

STEP2: 計算MSW 及 MSB:

1

K

SSBMSB

)( Kn

SSWMSW

STEP3: 計算 F 統計量 :

MSW

MSBF rejectFF KnK 則 如果 ,1

Page 68: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 68

Performing one-way ANOVA test

檢證A B C

18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

CBA uuuH :0

先計算 SSB 及SSW

Page 69: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 69

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

Performing one-way ANOVA test

4.20x 20.1)198.18(

)190.19()196.19(

)0.194.19()0.192.18(

2

22

221

SS

04.1)4.200.20(

)4.204.20()4.208.20(

)4.2021()4.208.19(

2

22

222

SS

80.0)8.216.21(

)8.2122()8.214.22(

)8.218.21()8.212.21(

2

22

223

SS 04.38.004.120.1 SSW

253.0315

04.3

Kn

SSWMSW

Page 70: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 70

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

Performing one-way ANOVA test

4.20x 6.19)4.208.21)(5(

)4.204.20)(5(

)4.200.19)(5(

2

2

2

SSB

8.913

6.19

1

K

SSBMSB

89.3735.38253.

8.912,2,05. F

MSW

MSBF

Page 71: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 71

One-way ANOVA table

Source ofVariation

Sum ofSquares

Degree ofFreedom Mean square F

Between-group SSB K-1 MSB=SSB/(K-1) MSB/MSWWithin-group SSW n-K MSW=SSW/(n-K)Total SST n-1

Source ofVariation

Sum ofSquares

Degree ofFreedom Mean square F

Between-group 19.6 2 9.8 38.735Within-group 3.04 12 0.253Total 22.64 14

Page 72: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 72

A B C D

樣本平均 7.87 7.47 5.1 3.69

樣本ni 62 52 7 13

例題已知 A, B, C, D四組人的平均值及樣本規模如下,假設總變異量為 596.01 ,用 ANOVA 檢定四個母體的平均數相等

17.7134/)69.31314.57

47.75287.762(

X

3415.221)17.747.7(52)17.787.7(62)( 224

1

i

ii XXnSSB

SSWSSBSST 34.22101.596 SSW

Page 73: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 73

The statistical Model of One-Way ANOVA

ijjij euX

jjiij uXe

第 j個population

第 i 個觀察值

第 j 個 population 的平均值

Random Effect隨機誤差項

),0(~ 2NeijAssumption about

Page 74: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 74

The statistical Model of One-Way ANOVA

jj tuu kj ,...,3,2,1母體 j 的平均值可以表為總母體 ( 所有k 個母體 ) 的平均值加上處理效果或因素效果 (treatment effect) 。

uutj jj 個母體的因素效果第

0....: 210 ktttHuuuuH k ....: 210 虛擬假設

等同於如果虛擬假設為真,則處理效果不存在,每一個觀察值等於 u 加上隨機誤差 eij

Page 75: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 75

Derivation of the Sum-of-Squares Identity

ijjijjij etueuX jj tuu

ijjij euX

jijij

jj

uxe

uut

因素效果隨機誤差

kjni ,...2,1;,...2,1

Page 76: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 76

Derivation of the Sum-of-Squares Identity

ijjijjij etueuX

ijjij etuX jijij

jj

uxe

uut

jijjij uxuuuX

jijjij xxxxxx

ux來估計母體均數以樣本的總平均數

jj ujx 母體均數來估計以樣本的均數

Page 77: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 77

Derivation of the Sum-of-Squares Identity

jijjij xxxxxx

jijj

jijjij

xxxx

xxxxxx

2

)( 222

兩邊平方

k

j

n

i

k

j

n

ijijj

k

j

n

iij

j jj

xxxxxx1 1 1 1

22

1 1

2

k

j

n

ijij

j

xx1 1

2

k

j

k

j

n

ijijjj

j

xxxxn1 1 1

22

SSWSSBSST

Page 78: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 78

Equivalence of the t test and one-way ANOVA

• 檢證H 0: u1= u2 vs. H1: u1 u2

• 根據十二章所學的 t 檢定:)-(n)-(nt

nns

xxt

p

11d.f. on,distributi ~11

)(21

21

21

221

222

211

2

nn

xxxx

sii

p

Page 79: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 79

Equivalence of the t test and one-way ANOVA

• 我們也可以用 One-way ANOVA 來作檢定• K=2 時, one-way ANOVA 檢定等於 t 檢定,且 F=t2。

knSSW

kSSB

MSW

MSBF

1

證明

2

12

212

222

11

222

211

nnxxxx

xxnxxn

ii

Page 80: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 80

Equivalence of the t test and one-way ANOVA

21

2

2212

11 nns

xxt

p

2

221

21

21

ps

xx

nn

nn

Page 81: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 81

Equivalence of the t test and one-way ANOVA

• 為了證明 F=t2,我們必須用到下列等式

21

2211

nn

xnxnx

21

221111 nn

xnxnxxx

21

1212 nn

xxnxx

21

212

nn

xxn

21

22111211 )(

nn

xnxnxnxn

21

2121 nn

xxnxx

Page 82: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 82

Equivalence of the t test and one-way ANOVA

• 將剛剛證明的等式代入

221

21

21

221

212

212

221

221

)(

)(

)()(

xxnn

nn

nn

xxnnxxnnSSB

222

211 )()( xxnxxnSSB

21

2121 nn

xxnxx

21

1212 nn

xxnxx

Page 83: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 83

Equivalence of the t test and one-way ANOVA

2

21

222

211

2

)()(p

ii Snn

xxxx

)2/(2 21

21

nnSSWnn

SSWMSW

221

21

21 )( xxnn

nnSSB

22

1t

S

SSB

knSSW

kSSB

MSW

MSBF

p

Page 84: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 84

例題

• Test H0: u1 = u2

10,33 8,30 21,21 222

21121 sxsxnn

給定下列條件

分別用 t-test 及 ANOVA 來檢定

940

)10)(20()8)(20(

2

)1()1(

2

)()(

21

222

211

21

222

2112

nn

snsn

nn

xxxxS ii

p

240.321/921/9

3330

)/1/1( 212

21

nnS

xxt

p

Page 85: Analysis of Variance  變異數分析

©蘇國賢 2004社會統計(上) Page 85

例題

5.109

1/])5.3133)(21()5.3130)(21[(

2

12

1/

22

212

222

11

222

211

nnxxxx

xxnxxn

KnSSW

KSSB

MSW

MSBF

ii

5.3142

)33)(21()30)(21(

21

2211

nn

xnxnX