Upload
kristina-lonna
View
37
Download
3
Embed Size (px)
DESCRIPTION
第 8 章. 區間估計. 前言. 研究者想知道電池的使用壽命,抽樣若干個電池,發現壽命的平均數為 50 小時。母體的平均數會是多少?會是介於哪段區間? 研究者關心初生男嬰體重的變異數,隨機抽樣若干位初生男嬰,得體重的變異數為 40000 公克,母體變異數會介於哪段區間內? 以上這些研究問題,都在探討母體某個參數倒底介於哪段區間內,這就是所謂的區間估計。. 第一節 平均數的區間估計 ( 1 ). 因為抽樣變動的關係,即使再優良的統計量,也無法保證能夠精準的猜中母體參數。 例如進行兩次抽樣調查,這兩次的樣本平均數通常不會相等。因此不如用一段區間來猜測母體平均數。. - PowerPoint PPT Presentation
Citation preview
第 8 章 區間估計
前言• 研究者想知道電池的使用壽命,抽樣若干個電池,發現壽命的平均數為 50 小時。母體的平均數會是多少?會是介於哪段區間?
• 研究者關心初生男嬰體重的變異數,隨機抽樣若干位初生男嬰,得體重的變異數為 40000 公克,母體變異數會介於哪段區間內?
• 以上這些研究問題,都在探討母體某個參數倒底介於哪段區間內,這就是所謂的區間估計。
第一節 平均數的區間估計( 1 )
• 因為抽樣變動的關係,即使再優良的統計量,也無法保證能夠精準的猜中母體參數。
• 例如進行兩次抽樣調查,這兩次的樣本平均數通常不會相等。因此不如用一段區間來猜測母體平均數。
第一節 平均數的區間估計( 2 )
• 區間的大小可分為 90% , 95% , 99% 信賴區間或信賴界線。所謂 95% 信賴區間,以拿平均數來說,每抽一次樣本,就利用某種公式,算得其 95% 的信賴區間,如此重複很多次,在這些信賴區間裡,將會有 95% 包括母體的平均數。
• 在 100 次中有 95 次會包含母體平均數,也就有 5 次沒有包括母體平均數。這稱為顯著水準,就是 1 減去信賴水準。若以 95% 信賴水準而言,顯著水準就是 5% 。通常用表示顯著水準。
第一節 平均數的區間估計( 3 )
• 區間估計的方法視抽樣方法而定。抽樣分法分為放回法抽樣和不放回法抽樣。放回法抽樣指的是每抽一個樣本,還放回去,再抽下一個樣本。不放回法則一旦抽到就不放回去母體, 因此不會重複抽到。
• 現實上的抽樣調查都是不放回法。如果母體很大,樣本數相對於母體的比率很小,這兩種抽樣方法並無差異。如果母體不大,且樣本數佔母體的比率很大,那麼就要採用不同的區間估計方法。
第一節 平均數的區間估計( 4 )
• 區間估計方法除了因為抽樣方法不同而不同外,也要視母體的變異數是否已知而而定,因此可以分為四種區間估計的情境:
• 1. 放回法且母體變異數已知• 2. 不放回法且母體變異數已知• 3. 放回法且母體變異數未知• 4. 不放回法且母體變異數未知
第一節 平均數的區間估計( 5 )
• 放回法抽樣且母體變異數已知• 從常態分佈的母體中,抽出樣本求其平均數。這個平均數的抽樣分佈會是常態分佈。如果母體不是常態分佈,平均數的抽樣分佈就不是常態分佈。
• 根據中央極限定理:當樣本數趨近於無限大,平均數的抽樣分佈會逼近常態分佈,平均數就是母體的平均數,變異數是母體變異數除以樣本數:
• nnNX ,/,~ 2
第一節 平均數的區間估計( 6 )
• 統計量的變異數稱為變異誤( error variance )。變異誤開跟號,稱為標準誤( standard error )。
• 以樣本平均數而言,變異誤為 ,標準誤為 。
• 如果樣本數夠大,就認定樣本平均數的抽樣分佈會接近常態分佈:
n/2n/2
nNX /,~ 2
第一節 平均數的區間估計( 7 )
• 因此 是標準常態 Z 分佈,所以
介於 -z/2和 z/2的機率為 1-:n
X2
n
X2
nzX
nzXP
nzX
nzP
zn
XzP
22
22
22
21
第一節 平均數的區間估計( 8 )
並不是變數,因此介於某兩個值中間的機率不是 1 就是 0 。所以不可以用機率的觀點來解釋上述的公式,而要用:信心( confidence )。
• 從已知變異數中採放回抽樣法抽出樣本數 n ,得樣本平均數 ,母體平均數的( 1-) 100% 信賴區間是:
nzx
nzx
22
x
第一節 平均數的區間估計( 8 )
• 從已知變異數中採放回抽樣法抽出樣本數 n ,得樣本平均數 ,母體平均數的( 1-) 100% 信賴區間是:
不是變數,所以要用信心( confidence )來解釋。所謂 95% 信心指的是如果進行抽樣調查,利用公式( 8.3 )計算母體平均數 95% 的信賴區間,重複這個過程非常多次。將會有 95% 的信賴區間包含。
nzx
nzx
22
x
第一節 平均數的區間估計( 9 )
• 例子 1• 某廠牌手機電池的待機時數近似常態分佈,變異數為 100 。現隨機抽取 25 個電池,檢查其待機時數,得到平均數為 50 。試求母體平均數的 95% 信賴區間。
• 作法• 母體平均數的 95% 信賴區間為:
92.5308.4625
1096.150
25
1096.150
第一節 平均數的區間估計( 10 )
• 樣本數過大過小均不當。• 在( 1- ) 100% 信心,用樣本平均數估計母體平均數的誤差 e 在 之內。 即
• 在( 1-) 100% 的信心,若樣本數• 樣本平均數去估計母體平均數的誤差在 e 之內。
nz
2 22 / ezn
22 / ezn
第一節 平均數的區間估計( 11 )
• 例子 2• 如果希望有 95% 的信心,利用估計,誤差不會超過 3 小時,則需要多大的樣本數?
• 作法 •
7.423
1096.12
n
第一節 平均數的區間估計( 11 )
• 不放回法抽樣且母體變異數已知• 有限母體( finite population )
• 母體平均數的( 1-) 100% 信賴區間是
1
,~2
N
nN
nNX
11 2/2/
N
nN
nzx
N
nN
nzx
第一節 平均數的區間估計( 12 )
• 有限母體校正因子• 通常進行抽樣調查時,母體 N 都非常的大,且樣本數 n 相對於母體是非常的小,因此即使用不放回法的抽樣,仍可用公式( 8.3 )計算信賴區間。
1
N
nN
第一節 平均數的區間估計( 13 )
• 例子 3• 某公司想瞭解員工每天上網的時間,該公司員工共 50 位,抽樣記錄了 10 位員工,結果發現平均數為 60 分鐘。已知上網時間近似常態分佈,標準差為 20 。求母體平均數的 90% 信賴區間。
第一節 平均數的區間估計( 14 )
• 作法 • 樣本數 10 佔母體數 50 的比例高達 1/5
4.696.50
150
1050
10
20645.160
150
1050
10
20645.160
第一節 平均數的區間估計( 15 )
• 在( 1- ) 100% 的信心下,用樣本平均數估計母體平均數的誤差 之內。
• 整理後得
12
N
nN
nze
222
2
222
)1(
zeN
Nzn
第一節 平均數的區間估計( 16 )
• 例子 4• 承上題,如果希望在 90% 的信心下,誤差不超過 5 分鐘,則必須抽樣多少人?
• 作法
• 如果樣本數為 24 ,在 90% 的信心下,誤差不超過 5 分鐘。
5.2320645.1549
20645.150222
22
n
第一節 平均數的區間估計( 17 )
• 放回法抽樣且母體變異數未知 • 現實的中通常不知道母體的變異數是多少,只好用樣本變異數來取代。
• 此時,即使母體是常態分佈,樣本平均數的抽樣分佈,也不再是常態分佈,而是自由度 n-1的 t 分佈。
第一節 平均數的區間估計( 18 )
• 變數 U 和變數 Z互為獨立,且 U 為自由度為的卡方分佈, Z 是標準常態分佈, 就是自由度為的 t 分佈。
• 由於 是 Z 分佈, 為自由度 n-1 的卡方分佈,則
• 是自由度為 n – 1 的 t 分佈。
UZX /
n
X2
2
21
Sn
nS
X
nSn
nX
2
2
2
2
)1(1
)(
第一節 平均數的區間估計( 19 )
• 當母體不是常態分佈,只要樣本數夠大,那麼樣本平均數的抽樣分佈也會非常接近 t 分佈。
• 如果母體既不是常態分佈,且樣本數又少,那麼對母體平均數的估計就變得十分不穩定。
第一節 平均數的區間估計( 20 )
• 令 X1 ,, Xn 來自常態分佈,但其變異數未
知,則 是自由度為 n - 1
的 t 分佈。• 介於 -t/2和 t/2的機率為 1-。即:
nS
XT
2
nS
XT
2
n
StX
n
StXP
n
StX
n
StPt
nS
XtP
22
2222
21
第一節 平均數的區間估計( 21 )
• 母體平均數的( 1-) 100% 信賴區間是:
• 例子 5• 抽取 400 位滿 6歲整女童,得身高平均數 110c
m ,樣本變異數 100 ,求 6歲女童身高的平均數的 95% 信賴區間。已知 6歲女童身高呈常態分佈。
n
stx
n
stx 22
400
10966.1110
400
10966.1110
第一節 平均數的區間估計( 22 )
• 不放回法抽樣且母體變異數未知• 限母體校正因子 • 當採用不放回法,且母體變異數未知的情況下,母體平均數的( 1-) 100% 信賴區間是
1
N
nN
N
nN
n
stx
N
nN
n
stx
22
第一節 平均數的區間估計( 23 )
• 例子 6• 某縣市教育局抽樣調查其縣內 30 所幼稚園的土地面積,發現平均數為 250 平方公尺,變異數為 1600 。求該縣內幼稚園土地面積平均數的 90% 信賴區間。已知該縣內所有 100 所幼稚園的土地面積呈常態分佈。
第一節 平均數的區間估計( 24 )
• 作法• 已知 N = 100, n = 30, = 250 , s = 40 ,自由度 2
9 的 = 1.699 ,則
100
30100
30
40699.1250
100
30100
30
40699.1250
第二節 兩平均數差異區間估計 (1)
• 男生與女生的智商平均數差異有多大?經過一段時間的實驗教學之後,實驗班和正常組的學業成績的平均數差異多大。在減肥課程訓練之前,量一下體重,經過一段時間的訓練之後,再量體重,兩個體重平均數是否有差異。
• 以上所面臨的問題就是兩個母體平均數的差異。可用兩個樣本的平均數的差異當作兩母體平均數差異的點估計。
• 同樣的,必須理解該點估計(統計量)的抽樣分佈,才能進行區間估計。
第二節 兩平均數差異區間估計 (2)
• 母體變異數已知• 若有兩個獨立的常態分佈母體,其平均數分別為 1和 2,變異數為 和 ,則
• 如果不是常態母體時,基於中央極限定理,只要兩個樣本數均很大,公式亦可成立。
2
22
1
21
2121 ,~nn
NXX
21 2
2
第二節 兩平均數差異區間估計 (3)
• 會是標準常態分佈。
2
22
1
21
2121 -
nn
XXZ
2
22
1
21
221212
22
1
21
221
22
22
1
21
21212
- -
/ -1
nnzXX
nnzXXP
znn
XXzP
第二節 兩平均數差異區間估計 (4)
1 - 2的( 1 - ) 100% 的信賴區間:
• 如果採不放回抽樣,• •
2
22
1
21
221212
22
1
21
221 - -nn
zxxnn
zxx
11
-
11 -
2
22
2
22
1
11
1
21
221
212
22
2
22
1
11
1
21
221
N
nN
nN
nN
nzxx
N
nN
nN
nN
nzxx
第二節 兩平均數差異區間估計 (5)
• 例子 7• 某研究者想瞭解喝啤酒對注意力的影響,他隨機分派各 50人至實驗組和控制組中。實驗組要喝一瓶啤酒,控制組則喝一瓶開水。然後測試他們的注意力,總分 0至 100 分,分數越高表示注意力越好。如果依照過去的經驗,喝啤酒或喝白開水的人的注意力的變異數都是 25 。現得到實驗組的平均數為 55 ,控制組為 58 。求實驗組與控制組的平均數差異的 95% 信賴區間。
第二節 兩平均數差異區間估計 (6)
• 作法• 在此母體數幾近無限大,又由於樣本數(各 5
0 )很大,因此基於中央極限定理,得
50
25
50
2596.1)5855(
50
25
50
2596.1)5855( 21
第二節 兩平均數差異區間估計 (7)
• 母體變異數未知:大樣本 • 雖然母體變異數未知,但如果兩個母體是常態分佈,且樣本數 n1 和 n2 夠大(如均大於 25 ),仍可用 Z 分佈。
2
22
1
21
221212
22
1
21
221 - -n
s
n
szxx
n
s
n
szxx
第二節 兩平均數差異區間估計 (8)
• 如果採不放回抽樣,且樣本數佔母體數的比例不小,則需考慮有限母體校正因子:
2
22
2
22
1
11
1
21
221
212
22
2
22
1
11
1
21
221
-
-
N
nN
n
s
N
nN
n
szxx
N
nN
n
s
N
nN
n
szxx
第二節 兩平均數差異區間估計 (9)
• 例子 8• 承例子 7 ,如果喝啤酒或喝白開水的人的注意力的母體變異數都未知,而樣本變異數分別為40 和 20 ,求實驗組與控制組的平均數差異的95% 信賴區間。
• 作法
50
20
50
4096.1)5855(
50
20
50
4096.1)5855( 21
第二節 兩平均數差異區間估計 (10)
• 母體變異數未知但相等:小樣本• 當兩母體是常態分佈,樣本數很小,若可以假設兩母體的變異數和雖未知但卻相等,那麼
• 是自由度 n1+n
2-2 的 t 分佈
• 稱為合併的變異數
2
2
1
2
2121 -
n
S
n
S
XXT
pp
2
11
21
222
2112
nn
SnSnS p
第二節 兩平均數差異區間估計 (11)
2
2
1
2
221212
2
1
2
221
2
2
2
1
2
21212
- -
-1
n
S
n
StXX
n
S
n
StXXP
t
n
S
n
S
XXtP
pppp
pp
第二節 兩平均數差異區間估計 (12)
1 - 2的( 1-) 100% 的信賴區間就是:
• 不放回抽樣且樣本數佔母體數的比例不小
2
2
1
2
221212
2
1
2
221 - -n
s
n
stxx
n
s
n
stxx pppp
2
22
2
2
1
11
1
2
221
212
22
2
2
1
11
1
2
221
-
-
N
nN
n
s
N
nN
n
stxx
N
nN
n
s
N
nN
n
stxx
pp
pp
第二節 兩平均數差異區間估計 (13)
• 例子 9• 在一項關於速讀訓練的實驗中,研究者隨機分派各 5 位受試者到實驗組(接受速讀訓練課程)和控制組(只接受和速讀無關的一些活動),為期 10 小時後,測其速讀成績,得實驗組和控制組的樣本平均數分別為 70 和 60 ,樣本變異數分別為 100 和 50 ,求實驗組與控制組的平均數差異的 95% 信賴區間。已知實驗組和控制組的速讀成績均呈常態分佈,且變異數相等。
第二節 兩平均數差異區間估計 (14)
• 合併的變異數為
• 由於這段區間( -2.63, 22.63 )包含了 0 ,因此實驗組的母體平均數有可能等於控制組的平均數。
75255
50410042
pS
5
75
5
75306.2)6070(
5
75
5
75306.2)6070( 21
第二節 兩平均數差異區間估計 (15)
• 母體變異數未知且不等:小樣本• 如果常態分佈母體的變異數未知,而且也不相等,當小樣本時,
• 並不是 t 分佈,只是近似 t 分佈,且自由度為:
2
22
1
21
2121 -
n
S
n
S
XXT
11 2
22
221
21
21
22
221
21
nnsnns
nsnsv
第二節 兩平均數差異區間估計 (16)
1 - 2的( 1-) 100% 的信賴區間:
• 不放回抽樣,且樣本數佔母體數的比例不小:
2
22
1
21
221212
22
1
21
221 - -n
s
n
stxx
n
s
n
stxx
2
22
2
22
1
11
1
21
221
212
22
2
22
1
11
1
21
221
-
-
N
nN
n
s
N
nN
n
stxx
N
nN
n
s
N
nN
n
stxx
第二節 兩平均數差異區間估計 (17)
• 例子 10• 承例子 9 ,如果我們懷疑兩常態母體的變異數並不相等,求實驗組與控制組的平均數差異的95% 信賴區間。
• 作法
2.7
15550155100
550510022
2
v
5
50
5
100365.2)6070(
5
50
5
100365.2)6070( 21
第二節 兩平均數差異區間估計 (18)
• 如果是大樣本,可以比較不關心兩母體是否為常態分佈,因為可以仰賴中央極限定理。
• 如果是小樣本,兩母體就必須是常態分佈。萬一兩母體不是常態分佈,樣本數又很小,並不適合用此處的區間估計方式,應該改用無母數( non-parametric )統計方式。
第二節 兩平均數差異區間估計 (19)
• 成對觀測值的平均數差異 • 如果兩個樣本是成對地發生,那麼這兩個樣本必定有關連,而非兩個獨立樣本。這種成對觀測值(又稱相依樣本, paired samples or dependent samples )平均數差異的區間估計和上述兩獨立樣本有所不同。
第二節 兩平均數差異區間估計 (20)
• 將每一對的數值相減,稱為 d1,, dn,這些差異均可視為來自隨機樣本 D1 ,, Dn 的值。而這些隨機樣本是從平均數 D = 1 - 2,和變異數 的常態分佈母體抽樣而來。
• 用 取代 ,
• 是自由度為 n-1 的 t 分佈。
2D
2D2
DS
nS
DT
D
D
2
第二節 兩平均數差異區間估計 (21)
D的( 1-) 100% 的信賴區間
n
StD
n
StDP
tnS
DtP
DD
D
D
D
22
22
21
n
std
n
std D
DD
2
2
2
2
第二節 兩平均數差異區間估計 (22)
• 採不放回抽樣,且樣本數佔母體數的比例不小
N
nN
n
std
N
nN
n
std D
DD
2
2
2
2
第二節 兩平均數差異區間估計 (23)
• 例子 11• 研究者關心夫妻的智力會有多大的差異,他隨機抽取了 10 對夫妻。估計夫妻間智力平均數差異的 95% 信賴區間。
編號 1 2 3 4 5 6 7 8 9 10 平均數
標準差
夫 120 110 95 100 105 100 125 90 85 95 102.50 12.75 妻 125 115 90 120 115 95 115 100 80 80 103.50 16.67 夫 - 妻
-5 -5 5 -20 -10 5 10 -10 5 15 -1.00 9.72
第二節 兩平均數差異區間估計 (24)
• 作法• 要估計夫妻間智力差異,可先計算每對夫和妻的差異,然後
10
72.926.21
10
72.926.21 D
第三節 變異數的區間估計 (1)
• 一母體變異數• 是自由度為 n - 1 的卡方分佈,
2的 (1 –)100% 的信賴區間
2
21
Sn
212
22
22
2
22
2
2
212
11
11
SnSnP
SnP
21
2
22
22
2 11
snsn
第三節 變異數的區間估計 (2)
• 例子 12• 研究者關心初生男嬰體重的變異數,他隨機抽樣 25 位初生男嬰,得體重的樣本變異數為 40000 公克,求母體變異數的 95% 信賴區間。假設初生男嬰體重呈常態分佈。又如果當初是隨機抽樣 100 位, 1000 位,結果會如何?
第三節 變異數的區間估計 (3)
• 作法 • n = 25 :
• n = 100 :
• n = 1000 :
• 樣本數要非常大,才能準確的估計母體變異數。
40.12
40000125
36.39
40000125 2
36.73
400001100
42.128
400001100 2
30.913
4000011000
49.1088
4000011000 2
第三節 變異數的區間估計 (4)• 兩母體變異數的比• 若變數 U 和變數 V 是互為獨立,且均有著卡方分佈,其自由度是 1和 2,則 為 F 分佈。
• 和 是兩個獨立的卡方
變數,其自由度分別為 n1 - 1 和 n2 - 2 ,則
•
是 F 分佈
2
1
V
UX
21
211 1
Sn
22
222 1
Sn
2
222
21
21
222
222
121
211
11
11
S
S
nSn
nSnX
第三節 變異數的區間估計 (5)
• 的( 1 - ) 100% 的信賴區間:
2122
21
22
21
222
21
222
22
21
21
21
11
1
FS
S
FS
SP
FS
SFP
22
21
2122
21
22
21
222
21 11
Fs
s
Fs
s
第三節 變異數的區間估計 (6)
• 例子 13• 研究者隨機分派學童至兩種教學情境,啟發法
30人,傳統法 28人。啟發法的樣本變異數為400 ,演講法的樣本變異數為 100 。求兩種方法母體變異數比值的 95% 信賴區間。
• 作法
47.0
1
100
400
14.2
1
100
40022
21
第四節 比率的區間估計 (1)
• 一母體比率• 若是否同意為白努力事件,則樣本中同意人數
Y 為二項式分佈。若樣本數 n 趨近無限大,二項分佈趨近常態分佈(平均數為 n ,變異數為 n(1-) )。如果 n 和 n(1-) 都大於 5 ,就可以使用常態分佈來代替二項分佈。
第四節 比率的區間估計 (2)• Y 的平均數是 n ,變異數是 n(1-) 。 Y/n 的平均數為,變異數為 (1-)/n 。所以
• 服從 Z 分佈,
因此 •
n
nYZ
/1
/
22/1
/1
z
n
nYzP
第四節 比率的區間估計 (3)• 整理後得
• 如果樣本數很大,則可使用 p代替:
nzp
nzpP
11
1 22
n
ppzp
n
ppzpP
111 22
第四節 比率的區間估計 (4)• 如果樣本數不大,且很接近 1 或 0 時,並不宜用樣本百分比 p 來代替。
• 此時 (1-)100% 的信賴區間是:
• 若 n 很大 , , , 會很小。
nz
nznppznzp
/1
4//12/2
2
2222
22
nz 2/22nz /2
222
2 4/ nz
第四節 比率的區間估計 (5)
• 例子 14• 某機構調查了 100 位民眾對興建核電廠的態度,結果發現有 4成的人表示支持, 5成的人表示反對, 1成的人沒意見。求母體中支持比率的95% 信賴區間。若當初樣本數為 1000 ,結果如何?
第四節 比率的區間估計 (6)
• 作法 • n = 100 :
• n = 1000 :100
6.04.096.14.0
100
6.04.096.14.0
1000
6.04.096.14.0
1000
6.04.096.14.0
第四節 比率的區間估計 (7)• 母體比率的( 1-) 100% 信賴區間為
• 有( 1- ) 100% 的信心用 p 估計的誤差 e 不超過
n
ppzp
12
n
ppze
12
2
22 1
e
ppzn
第四節 比率的區間估計 (8)• 要計算樣本數 n ,必須先得知 z/2, e , p 。 z
/2為已知,若以 95% 的信心,則 z/2等於 1.96 。e 也已知,因為這是既定的標準,例如 0.03 。可是在未抽樣調查前,卻無法知道 p 。
• 1. 依照過去的文獻和研究,來猜測。• 2. 先進行小規模抽樣調查,計算其 p 。• 3. 用最保守的估計。因為當 p = 0.5 時, n 會最大,因此就用 p = 0.5帶入,求得 n= 1067 。
第四節 比率的區間估計 (9)• 兩獨立母體的比率差 • 若有兩獨立樣本,如果 n1和 n2夠大, p1和 p2趨近常態分佈,平均數分別為母體比率 1和 2,變異數為
1 (1-1)/n1和 2 (1-2)/n2。
• 服從 Z 分佈
2
22
1
112121
11,~
nnNpp
222111
2121
11 nn
ppZ
第四節 比率的區間估計 (10)
•
1- 2的( 1 -) 100% 的信賴區間為:
2
222111
21212
111
z
nn
ppzP
2
22
1
112/21
11
nnzpp
2
22
1
112/21
11
n
pp
n
ppzpp
第四節 比率的區間估計 (11)
• 例子 15• 研究者調查了 1000 位大學生關於「二分之一學分不及格就得退學的態度」,其中男生 550人,女生 450人。結果發現有 200 位男生和 200 位女生贊成。求男女母體支持比率差異的 95% 信賴區間。
第四節 比率的區間估計 (12)
• 作法• 男性贊成的比率為 0.36 ( = 200/550 ),女性贊成的比率為 0.44 ( = 200/450 )。
450
56.044.0
550
64.036.096.144.036.0