Upload
mandelina-jorgensen
View
15
Download
0
Embed Size (px)
DESCRIPTION
第七章. 抽樣與抽樣分配. 機率抽樣. 機率抽樣之定義 : 在完整定義的母體中 , 每一個個體都有一個不為零的中選機會 。 非機率抽樣 : 凡不屬於這個定義的範圍. 抽樣分配 樣本統計量為隨機樣本的函數,而隨機樣本是由 n 個隨機變數 所組成的,故樣本統計量亦為一隨機變數,其機率分配稱為抽樣分配。. 抽樣誤差 抽樣誤差是樣本統計量與相對應的母體參數間的差異。此種差異來自抽樣過程的機遇 (chance) ,抽樣方法及推論方法的不同。. 非抽樣誤差 非抽樣誤差主要來自調查時的執行與事後在記錄、整理資料時所發生的錯誤。. - PowerPoint PPT Presentation
Citation preview
第七章
抽樣與抽樣分配
機率抽樣
機率抽樣之定義 : 在完整定義的母體中 , 每一個個體都有一個不為零的中選機會。 非機率抽樣 : 凡不屬於這個定義的範圍
抽樣分配樣本統計量為隨機樣本的函數,而隨機樣本是由 n個隨機變數 所組成的,故樣本統計量亦為一隨機變數,其機率分配稱為抽樣分配。
),,( 21 nXXX
抽樣誤差抽樣誤差是樣本統計量與相對應的母體參數間的差異。此種差異來自抽樣過程的機遇 (chance) ,抽樣方法及推論方法的不同。
非抽樣誤差
非抽樣誤差主要來自調查時的執行與事後在記錄、整理資料時所發生的錯誤。
常見的非抽樣誤差 -Kish (1965) , Cochran (1977), 韋端 (199
0)
偶遇樣本 (Haphazard Sample) or 便利抽樣 (Convenient Sample): 即碰到誰就選誰 , 研究者並不在乎調查對象是否有代表性 . 立意選樣 (Purposive Sampling) or 判斷抽樣 (Judgment Sampling) : 經由專家主觀判斷 , 立意選定研究者認為 [ 有代表性 ] 的樣本來觀察 . 樣本無法確認具代表性 --- 是否為專家 ?? 自願樣本 (Volunteer Subjects): 聽任自動送上門來的人組成樣本群 . 無量的代表性 , 但有質的代表性
配額選樣 (quota sampling):
一母體的人口特徵按比例分配樣本數 ,在配額之內進行非機率抽樣 ,調查對象依照特徵分類 ,根據各類別的百分比每類立意選樣至而滿為止 . 雪球抽樣 (snowballed sample)
先找到原始受訪者 ,然後再從受訪者所提供的資訊找到其他受訪者 .
隨機數表1 2 3 4 5 6 7 8 9 10
1 6824 7709 3937 3289 9545 0620 3904 5203 6590 8769
2 0237 7574 8607 1502 4776 0944 4946 1519 4834 2810
3 1336 8960 2192 7132 9267 4262 6070 7664 7690 3873
4 6840 3016 3991 8582 1813 0012 3781 8635 0286 3932
5 5577 7452 9477 7942 7328 0822 7876 6379 9014 6845
6 3495 3500 9497 8688 7764 0017 1221 5816 8840 8573
7 5163 5127 5955 7826 0982 3563 7783 1575 7738 9146
8 3746 5767 5137 3846 9113 3394 5172 3745 2574 5275
9 0596 6736 4273 7665 8229 6933 6510 0093 4091 4567
10 6553 4267 4071 3532 0593 3874 5368 5295 6303 2629
抽樣的結果 : 用來估計母體的某些特徵值Ex :輪胎公司製造新的輪胎,實驗抽出 120 個測式結
果 χ=36,500 哩,用來當作新輪胎的哩程壽命
機率性的抽樣方法,可用評估方法來評量其優良度
簡單隨機抽樣
分層抽樣
叢式抽樣
系統抽樣
便利抽樣
判斷抽樣
抽樣方法
簡單隨機抽樣:抽取程序完全視母體大小為有限或無限
有限母體
從 N中,抽出一樣本 n的簡單隨機樣本,其 抽取方法必須滿足在 n中,每一樣本被抽出機率皆相同。Ex :利用“標籤”從 2500 主管中,抽出 30個樣本,另可用 “隨機數表”。※
CN:
n
利用隨機數表抽取樣本
6 3 2 7 1 5 9 9 8 6
每個數字 6,3,2,7,1 ,都由 0~9 隨機選取,具有相同發生的機率,五個字一組是為方便查詢與閱讀。
Ex :資料名單、組織成員名冊、學生註冊名單、信用卡帳戶
、存貨數目
隨機抽樣
無限母體:元素無法進行編號,必從滿足 1. 每個元素皆抽自相同母體 2. 每個元素皆可獨立抽出 (ex :顧客抽出特優待卷,不會影響 )
Ex :持續不斷的程序:車流量、可能達成的顧客人數、銀行交易、 CD製造。
分層抽樣方法-比例抽樣
第一層 第二層 第K層
樣 本
n 1 n kn 2
分層隨機抽樣 母體先被區隔成數群,相性質放在一層中,
即層內元素相異性較低。母體
資料層 1 資料層 2 資料層 N‧‧‧‧‧
再抽出一元素來代表
若層內同質性高,則層內變異減少,只要“少量”的抽樣即可代表整層的性質
分層隨機抽樣的優點 : 層內的資料一致而集中,標準差越小,則抽樣誤差也越小 .
Ex: 以台灣地區民眾為調查母體的抽樣設計 ,常見分層依據 台北市、高雄市、台灣省 5 個省轄市各為一層 . 從抽樣的理論來看 , 能有效降低推論的誤差 . 以推論次母體 ( 各縣市或公私立學校 ) 可使抽樣調查目的易於達成 . 有關工商業界或各行各業的抽樣調查更需要分層 .
集群抽樣法
第一部落
母 體
第K部落
第二部落
樣 本 隨 機 抽 取
叢式抽樣 一叢體內的元素都是相異性質,所以一叢體都可代表整個母體。Ex:地區抽樣:將地理區分成 n個叢體,訪問者可在同一地區訪問,成本降低,時間減少。 (利用增加樣本來補其缺失 )
母體
叢體 1 叢體 2 叢體 N‧‧‧‧‧
直接隨機抽出一叢體
系統抽樣法
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ...k (k+1) (k+2) ...N
樣 本
母 體
186 12
系統抽樣 (等距抽樣 ) 先把全體總數 N除以樣本數 ,得到 K, 即每間隔 K個抽一個 .
Ex :從 5000 個元素的母體中,抽出 50個樣本 -以 100 為單位 先從第一個 100 元素中,隨機抽出一元素,再從另一個 100 個元素中,抽出第二個元素。
※比簡單隨機抽機容易,不必對照隨機數表
等距抽樣的中選樣本不但可以自動反應母體代表性 ,亦可降低抽樣誤差 . 在大部分母體清冊都電腦化後 ,等距抽樣成為主流趨勢 .
等距抽樣的優點 :
快速方便 , 所以用的多 . 不需要 N 與 k .
Ex:以百貨公司顧客、汽車乘客或球場觀眾為對象 ,若決定每 30人抽一人 ,即能馬上進行而不必事先知道全體有多少人 ? 或樣本要多少等 .
等距抽樣的缺點 :最怕遇到週期性資料 , 若此週期和 K 成比例 , 則樣本會死守規則 , 完全失去代表性 . Ex: 每 7天查一次帳 ,結果永遠查到一星期內的同一天 , 後果必然不堪設想 .
分段抽樣法
樣本
母 體
部落抽樣或分層抽樣
部落抽樣或分層抽樣
便利抽樣 非機率性的抽樣方法,其樣本隨其抽樣的方便而 決定。
判斷抽樣 非機率性的抽樣方法,其樣本隨測試者的判斷而 定。
σχ 可用來計算 μ 與 χ 的距離,因為 σχ 扮演著 (errors) 誤差角色,且被視為平均的標準差。
中央極限定理: 有平均數 μ 和標準差 σ 之母體抽出樣本大小為 n 的簡單隨機樣本,當樣本大小 n 夠大時, χ的抽樣分配將趨近常態分配。
n 30≧ , χ 的抽樣分配趨近常態分配。
※ 當母體是常態分配,則不管樣本的個數,其 χ
的抽樣分配亦是常態分配。
母體分配 : 母體資料的機率分配。
樣分平均數的抽樣分配,,其機率分配為設母體為隨機變數 )(xfX
個元素為一組取若自母體中簡單隨機抽 n
n
i
in n
XXXXX
121 ,),,, ,若令樣本,表為(
,分配表為為樣本平均數。其機率則 )(xfX
分配。稱為樣本平均數的抽樣
隨機變數:一個試驗結果的數值化描述,以抽樣的過程 當成試驗, χ 為此一試驗結果的數值化。 -樣本平均數 χ 是一隨機變數。
利用樣本平均數 χ 來推估母體平均 μ 是常見的統計方法
在重覆這樣的過程,可以得不同的 χ ,而所有可能的 χ所現成的機率分配稱 χ 的抽樣分配。
母體 μ =?
用 χ 推算μ ?
用樣本資料計算樣本平均數 χ
從母體抽取 n 個簡單隨機樣本
樣本平均數的平均數與變異數
的平均數與變異數X
異數抽樣分配的平均數與變X
的平均數與變異數。以稱為X
分或及或符號 2 )()( XVXEXX
別表示。
χ 的期望值: E (χ)=μ 母體平均數
χ 的標準差: 有限母體 無限母體
σχ
= √ N-nN-1 √ n
σ( ) √ n
σσ
χ=
有限母體校正因數
當母體有限,且 > 0.05
nN
當母體無限或 ≦ 0.05nN
樣本比例的抽樣分配
大樣本
小樣本
母體無限
母體有限
母體無限
母體有限
母體為一點二項分配E X p( ) V X pq( )
~ ( , )p N ppq
n
p ( ,ppq
n N-1N-n )
~ ( ,p N ppq
n N-1N-n )
p ( , )ppq
n
~超幾何分配
~二項分配
p ,nq>5n >5
的抽樣分配樣 本 母 體 分 配 抽 樣 分 配
大 樣 本 )30( n
母 體 為 常 態 分 配 X N
n~ ( , )
2
母 體 非 常 態 分 配
X Nn
~ ( , ) 2
小 樣 本
)30( n
母 體 為 常 態 分 配 X N
n~ ( , )
2
母 體 非 常 態 分 配 的分配決定於母體分配X
註 : 若 母 體 為 有 限 母 體 , 且n
N 0 0 5. , 則 V X
n
N n
N( )
2
1。
若 母 體 為 有 限 母 體 , 且 n N/ . 0 0 5 , 則 X 不 一 定 為 常 態 分
配 , 因 ( , , )X X n1 不 獨 立 。
X
母體為常態分配但變異數未知
t 分配 ( 小樣本)自常態母體 X~N 隨機抽取樣本 ,則統計量
為自由度 n-1的 t 分配。
2
),( 2),,( 21 nXXX
nS
Xt
/
Ex: 假設 df=9 ,求 k 值 p(-k<t<k)=0.9
Sol: (-k,k) 之機率為 0.9
故在 k 以左與右的機率為 0.1
亦即在 k 以右的機率為 0.05
當 df=9 ,查表 pg719 可得 t0.05 = 1.833
機率抽樣法簡單隨機抽樣 : 抽取樣本時,若所有可能抽出的樣本被抽出的機率均相等。
樣本平均數的平均數與變異數母體抽樣分配的平均數等於X 平均數,即
X
XE )(
樣本平均數的平均數與變異數
)(
)( 2
X
X
標準差
與變異數無限母體樣本平均數的
nXV
X
22 )(
nX
本平均數的變異數有限母體抽出不放回樣
)()( 2XX
與標準差
1)(
22
N
nN
nXV
X
1)(
N
nN
nXV
X
樣本平均數抽樣分配的形狀
常態母體的抽樣分配若母體為常態分配,平均數為,標準差為 ,則不論樣本數為何,樣本平均數 的抽樣分配亦為常態分配,其平均數和標準差分別為:
X
nXX
,
母體比例與樣本比例
母體比例 NKp /類別的個數。:母體中:母體個體, AKN
n
X
n
kp
n
ii
1
樣本比例的平均數
ppEp
)(
樣本比例的變異數與標準差
•無限母體
n
pqpV
p
2)(
n
pqpp
2
樣本比例的變異數與標準差有限母體
1)( 2
N
nN
n
pqpV
p
1
N
nN
n
pqp
樣本比例p的標準差
母體比例p=?
用p值來來推算p值
用樣本資料計算樣本比例p值
從母體抽出 n 個簡單隨機樣本
σp
= √ N-nN-1 √P(1-
P) n‧ σ
p= √ P(1-P)
n
有限母體
>0.05 時,加上校正因子
無限母體
當 ≦ 0.05 時,即母體夠大而樣本夠小時,有無校正因子並無太大差別
N
n N
n
樣本比例 ( p ) 的抽樣型態 若樣本夠大,則p的抽樣分配趨近常態機率分配。
即當 np 5≧ , n(1-p) 5≧ 時,樣本數可認定足夠形成大樣本。
圖 8.1 等待看牙時間 (母體 )
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
候診時間
相對次數
0 10 20 30 40 50 60 x
圖 8.2 等待看牙時間 (樣本 1) 圖 8.3 等待看牙時間(樣本 2)
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
候診時間
相對次數
0 10 20 30 40 50 600
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
候診時間
相對次數
0 10 20 30 40 50 60
估計誤差
估計誤差
樣本統計量 母體參數
抽樣誤差
樣本數
推論方法
抽樣方法
資料整理
時的疏失
非抽樣誤差
資料搜集成本與抽樣誤差的關係
¼ Ë¥ »¼ Æ
¦ ¨¥ »
³ ̤ p¦ ¨¥ »
³ ̾ A¼ Ë¥ »¼ Æ
E
0
» ¶̀ °¼ Ë¥ »¦ ¥̈ »
© â¼ Ë» ~® t¦ ¥̈ »
© â¼ ËÁ ¦̀ ¥̈ »
()
展示小姐的月薪的次數分配
x f
22 1
25 2
28 1
30 1
N 5
展示小姐月薪的母體機率分配
x f x( )
2 2 1 5 0 2/ .
2 5 2 5 0 4/ .
2 8 1 5 0 2/ .
3 0 1 5 0 2/ .
f x( ) 1
展示小姐月薪的母體機率分配
0
0.1
0.2
0.3
0.4
0.5
22 25 28 30 x
μ ﹦26; σ2﹦7.6
f (x )
//
樣本平均數的抽樣分配
::
抽樣
母體
N
1=
n
=
n
n
n
2=
C
S
S
S
2
Cn
所有可能樣本 所有樣本平均數
:1
n
x
x
:1
n
x
x
:1
n
x
x
xx
x x
x x
樣本平均數的機率分配
x f x( )
x 1 1 / C nN
x 2 1 / C nN
xC n
N
1 / C n
N
X 的 平 均 數 與 變 異 數 E X V X( ) , ( )
展示接待小姐月薪的抽樣
母 體
A = 22 B = 25C = 25D = 28E = 30
(ABC) (ABD)(ABE) (ACD)(ACE) (ADE)(BCD) (BCE)(BDE) (CDE)
樣本空間
定義:樣本組的平均數
3
X X1 2 X3
X
X
展示小姐月薪的樣本平均數
樣 本 樣 本 平 均 數 x( ) ( , , )A B C 2 2 2 5 2 5 2 4 . 0 0
( ) ( , , )A B D 2 2 2 5 2 8 2 5 . 0 0
( ) ( , , )A B E 2 2 2 5 3 0 2 5 . 6 7( ) ( , , )A C D 2 2 2 5 2 8 2 5 . 0 0( ) ( , , )A C E 2 2 2 5 3 0 2 5 . 6 7( ) ( , , )A D E 2 2 2 8 3 0 2 6 . 6 7( ) ( , , )B C D 2 5 2 5 2 8 2 6 . 0 0( ) ( , , )B C E 2 5 2 5 3 0 2 6 . 6 7
( ) ( , , )B D E 2 5 2 8 3 0 2 7 . 6 7( ) ( , , )C D E 2 5 2 8 3 0 2 7 . 6 7
展示小姐的月薪的抽樣分配
x f x( )
2 4 . 0 0 1 1 0 0 1 0/ .2 5 . 0 0 2 1 0 0 2 0/ .2 5 . 6 7 2 1 0 0 2 0/ .2 6 . 0 0 1 1 0 0 1 0/ .2 6 . 6 7 2 1 0 0 2 0/ .2 7 . 6 7 2 1 0 0 2 0/ .
f x( ) . 1 0 0
展示小姐的月薪抽樣分配圖
0
0.1
0.2
0.3
24.00 25.00 25.67 26.00 26.67 27.67 x
£ g¡ â26; £ m2 ¡ â1.373
f (x )
x x_ _
_
_//
抽樣誤差: 不管 χ 、 μ , χ-μ 為抽樣誤差
0.7888
0.5036
51300 51800 52300χ
n=30, σχ= 730.30
n=100 下, σχ
= 400
當樣本數增加,標準誤差減少, χ 的抽樣分配將有較低的變異,使得樣本平均數落於母體平均數之特定範圍內之機率增加。
樣本比例p:(N :母體個數, k :母體中,某個類別的個數 )
樣本比例p的抽樣分配: 所有樣本比例p值的機率分配
E=( p )= p 即隨機變數p的期望值 = 母體比例
Σχii=1
n
n
估計誤差
2624.66
© â ¼ Ë » ~ ® t« D© â¼ Ë» ~® t
25
中央極限定理 母體分配 母體分配
x x
中央極限定理(續) 抽樣分配 抽樣分配
n =5
x
n =5
x
n =10
x
n =10
x
中央極限定理(續) 抽樣分配 抽樣分配
n =30
x
n =30
x
n =50
x
n =50
x
.
u
營業額的抽樣分配
P0
z
x
f x( )
18,000 26,000
0
房屋價格的機率
0
f x( )
機率0
x x 900
z
850
-6.58
點二項分配
0
0.2
0.4
0.6
0.8
1
0 x
f x( )
1
贊成興建巨蛋球場比例的機率
P =0.1151
1.2 z0
p
f p( )
5.2
0.5 0.6 .p 0 47