第七章

第七章

抽樣與抽樣分配

機率抽樣

機率抽樣之定義 : 在完整定義的母體中 , 每一個個體都有一個不為零的中選機會。非機率抽樣 : 凡不屬於這個定義的範圍

抽樣分配樣本統計量為隨機樣本的函數，而隨機樣本是由 n個隨機變數　　　　　所組成的，故樣本統計量亦為一隨機變數，其機率分配稱為抽樣分配。

),,( 21 nXXX

抽樣誤差抽樣誤差是樣本統計量與相對應的母體參數間的差異。此種差異來自抽樣過程的機遇 (chance) ，抽樣方法及推論方法的不同。

非抽樣誤差

非抽樣誤差主要來自調查時的執行與事後在記錄、整理資料時所發生的錯誤。

常見的非抽樣誤差 -Kish (1965) , Cochran (1977), 韋端 (199

0)

偶遇樣本 (Haphazard Sample) or 便利抽樣 (Convenient Sample): 即碰到誰就選誰 , 研究者並不在乎調查對象是否有代表性 . 立意選樣 (Purposive Sampling) or 判斷抽樣 (Judgment Sampling) : 經由專家主觀判斷 , 立意選定研究者認為 [ 有代表性 ] 的樣本來觀察 . 樣本無法確認具代表性 --- 是否為專家 ?? 自願樣本 (Volunteer Subjects): 聽任自動送上門來的人組成樣本群 . 無量的代表性 , 但有質的代表性

配額選樣 (quota sampling):

一母體的人口特徵按比例分配樣本數 ,在配額之內進行非機率抽樣 ,調查對象依照特徵分類 ,根據各類別的百分比每類立意選樣至而滿為止 . 雪球抽樣 (snowballed sample)

先找到原始受訪者 ,然後再從受訪者所提供的資訊找到其他受訪者 .

隨機數表1 2 3 4 5 6 7 8 9 10

1 6824 7709 3937 3289 9545 0620 3904 5203 6590 8769

2 0237 7574 8607 1502 4776 0944 4946 1519 4834 2810

3 1336 8960 2192 7132 9267 4262 6070 7664 7690 3873

4 6840 3016 3991 8582 1813 0012 3781 8635 0286 3932

5 5577 7452 9477 7942 7328 0822 7876 6379 9014 6845

6 3495 3500 9497 8688 7764 0017 1221 5816 8840 8573

7 5163 5127 5955 7826 0982 3563 7783 1575 7738 9146

8 3746 5767 5137 3846 9113 3394 5172 3745 2574 5275

9 0596 6736 4273 7665 8229 6933 6510 0093 4091 4567

10 6553 4267 4071 3532 0593 3874 5368 5295 6303 2629

抽樣的結果 : 用來估計母體的某些特徵值Ex ：輪胎公司製造新的輪胎，實驗抽出 120 個測式結

果 χ=36,500 哩，用來當作新輪胎的哩程壽命

機率性的抽樣方法，可用評估方法來評量其優良度

簡單隨機抽樣

分層抽樣

叢式抽樣

系統抽樣

便利抽樣

判斷抽樣

抽樣方法

簡單隨機抽樣：抽取程序完全視母體大小為有限或無限

有限母體

從 N中，抽出一樣本 n的簡單隨機樣本，其抽取方法必須滿足在 n中，每一樣本被抽出機率皆相同。Ex ：利用“標籤”從 2500 主管中，抽出 30個樣本，另可用 “隨機數表”。※

ＣN：

n

利用隨機數表抽取樣本

6 3 2 7 1 5 9 9 8 6

每個數字 6,3,2,7,1 ，都由 0~9 隨機選取，具有相同發生的機率，五個字一組是為方便查詢與閱讀。

Ex ：資料名單、組織成員名冊、學生註冊名單、信用卡帳戶

、存貨數目

隨機抽樣

無限母體：元素無法進行編號，必從滿足 1. 每個元素皆抽自相同母體 2. 每個元素皆可獨立抽出 (ex ：顧客抽出特優待卷，不會影響 )

Ex ：持續不斷的程序：車流量、可能達成的顧客人數、銀行交易、 CD製造。

分層抽樣方法－比例抽樣

第一層第二層第Ｋ層

樣本

n 1 n kn 2

分層隨機抽樣母體先被區隔成數群，相性質放在一層中，

即層內元素相異性較低。母體

資料層 1 資料層 2 資料層 N‧‧‧‧‧

再抽出一元素來代表

若層內同質性高，則層內變異減少，只要“少量”的抽樣即可代表整層的性質

分層隨機抽樣的優點 : 層內的資料一致而集中，標準差越小，則抽樣誤差也越小 .

Ex: 以台灣地區民眾為調查母體的抽樣設計 ,常見分層依據台北市、高雄市、台灣省 5 個省轄市各為一層 . 從抽樣的理論來看 , 能有效降低推論的誤差 . 以推論次母體 ( 各縣市或公私立學校 ) 可使抽樣調查目的易於達成 . 有關工商業界或各行各業的抽樣調查更需要分層 .

集群抽樣法

第一部落

母體

第Ｋ部落

第二部落

樣本隨機抽取

叢式抽樣一叢體內的元素都是相異性質，所以一叢體都可代表整個母體。Ex：地區抽樣：將地理區分成 n個叢體，訪問者可在同一地區訪問，成本降低，時間減少。 (利用增加樣本來補其缺失 )

母體

叢體 1 叢體 2 叢體 N‧‧‧‧‧

直接隨機抽出一叢體

系統抽樣法

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ...k (k+1) (k+2) ...N

樣本

母體

186 12

系統抽樣 (等距抽樣 ) 先把全體總數 N除以樣本數 ,得到 K, 即每間隔 K個抽一個 .

Ex ：從 5000 個元素的母體中，抽出 50個樣本　　－以 100 為單位先從第一個 100 元素中，隨機抽出一元素，再從另一個 100 個元素中，抽出第二個元素。

※比簡單隨機抽機容易，不必對照隨機數表

等距抽樣的中選樣本不但可以自動反應母體代表性 ,亦可降低抽樣誤差 . 在大部分母體清冊都電腦化後 ,等距抽樣成為主流趨勢 .

等距抽樣的優點 :

快速方便 , 所以用的多 . 不需要 N 與 k .

Ex:以百貨公司顧客、汽車乘客或球場觀眾為對象 ,若決定每 30人抽一人 ,即能馬上進行而不必事先知道全體有多少人 ? 或樣本要多少等 .

等距抽樣的缺點 :最怕遇到週期性資料 , 若此週期和 K 成比例 , 則樣本會死守規則 , 完全失去代表性 . Ex: 每 7天查一次帳 ,結果永遠查到一星期內的同一天 , 後果必然不堪設想 .

分段抽樣法

樣本

母體

部落抽樣或分層抽樣

部落抽樣或分層抽樣

便利抽樣　　非機率性的抽樣方法，其樣本隨其抽樣的方便而　　決定。

判斷抽樣　　非機率性的抽樣方法，其樣本隨測試者的判斷而　　定。

σχ 可用來計算 μ 與 χ 的距離，因為 σχ 扮演著 (errors) 誤差角色，且被視為平均的標準差。

中央極限定理：有平均數 μ 和標準差 σ 之母體抽出樣本大小為 n 的簡單隨機樣本，當樣本大小 n 夠大時， χ的抽樣分配將趨近常態分配。

n 30≧ ， χ 的抽樣分配趨近常態分配。

※ 當母體是常態分配，則不管樣本的個數，其 χ

的抽樣分配亦是常態分配。

母體分配 : 母體資料的機率分配。

樣分平均數的抽樣分配，，其機率分配為設母體為隨機變數 )(xfX

個元素為一組取若自母體中簡單隨機抽 n

n

i

in n

XXXXX

121 ,),,, ，若令樣本，表為（

，分配表為為樣本平均數。其機率則 )(xfX

分配。稱為樣本平均數的抽樣

隨機變數：一個試驗結果的數值化描述，以抽樣的過程　　　　　　　當成試驗， χ 為此一試驗結果的數值化。　　　　　　　－樣本平均數 χ 是一隨機變數。

利用樣本平均數 χ 來推估母體平均 μ 是常見的統計方法

在重覆這樣的過程，可以得不同的 χ ，而所有可能的 χ所現成的機率分配稱 χ 的抽樣分配。

母體 μ ＝？

用 χ 推算μ ？

用樣本資料計算樣本平均數 χ

從母體抽取 n 個簡單隨機樣本

樣本平均數的平均數與變異數

的平均數與變異數X

異數抽樣分配的平均數與變X

的平均數與變異數。以稱為X

分或及或符號２ )()( XVXEXX

別表示。

χ 的期望值：　　Ｅ (χ)=μ 母體平均數

χ 的標準差：有限母體無限母體

σχ

＝ √ N-nN-1 √ n

σ（） √ n

σσ

χ＝

有限母體校正因數

當母體有限，且　　＞ 0.05

nN

當母體無限或 ≦ 0.05nN

樣本比例的抽樣分配

大樣本

小樣本

母體無限

母體有限

母體無限

母體有限

母體為一點二項分配E X p( ) V X pq( )

~ ( , )p N ppq

n

p ( ,ppq

n N-1N-n )

~ ( ,p N ppq

n N-1N-n )

p ( , )ppq

n

~超幾何分配

~二項分配

p ,nq>5n >5

的抽樣分配樣本母體分配抽樣分配

大樣本 )30( n

母體為常態分配 X N

n~ ( , )

2

母體非常態分配

X Nn

~ ( , ) 2

小樣本

)30( n

母體為常態分配 X N

n~ ( , )

2

母體非常態分配的分配決定於母體分配X

註：若母體為有限母體，且n

N 0 0 5. ，則 V X

n

N n

N( )

2

1。

若母體為有限母體，且 n N/ . 0 0 5 ，則 X 不一定為常態分

配，因 ( , , )X X n1 不獨立。

X

母體為常態分配但變異數未知

t 分配 ( 小樣本）自常態母體 X~N 　　　隨機抽取樣本　　　　　，則統計量

為自由度 n-1的 t 分配。

2

),( 2),,( 21 nXXX

nS

Xt

/

Ex: 假設 df=9 ，求 k 值 p(-k<t<k)=0.9

Sol: (-k,k) 之機率為 0.9

故在 k 以左與右的機率為 0.1

亦即在 k 以右的機率為 0.05

　當 df=9 ，查表 pg719 可得 t0.05 ＝ 1.833　　　

機率抽樣法簡單隨機抽樣 : 抽取樣本時，若所有可能抽出的樣本被抽出的機率均相等。

樣本平均數的平均數與變異數母體抽樣分配的平均數等於X 平均數，即

X

XE )(

樣本平均數的平均數與變異數

)(

)( 2

X

X

標準差

與變異數無限母體樣本平均數的

nXV

X

22 )(

nX

本平均數的變異數有限母體抽出不放回樣

)()( 2XX

與標準差

1)(

22

N

nN

nXV

X

1)(

N

nN

nXV

X

樣本平均數抽樣分配的形狀

常態母體的抽樣分配若母體為常態分配，平均數為，標準差為，則不論樣本數為何，樣本平均數　的抽樣分配亦為常態分配，其平均數和標準差分別為：

X

nXX

，

母體比例與樣本比例

母體比例 NKp /類別的個數。：母體中：母體個體， AKN

n

X

n

kp

n

ii

1

樣本比例的平均數

ppEp

)(

樣本比例的變異數與標準差

•無限母體

n

pqpV

p

2)(

n

pqpp

2

樣本比例的變異數與標準差有限母體

1)( 2

N

nN

n

pqpV

p

1

N

nN

n

pqp

樣本比例ｐ的標準差

母體比例ｐ＝？

用ｐ值來來推算ｐ值

用樣本資料計算樣本比例ｐ值

從母體抽出 n 個簡單隨機樣本

σｐ

＝ √ N-nN-1 √P(1-

P) n‧ σ

ｐ＝ √ P(1-P)

n

有限母體

>0.05 時，加上校正因子

無限母體

當 ≦ 0.05 時，即母體夠大而樣本夠小時，有無校正因子並無太大差別

N

n N

n

樣本比例 ( ｐ ) 的抽樣型態若樣本夠大，則ｐ的抽樣分配趨近常態機率分配。

即當 np 5≧ ， n(1-p) 5≧ 時，樣本數可認定足夠形成大樣本。

圖 8.1 等待看牙時間 (母體 )

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

候診時間

相對次數

0 10 20 30 40 50 60 x

圖 8.2 等待看牙時間 (樣本 1) 圖 8.3 等待看牙時間(樣本 2)

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

候診時間

相對次數

0 10 20 30 40 50 600

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

候診時間

相對次數

0 10 20 30 40 50 60

估計誤差

估計誤差

樣本統計量母體參數

抽樣誤差

樣本數

推論方法

抽樣方法

資料整理

時的疏失

非抽樣誤差

資料搜集成本與抽樣誤差的關係

¼ Ë¥ »¼ Æ

¦ ¨¥ »

³ Ì¤ p¦ ¨¥ »

³ Ì¾ A¼ Ë¥ »¼ Æ

E

0

» ¶̀ °¼ Ë¥ »¦ ¥̈ »

© â¼ Ë» ~® t¦ ¥̈ »

© â¼ ËÁ ¦̀ ¥̈ »

()

展示小姐的月薪的次數分配

x f

22 1

25 2

28 1

30 1

N 5

展示小姐月薪的母體機率分配

x f x( )

2 2 1 5 0 2/ .

2 5 2 5 0 4/ .

2 8 1 5 0 2/ .

3 0 1 5 0 2/ .

f x( ) 1

展示小姐月薪的母體機率分配

0

0.1

0.2

0.3

0.4

0.5

22 25 28 30 x

μ ﹦26; σ2﹦7.6

f (x )

//

樣本平均數的抽樣分配

::

抽樣

母體

N

1=

n

=

n

n

n

2=

C

S

S

S

2

Cn

所有可能樣本所有樣本平均數

:1

n

x

x

:1

n

x

x

:1

n

x

x

xx

x x

x x

樣本平均數的機率分配

x f x( )

x 1 1 / C nN

x 2 1 / C nN

xC n

N

1 / C n

N

X 的平均數與變異數 E X V X( ) , ( )

展示接待小姐月薪的抽樣

母體

A = 22 B = 25C = 25D = 28E = 30

(ABC) (ABD)(ABE) (ACD)(ACE) (ADE)(BCD) (BCE)(BDE) (CDE)

樣本空間

定義:樣本組的平均數

3

X X1 2 X3

X

X

展示小姐月薪的樣本平均數

樣本樣本平均數 x( ) ( , , )A B C 2 2 2 5 2 5 2 4 . 0 0

( ) ( , , )A B D 2 2 2 5 2 8 2 5 . 0 0

( ) ( , , )A B E 2 2 2 5 3 0 2 5 . 6 7( ) ( , , )A C D 2 2 2 5 2 8 2 5 . 0 0( ) ( , , )A C E 2 2 2 5 3 0 2 5 . 6 7( ) ( , , )A D E 2 2 2 8 3 0 2 6 . 6 7( ) ( , , )B C D 2 5 2 5 2 8 2 6 . 0 0( ) ( , , )B C E 2 5 2 5 3 0 2 6 . 6 7

( ) ( , , )B D E 2 5 2 8 3 0 2 7 . 6 7( ) ( , , )C D E 2 5 2 8 3 0 2 7 . 6 7

展示小姐的月薪的抽樣分配

x f x( )

2 4 . 0 0 1 1 0 0 1 0/ .2 5 . 0 0 2 1 0 0 2 0/ .2 5 . 6 7 2 1 0 0 2 0/ .2 6 . 0 0 1 1 0 0 1 0/ .2 6 . 6 7 2 1 0 0 2 0/ .2 7 . 6 7 2 1 0 0 2 0/ .

f x( ) . 1 0 0

展示小姐的月薪抽樣分配圖

0

0.1

0.2

0.3

24.00 25.00 25.67 26.00 26.67 27.67 x

£ g¡ â26; £ m2 ¡ â1.373

f (x )

x x_ _

_

_//

抽樣誤差：不管 χ 、 μ ， χ-μ 為抽樣誤差

0.7888

0.5036

51300 51800 52300χ

n=30, σχ＝ 730.30

n=100 下， σχ

＝ 400

當樣本數增加，標準誤差減少， χ 的抽樣分配將有較低的變異，使得樣本平均數落於母體平均數之特定範圍內之機率增加。

樣本比例ｐ：(N ：母體個數， k ：母體中，某個類別的個數 )

樣本比例ｐ的抽樣分配：所有樣本比例ｐ值的機率分配

E=( ｐ )= ｐ即隨機變數ｐ的期望值 = 母體比例

Σχii=1

n

n

估計誤差

2624.66

© â ¼ Ë » ~ ® t« D© â¼ Ë» ~® t

25

中央極限定理母體分配母體分配

x x

中央極限定理（續）抽樣分配抽樣分配

n =5

x

n =5

x

n =10

x

n =10

x

中央極限定理（續）抽樣分配抽樣分配

n =30

x

n =30

x

n =50

x

n =50

x

.

u

營業額的抽樣分配

P0

z

x

f x( )

18,000 26,000

0

房屋價格的機率

0

f x( )

機率0

x x 900

z

850

-6.58

點二項分配

0

0.2

0.4

0.6

0.8

1

0 x

f x( )

1

贊成興建巨蛋球場比例的機率

P =0.1151

1.2 z0

p

f p( )

5.2

0.5 0.6 .p 0 47

Documents

第七章