124
©Ming-chi Chen 社社社社 Page.1 社社社社 社社社 社社社社

社會統計

Embed Size (px)

DESCRIPTION

社會統計. 第二講 描述統計. 如何描述一組為數眾多的數值?. 開學第一堂課填答問卷的同學其身高如下: 160 、 168 、 169 、 160 、 171 、 181 、 169 、 170 、 163 、 170 、 168 、 180 、 175 、 162 、 160 、 175 、 172 、 161 、 161 、 155 、 153 、 163 、 161 、 160 、 178 共 25 位同學。 請問我們怎麼從中看出什麼意義?. 以枝葉圖表示. 以直方圖表示. 你看出了什麼?. 分配的形狀 集中於何處?平均在哪裡? 分散有多廣? *. - PowerPoint PPT Presentation

Citation preview

Page 1: 社會統計

©Ming-chi Chen 社會統計 Page.1

社會統計

第二講描述統計

Page 2: 社會統計

©Ming-chi Chen 社會統計 Page.2

如何描述一組為數眾多的數值?• 開學第一堂課填答問卷的同學其身高如下: 160 、 1

68 、 169 、 160 、 171 、 181 、 169 、 170 、 163 、 170 、 168 、 180 、 175 、 162 、 160 、 175 、172 、 161 、 161 、 155 、 153 、 163 、 161 、 160 、 178 共 25 位同學。

• 請問我們怎麼從中看出什麼意義?

Page 3: 社會統計

©Ming-chi Chen 社會統計 Page.3

以枝葉圖表示15 3

15 5

16 0000111233

16 8899

17 0012

17 558

18 01

Page 4: 社會統計

©Ming-chi Chen 社會統計 Page.4

以直方圖表示

社會統計同學身高

024681012

<155

<160

<165

<170

<175

<180

>=180

身高

次數 頻率

Page 5: 社會統計

©Ming-chi Chen 社會統計 Page.5

你看出了什麼?• 分配的形狀• 集中於何處?平均在哪裡?• 分散有多廣?

Page 6: 社會統計

©Ming-chi Chen 社會統計 Page.6

Summation Notation 基本運算複習

N

iix

1Nxxxx 321

Page 7: 社會統計

©Ming-chi Chen 社會統計 Page.7

基本運算複習

)(1

i

N

ii yx

)()(

11

N

ii

N

ii yx

x y x+y

2 3 53 4 74 6 102 2 41 1 212 16 28

12+16=28

Page 8: 社會統計

©Ming-chi Chen 社會統計 Page.8

基本運算複習

)(1

N

iixc )( 21 Ncxcxcx

)( 21 Nxxxc

N

iixc

1

Page 9: 社會統計

©Ming-chi Chen 社會統計 Page.9

基本運算複習

N

i

c1

cN

timesN

cccc

Page 10: 社會統計

©Ming-chi Chen 社會統計 Page.10

基本運算複習

N

i

c1

)(1

N

ii cx

N

iix

1

cnxN

ii

1

Page 11: 社會統計

©Ming-chi Chen 社會統計 Page.11

基本運算複習

2

1

)(

N

iix 2

1

)(

N

iix是否等於

2

1

)(

N

iix

2

1

)(

N

iix

Page 12: 社會統計

©Ming-chi Chen 社會統計 Page.12

基本運算複習

2

1

)(

N

ii cx )2(

1

22

N

iii ccxx

N

iii ncxcx

1

22 2

Page 13: 社會統計

©Ming-chi Chen 社會統計 Page.13

母體平均數 population mean

N

x

N

xxxu iN

21

大 N通常代表母體的個數

Page 14: 社會統計

©Ming-chi Chen 社會統計 Page.14

樣本平均數 sample mean

n

x

n

xxxx iN

21

小 n通常代表母體的個數

Page 15: 社會統計

©Ming-chi Chen 社會統計 Page.15

次數分配 (frequency distribution)

• 次數分配表呈顯落在各個不同組( class )裡面觀察到的數量,在第 i 組裡的次數稱為組次數,以 fi來表示。

Page 16: 社會統計

©Ming-chi Chen 社會統計 Page.16

次數分配 (frequency distribution)

• 社會變遷基本調查資料中,每一名受訪者皆被要求提供月薪資訊:

• 第一位受訪者 月薪 2.4 萬• 第二位受訪者 月薪 4.5 萬……..• 第 1813 位受訪者月薪 5.2 萬• 此時我們可以透過次數分配表來整理資料,以便瞭解台灣地區民眾收入的分佈情形。

Page 17: 社會統計

©Ming-chi Chen 社會統計 Page.17

次數分配 (frequency distribution)

Class組數 class boundary組界class frequency

組次數(f i )

1 B0 ~ B1 f 1

2 B1 ~ B2 f 2

3 f 3

4

k Bk-1~Bk f k

下組界 Lower limit

上組界 Upper limit

Width of class 組距 = Bk- Bk-

1

組中點 =(Bk+Bk-1)/2

Page 18: 社會統計

©Ming-chi Chen 社會統計 Page.18

次數分配 (frequency distribution)您現在這個工作,每個月月入多少元?

組數 組界組次數

Frequency百分比Percent

累積百分比Cumulative Percent

1 1萬元以下 88 4.85 4.852 1-2萬元 330 18.20 23.063 2-3萬元 430 23.72 46.774 3-4萬元 341 18.81 65.585 4-5萬元 239 13.18 78.766 5-6萬元 163 8.99 87.767 6-7萬元 71 3.92 91.678 7-8萬元 43 2.37 94.049 8-9萬元 18 0.99 95.04

10 9-10萬元 25 1.38 96.4111 10-11萬元 22 1.21 97.6312 19-20萬元 28 1.54 99.1713 20萬元以上 15 0.83 100.00

Total 1813 100

組上界 = 2萬組下界 = 1萬組寬 = 1萬

組中點 = 1.5 萬

Page 19: 社會統計

©Ming-chi Chen 社會統計 Page.19

選擇組界的兩個原則 (two rules for selecting classes)

• 互斥性 mutually exclusive :各組的組界不得重疊,即每有任何一個觀察值可以被同時分類至不同的兩個組中。– 一般以「不含組上界值」為規範,如組上界為 2萬,僅將 2 萬元以下的觀察值歸入該組, 2 萬元整及以上的觀察值歸入下一組。

• 周延性 Exhaustive :所有的觀察值皆能被歸入某一組中。

Page 20: 社會統計

©Ming-chi Chen 社會統計 Page.20

分組的其他原則• 究竟要分幾組才恰當?• 視情況而定,一般以 5-20 組為原則。• 或者可採用下列公式及算組數:• 組數= 1 + 3.322 ×log(n 樣本數 )• 組寬要多大?• 最好能設等距的組寬,但如果部分觀察值的分佈情形非常集中,另一部份非常分散,則有時候會採用不等距的分組方式。

Page 21: 社會統計

©Ming-chi Chen 社會統計 Page.21

分組的其他原則• 組界的選擇• 最好能夠選擇組的上下界,使組中點接近該組觀察值的平均數。因為我們在計算全體總平均時,會以組中點來代表該組的平均值,因此組中點越接近該組的平均值,估計的總平均數會越準確。

Page 22: 社會統計

©Ming-chi Chen 社會統計 Page.22

分組的其他原則

100 元 200元

50 元 150 元

Midpoint

Midpoint

Page 23: 社會統計

©Ming-chi Chen 社會統計 Page.23

Relative Frequency Distributions相對次數

• 相對次數為第 i 組的次數,佔全體的比率。

(母體數)組的次數)(第或

(樣本數)組的次數)(第

N

if

n

if ii

Page 24: 社會統計

©Ming-chi Chen 社會統計 Page.24

相對次數 (Relative frequency)您現在這個工作,每個月月入多少元?

組數 組界組次數

Frequency百分比Percent

累積百分比Cumulative Percent

1 1萬元以下 88 4.85 4.852 1-2萬元 330 18.20 23.063 2-3萬元 430 23.72 46.774 3-4萬元 341 18.81 65.585 4-5萬元 239 13.18 78.766 5-6萬元 163 8.99 87.767 6-7萬元 71 3.92 91.678 7-8萬元 43 2.37 94.049 8-9萬元 18 0.99 95.04

10 9-10萬元 25 1.38 96.4111 10-11萬元 22 1.21 97.6312 19-20萬元 28 1.54 99.1713 20萬元以上 15 0.83 100.00

Total 1813 100

第二組的相對次數為 :330/1813 = 0.182

Page 25: 社會統計

©Ming-chi Chen 社會統計 Page.25

Frequency Histogram 直方圖

88

330

430

341

239

163

0

100

200

300

400

500

1萬元以下 1-2萬元 2-3萬元 3-4萬元 4-5萬元 5-6萬元

組次數

Page 26: 社會統計

©Ming-chi Chen 社會統計 Page.26

相對次數直方圖• 與直方圖相同,為其縱軸改以相對次數表達

組相對次數 0.049

0.182

0.237

0.188

0.132

0.090

0.000

0.050

0.100

0.150

0.200

0.250

1萬元以下 1-2萬元 2-3萬元 3-4萬元 4-5萬元 5-6萬元

Page 27: 社會統計

©Ming-chi Chen 社會統計 Page.27

分組資料的算數平均數

為觀察值其中 iii x

n

xfx ,

x i f i x i × f i

3 34 1024 13 525 24 1206 32 192

103 466

ii xf

n103

466

n

xfx ii

Page 28: 社會統計

©Ming-chi Chen 社會統計 Page.28

連續性資料的算數平均數

為組次數為組中點,其中 iiii fm

n

mfx ,

103

5.517

n

fmx ii

組下界 組上界 f i 組中點m i m i × f i

3 4 34 3.5 1194 5 13 4.5 58.55 6 24 5.5 1326 7 32 6.5 208

103 517.5

Page 29: 社會統計

©Ming-chi Chen 社會統計 Page.29

算數平均數• 各個觀察值與平均數差的總和為 0

n

ii xx

1

0)(

n

iii xmf

1

0)(

xnxn

xx

xnxxx

ii

n

iii

1

證明

Page 30: 社會統計

©Ming-chi Chen 社會統計 Page.30

算數平均數

• 各個觀察值與平均數差的平方和為最小為任意數其中 )()(

1

2

1

2

n

ii

n

ii xxx

)]()[()(1

22n

iii xxxx

)()(2 )()( 22 xxxxxx ii

等於 0大於等於 0

常數

Page 31: 社會統計

©Ming-chi Chen 社會統計 Page.31

算數平均數• 設 x1, x2, x3, …xn 之算數平均數為 x-bar

bxybxy ii 若

bxaybxay ii 若

Page 32: 社會統計

©Ming-chi Chen 社會統計 Page.32

算數平均數

Name Income Raise New income

A 3 0.5 3.5

B 4 0.5 4.5

C 5 0.5 5.5

D 3 0.5 3.5

E 4 0.5 4.5

Average 3.8 4.3

每位員工皆加薪 5000 元

Page 33: 社會統計

©Ming-chi Chen 社會統計 Page.33

算數平均數

Name Income Raise New income

A 3 1.05 3.15

B 4 1.05 4.2

C 5 1.05 5.25

D 3 1.05 3.15

E 4 1.05 4.2

Average 3.8 3.99

每位員工皆加薪 5%

Page 34: 社會統計

©Ming-chi Chen 社會統計 Page.34

算數平均數• 平均值容易受到極端值的影響,若資料中有過大或過小的觀察值時,不要以平均值來代表集中趨勢。

Name Income

A 3

B 4

C 5

D 3

E 60

Average 15

Page 35: 社會統計

©Ming-chi Chen 社會統計 Page.35

算數平均數• 分組資料中若有開放式的組界,由於該組的組中點無法決定,因此其平均數亦無法計算。

Name Income f

A 3 ~ 4 23

B 4 ~ 5 12

C 5 ~ 6 34

D 6 ~ 7 12

E 7 以上 32

Average ??

Page 36: 社會統計

©Ming-chi Chen 社會統計 Page.36

Median

•將一組數字由大排至小,位居中間的數值為該組數字的中衛數。一般以 Md來表示

Page 37: 社會統計

©Ming-chi Chen 社會統計 Page.37

Median 中位數• 如果一組數列有奇數個觀察值,則中位數為排序後數列的中間值

• 12 13 14 15 16 17 18 • 如果一組數列有偶數個觀察值,則中位數為排序後數列的中間兩個觀察值的算數平均數

• 12 13 14 15 16 17 18 19 Md = 15.5

Page 38: 社會統計

©Ming-chi Chen 社會統計 Page.38

Median 中位數•未分組資料求中位數:•將 n個數值由小至大排序•決定中位數所在的位置 n/2+1/2 。•若 n 為偶數,則取第 n/2 與第 n/2+1 個之數值的平均數為代表。

Page 39: 社會統計

©Ming-chi Chen 社會統計 Page.39

Median 中位數

• 求下列數值的中位數:• 66 70 71 76 80 84 92• n=7, 所以中位數所在的位置為第 (7+1)/2=4第 4個數值 (76).

• 66 70 71 76 80 84 92 96• n=8, 中位數所在的位置為第( 8+1) /2=4.5 個,取第 n/2(第4個)值與第 n/2+1(第五個)值的平均數

• =(76+80)/2 = 78

Page 40: 社會統計

©Ming-chi Chen 社會統計 Page.40

Median 中位數• 列舉式分組資料求中位數的步驟:1. 將資料由小至大排序。2. 計算累加次數。3. 決定中位數所在的位次 (n+1)/2 。4. 如果中位數的位次剛好在組內,則取該組的

數值 x為中位數。如果位次落在兩組中間,則取兩組的平均值。

Page 41: 社會統計

©Ming-chi Chen 社會統計 Page.41

Median 中位數• 中位數的位次 =94/2+1/2=47.5• Median = 82

分數 人數 累加人數77 6 678 12 1880 15 3382 22 5584 21 7686 16 9290 2 94

Page 42: 社會統計

©Ming-chi Chen 社會統計 Page.42

Median 中位數• 中位數的位次 =94/2+1/2=47.5• Median = (82+84)/2

分數 人數 累加人數77 6 6

78 12 18

80 15 33

82 14 47

84 21 68

86 16 84

90 10 94

Page 43: 社會統計

©Ming-chi Chen 社會統計 Page.43

分組資料中位數的推估• 分組資料(連續資料)求中位數的步驟:1. 計算累加次數。2. 根據中位數所在的位次 n/2+1/2 ,找出中位

數所在的組別。3. 以下列公式求出中位數:

Page 44: 社會統計

©Ming-chi Chen 社會統計 Page.44

分組資料中位數的推估

f

CF

nBmedian iL )

2( 1

iii Fn

i 2FF 1組的累積次數,若第設

為中位組所在組的次數距為中位數所在的組的組

為該組的組下界

f

C

BL

Page 45: 社會統計

©Ming-chi Chen 社會統計 Page.45

分組資料中位數的推估

nfi

Class組數boundary

組界frequency

組次數(f i )

Cumulativefrequency

累積次數1 B0 ~ B1 f 1 F 1

2 B1 ~ B2 f 2 F 2

3 f 3 F 3

4

… F i-1

i fi F i

k Bk-1~Bk f k F k

(1) 先將各組次數加總求出總次數,再用 n/2的公式找到中位數的

Page 46: 社會統計

©Ming-chi Chen 社會統計 Page.46

分組資料中位數的推估

nfi

(2)如果中位數的位次 n/2 介於 Fi-1 與 Fi

之間。(3) 用 C= Bi-Bi-1 求得組距 C則中位數 =

Class組數boundary

組界frequency

組次數(f i )

Cumulativefrequency

累積次數1 B0 ~ B1 f 1 F 1

2 B1 ~ B2 f 2 F 2

3 f 3 F 3

4

… F i-1

i Bi-1~Bi fi F i

k Bk-1~Bk f k F k f

CF

nB ii )

2( 11

Page 47: 社會統計

©Ming-chi Chen 社會統計 Page.47

分組資料中位數的推估

• 這個公式看起來有點複雜,其實很好理解。我們已知第 n/2 的數值落於該組中,我們想要找出最接近第 n/2 的位置的一個推估數值。

f

CF

nB ii )

2( 11

從第 n/2個觀察值到本組的下界之間共有幾個觀察值

組距為 C,組次數為 f,C/f可以看成每個觀察值之間的單位距離

n/2Fi-1

Page 48: 社會統計

©Ming-chi Chen 社會統計 Page.48

分組資料中位數的推估請問你每星期大約工作幾小時?0-10小時 2711-20小時 3521-30小時 5731-40小時 17241-50小時 100151-60小時 25161-70小時 8771-80小時 7181-90小時 5091-100小時 35

1786

請找出台灣地區成年人每週工時的中位數。

Page 49: 社會統計

©Ming-chi Chen 社會統計 Page.49

分組資料中位數的推估

步驟一:先算出累積次數

步驟二:找出中位數所在的組( n/2+1/2) 。

n/2=1786/2=893

請問你每星期大約工作幾小時?f F累積次數0-10小時 27 2711-20小時 35 6221-30小時 57 11931-40小時 172 29141-50小時 1001 129251-60小時 251 154361-70小時 87 163071-80小時 71 170181-90小時 50 175191-100小時 35 1786

1786

Page 50: 社會統計

©Ming-chi Chen 社會統計 Page.50

分組資料中位數的推估

步驟三:將組界調整成為不間斷

步驟四:套入公式求組中位數:

Median = 40.5+ (1786/2 – 291) * (50.5-40.5)/1001 = 46.51

請問你每星期大約工作幾小時?f F累積次數0.5-10.5小時 27 2710.5-20.5小時 35 6220.5-30.5小時 57 11930.5-40.5小時 172 29140.5-50.5小時 1001 129250.5-60.5小時 251 154360.5-70.5小時 87 163070.5-80.5小時 71 170180.5-90.5小時 50 175190.5-100.5小時 35 1786

1786

Page 51: 社會統計

©Ming-chi Chen 社會統計 Page.51

中位數的特性• 各觀察值與中位數差異的絕對值總和為最小。令 α 為任意數,則:

n

ii

n

ii xMx

11d

為任意數其中

)()(1

2

1

2n

ii

n

iei xxx

別忘了:

Page 52: 社會統計

©Ming-chi Chen 社會統計 Page.52

眾數Mode

• 未分組或列舉式資料:找出出現最多次數的觀察值,即為眾數 Mo。

Page 53: 社會統計

©Ming-chi Chen 社會統計 Page.53

分組資料求眾數 Mode

• 先再次數表中找出次數最多的那一組,稱為「眾數組」。

• 若取眾數組的組中點為眾數,則稱為「粗眾數」

Page 54: 社會統計

©Ming-chi Chen 社會統計 Page.54

分組資料求眾數 Mode- King 插補法• King 差補法

Cff

fBMo

11

1

88

330

430

341

239

163

0

100

200

300

400

500

1萬元以下 1-2萬元 2-3萬元 3-4萬元 4-5萬元 5-6萬元

眾數組

f-1 f+1

B Mo

Page 55: 社會統計

©Ming-chi Chen 社會統計 Page.55

分組資料求眾數 Mode- King 插補法• King 差補法

Cff

fBMo

11

1

眾數組

前一組次數

組下界

後一組次數

組距

Page 56: 社會統計

©Ming-chi Chen 社會統計 Page.56

分組資料求眾數 Mode- King 插補法

眾數組

10

1314

17

23

14

1211

5

7

9

11

13

15

17

19

21

23

25

當 f-1>f+1 時,眾數較靠近「組中點」的左方

f-1 f+1

Page 57: 社會統計

©Ming-chi Chen 社會統計 Page.57

分組資料求眾數 Mode- King 插補法

當 f-1<f+1 時,眾數較靠近「組中點」的右方

10

1213

14

23

18

1211

5

7

9

11

13

15

17

19

21

23

25

f-1 f+1

Page 58: 社會統計

©Ming-chi Chen 社會統計 Page.58

分組資料求眾數 Mode- Czuber 插補法

CBMo

21

1

12

11

ff

ff

為組距為後一組的次數為前一組的次數為眾數組的次數

C1

1

f

f

f

Page 59: 社會統計

©Ming-chi Chen 社會統計 Page.59

分組資料求眾數 Mode- Czuber 插補法

CBMo

21

1

10

1213

14

23

18

1211

5

7

9

11

13

15

17

19

21

23

25

11 ff12 ff

f1f 1f

Page 60: 社會統計

©Ming-chi Chen 社會統計 Page.60

分組資料求眾數 Mode- Pearson 經驗法

• Pearson 發現在單峰微偏的次數分配中,平均數至眾數的距離,為平均數至中位數距離的三倍。

)(3 do MXMX

oM dM X

)(3 do MXXM

Page 61: 社會統計

©Ming-chi Chen 社會統計 Page.61

例題:用三種方法求眾數• 粗眾數 = 45.5• King’s Mo = 40.5 +251/(172+2

51) ×10 = 46.43• Czuber: 40.5 + (1001-172) ×

10/[(1001-172)+(1001-251)]= 45.75

• Pearson: Mo=48.38 –3(48.38-46.51) = 42.77

請問你每星期大約工作幾小時?f F累積次數0.5-10.5小時 27 2710.5-20.5小時 35 6220.5-30.5小時 57 11930.5-40.5小時 172 29140.5-50.5小時 1001 129250.5-60.5小時 251 154360.5-70.5小時 87 163070.5-80.5小時 71 170180.5-90.5小時 50 175190.5-100.5小時 35 1786

1786

Page 62: 社會統計

©Ming-chi Chen 社會統計 Page.62

中央趨勢統計測量數之比較統計測量數 優 點 缺 點

算算術平均數 1.資料的重心。資料無極端值或偏態時,具代表性。

1.若有極端值存在時則不具代表性

2.適合代數演算 2.資料如為偏態,則代表性較差。 3.考慮所有觀察值,敏感度高。

4.觀察值與平均數差平方和最小 5.適合統計推論的工作

中位數 1.適用於有極端值的資料 1.不適合代數演算 2.適用於偏態資料 2.對觀察值敏感性低 3.觀察值與中位數絕對差和最小 3.不易進行母數統計推論 4.可做無母數統計推論

眾數 1.適用於有極端值的資料 1.可能不止一個或不存在

2.適用於偏態資料 2.敏感性低 3.適用於質的資料 3.不能做統計推論

Page 63: 社會統計

©Ming-chi Chen 社會統計 Page.63

分配的形狀• 次數分配圖是否對稱? • 如非對稱則為偏態• 如果分配的右尾很長超過左尾時,稱為右偏

Page 64: 社會統計

©Ming-chi Chen 社會統計 Page.64

Common Shapes of Distributions

• When a distribution is unimodal( 單峰) and symmetric(對稱) like the bell-shaped normal distribution, the mean median, and the mode all coincide.

MeanMedianMode

相對次數

單峰對稱:

Mean = Median =Mode

Page 65: 社會統計

©Ming-chi Chen 社會統計 Page.65

Common Shapes of Distributions

Mode

相對次數

Median

Mean

右偏分配( skewed to the right) :

Mean > Median >Mode

Page 66: 社會統計

©Ming-chi Chen 社會統計 Page.66

Common Shapes of Distributions

Mode

相對次數

Mean

Median

左偏分配( skewed to the left) :

Mean < Median <Mode

Page 67: 社會統計

©Ming-chi Chen 社會統計 Page.67

分位數

• 中位數又稱為二分位數,即將數字資料由小至大排序後,切成二部分。大於及小於中位數者剛好各佔所有數字資料的一半。

• 除了將資料作半切割外,我們也可以將資料切成四等分、十等分、或一百等分。

• 四分位數 (Quartiles): Q1, Q2, Q3, Q4,

• 十分位數 (Deciles): D1, D2, D3, … D10

• 百分位數 (Percentiles): P1, P2, P3, … P100

Page 68: 社會統計

©Ming-chi Chen 社會統計 Page.68

百分位數

Q1 = P25

Me = Q2=D5 =P50

Q3 =P75

Page 69: 社會統計

©Ming-chi Chen 社會統計 Page.69

百分位數

• Xp為第 p 個百分位數,則「小於 XP的觀察值佔所有觀察值的 p% 」。

• 基測的PR值

X1 XpX2 X3 Xn

p% (1-p)%

Page 70: 社會統計

©Ming-chi Chen 社會統計 Page.70

未分組資料求百分位數

• 先將資料由小之大排序。• 以 p為所求之百分位, n為樣本數,計算出百分位

數的位置 i。 i = (p × n)/100• 如果 i 是一個整數,第 p 個百分位數是 i 和 (i + 1) 的

數值的平均。• 如果 i 不是一個整數,第 p 個百分位數是 (i + 1) 的

數值。

X1 XnX2 X3 Xp

Page 71: 社會統計

©Ming-chi Chen 社會統計 Page.71

未分組資料求百分位數

X1 XnX2 X3 Xp

1 100p n

ip

100

在一百個中間的第 p個,相當於在 n中間的第幾個?

i

整數,則 p分位數= 第 i與第 (i+1)個觀察值的平均值

非整數,則 p分位數 =i下一個觀察值

Page 72: 社會統計

©Ming-chi Chen 社會統計 Page.72

例題:求下列數列的 70th 80th percentiles

• 18 14 45 32 65 43 25 41 83 51 26 36 40 55 20

• 重組:• 14 18 20 25 26 32 36 40 41 43 45 51 55 65

83

• i =(70 ×15)/100 = 10.5 (not an integer 非整數 )

• 第 11 個觀察值為 70th percentile (70 分位數)

Page 73: 社會統計

©Ming-chi Chen 社會統計 Page.73

例題:求下列數列的 70th 80th percentiles

• 14 18 20 25 26 32 36 40 41 43 45 51 55 65 83

• i =(80 ×15)/100 = 12 (an integer)

• 第 12 個觀察值為 51 ,第 13th觀察值為 55

• 所以 80 分位數 = (51+55)/2=53

Page 74: 社會統計

©Ming-chi Chen 社會統計 Page.74

分組資料求百分位數• 有些統計學家認為分組資料應該用 interpolati

ng 內插法的方法來求 p 分位數:

f

CF

npB i

)

100( 1

B=組下界

Fi-1=小於該組的各組次數和

f = 該組次數

C = 組距

Page 75: 社會統計

©Ming-chi Chen 社會統計 Page.75

四分位數 (Quartiles)

• Q1 :25 百分位數 (25th percentile) 又稱之為下四分位 (lower quartile) 或第一個四分位數 (first quartile) , 25% 的觀察值在此數之下, 75% 的觀察值在此數之上。

• Q3 : 75 百分位數 (75th percentile) 又稱之為上四分位 (upper quartile) 或第三個四分位數 (third quartile) , 75% 的觀察值在此數之下, 25% 的觀察值在此數之上。

Page 76: 社會統計

©Ming-chi Chen 社會統計 Page.76

Measures of Dispersion分散量數、離差量數、差異量數

• 測量群體中各個觀察值之差異或離中程度的表徵數,即為離差量數。

• 離差小,表示各數值間的差異小,平均數較能代表群體中的各個數值,離差大,表各數值之間的變動很大,較為分散。

• EX) In many financial problems, risk is measured by the amount of variability in the potential returns from an investment

Page 77: 社會統計

©Ming-chi Chen 社會統計 Page.77

Range全距• The range of a set of observations is the difference

between the largest value and the smallest value.

• 未分組資料 R = Xmax – Xmin( 最大觀察值 - 最小值)• 分組資料 R = Umax – Lmin( 最大組之上界 –最小組之下界)

Page 78: 社會統計

©Ming-chi Chen 社會統計 Page.78

Interquartile Range 四分位距• IQR = Q3 – Q1

• Semi-interquartile Range 四分位差• QD = (Q3 – Q1) /2 , 即 IQR 的一半為四分位差。• Q3 - Md = Md – Q1

• QD = Q3 - Md=Md - Q1

Q1 Q3

IQR

Md

Page 79: 社會統計

©Ming-chi Chen 社會統計 Page.79

Deviation from the mean 平均差

• 各個觀察值與平均數之間的距離為衡量此組資料分散程度的良好指標,但如果將所有平均差加總,則:

)(or )( xxux

0)(1

n

i i xx

Page 80: 社會統計

©Ming-chi Chen 社會統計 Page.80

Mean Absolute Deviation平均絕對差

• The mean absolute deviation (M.A.D.) is calculated using the following formula:

n

xxxxxxDAM n

21...

n

xxi

Page 81: 社會統計

©Ming-chi Chen 社會統計 Page.81

Mean Absolute Deviation平均絕對差

• 分組資料算 M.A.D.:

n

xmfDAM ii

...

mi 為組中點, fi 為組次數

Page 82: 社會統計

©Ming-chi Chen 社會統計 Page.82

Population Variance σ2 Population Standard Deviation σ

• 母體變異數與母體標準差

N

)x( 2i2

N

)x( 2i

Page 83: 社會統計

©Ming-chi Chen 社會統計 Page.83

Sample Variance s2 Sample Standard Deviation s

• 樣本變異數與標準差

1

)( 22

n

xxs i

x

Degree of freedom

Page 84: 社會統計

©Ming-chi Chen 社會統計 Page.84

Sample Variance s2 Sample Standard Deviation s

• 樣本變異數與標準差

1

)( 22

n

xxs i

x

)2( 22 xxxx ii 22 2 xxxx ii

22 2 xnxnxxi 22 xnxi

ii xxn

n

xx1

222

n

xnxs i

x

Page 85: 社會統計

©Ming-chi Chen 社會統計 Page.85

例題:求下列數列的標準差

• 樣本變異數與標準差

1

222

n

xnxs i

x

1

)( 22

n

xxs i

x

Xi

345667743

Page 86: 社會統計

©Ming-chi Chen 社會統計 Page.86

例題:求下列數列的標準差• 步驟一:• 修求平均數• 步驟二:計算Xi

3 (3-5)= -24 (4-5)= -15 (5-5)= 06 (6-5)= 16 (6-5)= 17 (7-5)= 27 (7-5)= 24 (4-5)= -13 (3-5)= -25

Xi - mean

平均數

xxx

Page 87: 社會統計

©Ming-chi Chen 社會統計 Page.87

例題:求下列數列的標準差

• 步驟三:• 計算 Xi (Xi-mean)2

3 (3-5)= -2 44 (4-5)= -1 15 (5-5)= 0 06 (6-5)= 1 16 (6-5)= 1 17 (7-5)= 2 47 (7-5)= 2 44 (4-5)= -1 13 (3-5)= -2 45 20

Xi - mean2

)( xx

1

)( 22

n

xxs i

x

= 20/(9-1) = 2.5

5811.15.2 s

Page 88: 社會統計

©Ming-chi Chen 社會統計 Page.88

另解:求下列數列的標準差

Xi Xi2

3 94 165 256 366 367 497 494 163 95 245

2

22

22

2

5.2)19/(20

20225245

22559

245

s

xnx

xn

x

i

i

x

Page 89: 社會統計

©Ming-chi Chen 社會統計 Page.89

分組資料求變異數及標準差

1

)( 22

n

xmfs ii

x

1

222

n

xnmfs ii

x

2222

22

222

2

2

2

xnmfxnxnxmf

xnmfxmf

xxmmfxmf

iiii

iiii

iiiii

Page 90: 社會統計

©Ming-chi Chen 社會統計 Page.90

例題:求下列分組資料之變異數及標準差

請問你每星期大約工作幾小時?f

0.5-10.5小時 2710.5-20.5小時 3520.5-30.5小時 5730.5-40.5小時 17240.5-50.5小時 100150.5-60.5小時 25160.5-70.5小時 8770.5-80.5小時 7180.5-90.5小時 5090.5-100.5小時 35

Page 91: 社會統計

©Ming-chi Chen 社會統計 Page.91

例題:求下列分組資料之變異數及標準差

請問你每星期大約工作幾小時?f mi f*mi

0.5-10.5小時 27 5.5 148.510.5-20.5小時 35 15.5 542.520.5-30.5小時 57 25.5 1453.530.5-40.5小時 172 35.5 610640.5-50.5小時 1001 45.5 45545.550.5-60.5小時 251 55.5 13930.560.5-70.5小時 87 65.5 5698.570.5-80.5小時 71 75.5 5360.580.5-90.5小時 50 85.5 427590.5-100.5小時 35 95.5 3342.5

1786 86403mean = 86403/1786= 48.37794

步驟一:先求出算數平均數

Page 92: 社會統計

©Ming-chi Chen 社會統計 Page.92

例題:求下列分組資料之變異數及標準差

請問你每星期大約工作幾小時?f mi (mi-mean) (mi-mean)

2f*(mi-mean)

2

0.5-10.5小時 27 5.5 -42.878 1838.518 49640.010.5-20.5小時 35 15.5 -32.878 1080.959 37833.620.5-30.5小時 57 25.5 -22.878 523.400 29833.830.5-40.5小時 172 35.5 -12.878 165.841 28524.740.5-50.5小時 1001 45.5 -2.8779 8.283 8290.850.5-60.5小時 251 55.5 7.12206 50.724 12731.760.5-70.5小時 87 65.5 17.1221 293.165 25505.470.5-80.5小時 71 75.5 27.1221 735.606 52228.080.5-90.5小時 50 85.5 37.1221 1378.047 68902.490.5-100.5小時 35 95.5 47.1221 2220.489 77717.1

1786 391207.39mean = 48.38 14.804175

11786

391207

Page 93: 社會統計

©Ming-chi Chen 社會統計 Page.93

另解:求下列分組資料之變異數及標準差

請問你每星期大約工作幾小時?f mi mi

2f*mi

2

0.5-10.5小時 27 5.5 30.25 816.7510.5-20.5小時 35 15.5 240.3 8408.7520.5-30.5小時 57 25.5 650.3 37064.2530.5-40.5小時 172 35.5 1260 21676340.5-50.5小時 1001 45.5 2070 2072320.2550.5-60.5小時 251 55.5 3080 773142.7560.5-70.5小時 87 65.5 4290 373251.7570.5-80.5小時 71 75.5 5700 404717.7580.5-90.5小時 50 85.5 7310 365512.590.5-100.5小時 35 95.5 9120 319208.75

1786 4571206.5mean = 48.38 4179999.11

14.80418

1

222

n

xnmfs ii

x

1

22

n

xnmfs ii

x

Page 94: 社會統計

©Ming-chi Chen 社會統計 Page.94

變異數與標準差之性質S2 0, ≧ 只有在所有觀察值皆相同時,等號才會成立。

22xyii ssaxy

222xyii sasxay

2

22

a

ss

a

xy x

yi

i

Page 95: 社會統計

©Ming-chi Chen 社會統計 Page.95

變異數與標準差之性質

• 一群資料分成 N1, N2, …Nk等 k 部分,各部分的相對平均數及變異數分別為 μ1,σ1

2, μ2,σ2

2… μk,σk2

N1

σ12

μ1

N2

σ22

μ2

Nk

σk2

μk……

之平均數及標準差為:則全體

k

iiNN

1

Page 96: 社會統計

©Ming-chi Chen 社會統計 Page.96

變異數與標準差之性質

• 平均數:

N1

σ12

μ1

N2

σ22

μ2

Nk

σk2

μk……

N

uN

NNN

uNuNuNu

k

iii

k

kk

1

21

2211

各組平均數的加權平均數

Page 97: 社會統計

©Ming-chi Chen 社會統計 Page.97

變異數與標準差之性質

• 變異數:

N

uuux

N

uxk

i

N

jiiij

k

i

N

jij

ii

1 1

2

1 1

2

2

)()()(

N

uuuxuuuxk

i

N

jiiij

k

i

N

ji

k

i

N

jiij

iii

1 11 1

2

1 1

2

2

))((2)()(

觀察值與平均數之差為零

N

uuNNk

iii

k

iii

1

2

1

2 )(i

N

jiij

i N

uxi

1

2

2

)(

觀察值與該組平均數之差

該組平均數與整體平均數之差

N

uuNk

iiii

1

22 ])([

Page 98: 社會統計

©Ming-chi Chen 社會統計 Page.98

變異數與標準差之性質

• 例題:已知人社系全體同學有以下的統計量:• 男生 40人 ,學期平均成績 83分 , 標準差 4分• 女生 200人,平均成績 85 分,標準差 5分• 請問全班的平均成績為何?標準差為何?

Page 99: 社會統計

©Ming-chi Chen 社會統計 Page.99

變異數與標準差之性質• N 男=40人 ,μ 男=83分 , σ 男=4分• N 女=200人 ,μ 女=85 分 , σ 女=5 分• 全班平均分數:

N

uNu

k

iii

1

N

NN 女女男男

67.84240

852008340

Page 100: 社會統計

©Ming-chi Chen 社會統計 Page.100

變異數與標準差之性質• N 男=40人 ,μ 男=83分 , σ 男=4分• N 女=200人 ,μ 女=85 分 , σ 女=5 分• 全班分數標準差:

N

uuNk

iiii

1

22 ])([

20040

])67.8485(5[200])67.8483(4[40 2222

Page 101: 社會統計

©Ming-chi Chen 社會統計 Page.101

Chebyshëv’s Theorem徹比雪夫定理

• Let c be any number greater than 1. For any sample or population of data, the proportion of observations that lie fewer than c standard deviations from the mean is at least (1 - 1 /c2).

• 令 c 為任意大於 1 的常數,若一母體( 或樣本)的平均數及標準差分別為 μ 及σ ,則介於 (μ - cσ, μ + cσ) 內之觀察值至少為 (1 - 1 /c2) 。

Page 102: 社會統計

©Ming-chi Chen 社會統計 Page.102

Chebyshëv’s Theorem徹比雪夫定理

μμ-cσ μ+cσ

介於兩紅線之間的觀察值至少有(1-1/c2)

當 c=2時,至少 75% (1-1/4)的觀察值落在平均數左右兩個標準差的範圍內。

當 c=3時,至少 89% (1-1/9)的觀察值落在平均數左右三個標準差的範圍內。

當 c=4時,至少 93% (1-1/16)的觀察值落在平均數左右四個標準差的範圍內。

Page 103: 社會統計

©Ming-chi Chen 社會統計 Page.103

The Empirical Rule經驗法則

• Chebyshëv’s Theorem 是一個較保守的估計,如果我們知道確切的分佈,則能更精準的估算出落於某範圍的機率。

• When the distribution of a population or sample of data is approximately bell shaped,

• approximately 68% of the values will fall within 1 standard deviation of the mean,

• approximately 95% of the values will fall within 2 standard deviations of the mean, and

• approximately 99.7% of the values will fall within 3 standard deviations of the mean.

Page 104: 社會統計

©Ming-chi Chen 社會統計 Page.104

The Empirical Rule經驗法則

• 若資料呈現鐘形分配,則:

%68),( 約佔

%95)2,2( 約佔

%7.99)3,3( 約佔

Page 105: 社會統計

©Ming-chi Chen 社會統計 Page.105

The Empirical Rule經驗法則

• 若資料呈現鐘形分配,則:

68%

95%

99%

μ

μ+σμ-σ

μ+2σμ-2σ

μ-3σ μ+3σ

Page 106: 社會統計

©Ming-chi Chen 社會統計 Page.106

The Empirical Rule經驗法則

• Consider a bell-shaped distribution approximately ______ percentage of the values lies between μ-2σand μ+σ.

68%

μ

μ+σμ-2σ

μ-σ

μ+2σ

95%

68% ÷2= 34%

95% ÷2= 47.5%

Page 107: 社會統計

©Ming-chi Chen 社會統計 Page.107

Standardized Score標準化分數

• 有時候我們會想要知道一個觀察值在整組資料中的相對位置。

• 某位同學在班上的成績為 85 分,這個分數本身所傳遞的訊息很有限,我們通常想要進一步知道 85 分究竟是高還是低?也就是說,我們想知道這個分數離一般平均數多遠?

Page 108: 社會統計

©Ming-chi Chen 社會統計 Page.108

Standardized Score標準化分數

• 標準化分數 (standardized score) 可以告訴我們觀察值在所有資料中的位置,又稱之為 Z score ,表示該觀察值與平均數之間,間隔多少個標準差。

ux

z

s

xxz

X與平均數之間的實際距離

以標準差來表達

Page 109: 社會統計

©Ming-chi Chen 社會統計 Page.109

例題• 如果全班同學的統計學平均分數為 85 分,標準差為 5 分,請將將下列三位同學的分數改成標準化分數:

• 80, 70, 901

5

85801

z

35

85702

z

15

85903

z

Page 110: 社會統計

©Ming-chi Chen 社會統計 Page.110

例題• 如果根據經驗法則來看,• 分數低於80分的同學佔全班的______%?• 有多少___%的同學分數低於70?• 高於90分的同學佔______%?

85

908070

Page 111: 社會統計

©Ming-chi Chen 社會統計 Page.111

Detecting Outliers用標準化分數找出偏離值

• An outlier is an observation that falls far out in the tail of a distribution.

• Sometimes an outlier can be an indication of a faulty or incorrectly recorded observation.

• A Z score can be helpful in detecting an outlier. If the data are approximately normally distributed, then fewer than .3% of the observations have Z scores less than- 3 or greater than + 3.

Page 112: 社會統計

©Ming-chi Chen 社會統計 Page.112

Coefficient of Variation變異係數

• The coefficient of variation, also called the relative standard deviation, expresses the standard deviation as a percentage of the mean.

%100x

sCV

The CV allows us to consider the dispersion as a proportion of the mean, that is, the dispersion in proportion to the average magnitude of the data.

Page 113: 社會統計

©Ming-chi Chen 社會統計 Page.113

Coefficient of Variation變異係數

• A 股票過去一年的平均價格為 $100 ,標準差為 $5 。

• B 股票過去一年的平均價格為 $50 ,標準差為 $4 。

• 請問哪一支股票的價格波動較厲害?• A 股票的 CV = 5/100 =5%

• B 股票的 CV=4/50 = 8%

Page 114: 社會統計

©Ming-chi Chen 社會統計 Page.114

Box Plot (箱型圖)

Q1

Q3

IRQ Median

Max

Min

Page 115: 社會統計

©Ming-chi Chen 社會統計 Page.115

Box Plot (箱型圖)

Q1

Q3IRQ Median

1.5 IRQ

Inner fence

Inner fence

3 IRQ

Outer fence

Outer fence

Outliers

Extreme

Cases with values between 1.5 and 3 box lengths from the upper or lower edge of the box. The box length is the IRQ.

Extremes: Cases with values more than 3 box lengths from the upper or lower edge of the box.

Page 116: 社會統計

©Ming-chi Chen 社會統計 Page.116

中位數

Q1 Q3

25,000

IQ R

29,000

內籬 內籬外籬 外籬

19,000 21,000 23,000 27,000

24,050

29,05027,025

15. ( )IQR

3( )IQR 3( )IQ R

15. ( )IQR

21,62519,600

28,250

Page 117: 社會統計

©Ming-chi Chen 社會統計 Page.117

Statistics

V46

1010

0

49.06

48.00

48

13.12

172.10

83

7

90

44.00

48.00

56.00

Valid

Missing

N

Mean

Median

Mode

Std. Deviation

Variance

Range

Minimum

Maximum

25

50

75

Percentiles

Statistics

V46

741

0

47.92

48.00

48

13.16

173.18

88

2

90

44.00

48.00

50.00

Valid

Missing

N

Mean

Median

Mode

Std. Deviation

Variance

Range

Minimum

Maximum

25

50

75

Percentiles

男性 女性

男女生平均工時的敘述性統計

Page 118: 社會統計

©Ming-chi Chen 社會統計 Page.118

7411010N =

©Ê§O

¤k¨k

½Ð

°Ý±

z¥ §

¡¨C¬

P´Á

¤j¬

ù¤

@¦h

¤Ö

¤p

®É

100

80

60

40

20

0

outlier

extreme

Page 119: 社會統計

©Ming-chi Chen 社會統計 Page.119

描述統計之為用:台灣歷年出生性比表 1-1 我國歷年出生嬰兒性別比例按胎次統計 單位: %

年別

胎次別 (100 名女嬰相對男嬰人數 )

合計 第一胎 第二胎 第三胎 第四胎 五胎及以上

198719881989

108.4108.2108.6

107.2107.3107.0

108.2106.9106.9

110.2111.6113.3

113.7111.5120.6

109.8118.0116.3

19901991∫

110.3110.4

106.8107.4

108.7108.5

118.7118.2

128.5129.5

126.7124.4

2000 109.4 106.9 107.7 118.9 135.0 120.2

2001 108.7 106.9 105.8 120.8 135.0 121.2

2002 109.8 106.9 109.1 121.5 138.7 123.0

2003 110.2 107.7 108.9 123.6 139.7 122.2

2004 110.7 108.7 109.4 122.6 134.1 122.8

2005 109.0 107.7 107.1 122.0 124.3 121.9

2006 109.6 107.2 108.2 126.7 136.6 113.3資料來源:內政部「中華民國人口統計年刊」。

Page 120: 社會統計

©Ming-chi Chen 社會統計 Page.120

描述統計之為用:台灣歷年出生性比趨勢圖歷年嬰兒出生數

0

5

10

15

20

25

30

35

40

45

70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95年

104

105

106

107

108

109

110

111

女嬰出生數

男嬰出生數

嬰兒性比例

性比例(%)

出生數 (萬人 )

Page 121: 社會統計

©Ming-chi Chen 社會統計 Page.121

統計之為用:我國人口金字塔

Page 122: 社會統計

©Ming-chi Chen 社會統計 Page.122

人口金字塔

Page 123: 社會統計

©Ming-chi Chen 社會統計 Page.123

中國人口金字塔, 1990 普查

Page 124: 社會統計

©Ming-chi Chen 社會統計 Page.124

中國人口金字塔的變遷