Upload
barrett-mayer
View
36
Download
2
Embed Size (px)
DESCRIPTION
社會統計. 第二講 描述統計. 如何描述一組為數眾多的數值?. 開學第一堂課填答問卷的同學其身高如下: 160 、 168 、 169 、 160 、 171 、 181 、 169 、 170 、 163 、 170 、 168 、 180 、 175 、 162 、 160 、 175 、 172 、 161 、 161 、 155 、 153 、 163 、 161 、 160 、 178 共 25 位同學。 請問我們怎麼從中看出什麼意義?. 以枝葉圖表示. 以直方圖表示. 你看出了什麼?. 分配的形狀 集中於何處?平均在哪裡? 分散有多廣? *. - PowerPoint PPT Presentation
Citation preview
©Ming-chi Chen 社會統計 Page.1
社會統計
第二講描述統計
©Ming-chi Chen 社會統計 Page.2
如何描述一組為數眾多的數值?• 開學第一堂課填答問卷的同學其身高如下: 160 、 1
68 、 169 、 160 、 171 、 181 、 169 、 170 、 163 、 170 、 168 、 180 、 175 、 162 、 160 、 175 、172 、 161 、 161 、 155 、 153 、 163 、 161 、 160 、 178 共 25 位同學。
• 請問我們怎麼從中看出什麼意義?
©Ming-chi Chen 社會統計 Page.3
以枝葉圖表示15 3
15 5
16 0000111233
16 8899
17 0012
17 558
18 01
©Ming-chi Chen 社會統計 Page.4
以直方圖表示
社會統計同學身高
024681012
<155
<160
<165
<170
<175
<180
>=180
身高
次數 頻率
©Ming-chi Chen 社會統計 Page.5
你看出了什麼?• 分配的形狀• 集中於何處?平均在哪裡?• 分散有多廣?
©Ming-chi Chen 社會統計 Page.6
Summation Notation 基本運算複習
N
iix
1Nxxxx 321
©Ming-chi Chen 社會統計 Page.7
基本運算複習
)(1
i
N
ii yx
)()(
11
N
ii
N
ii yx
x y x+y
2 3 53 4 74 6 102 2 41 1 212 16 28
12+16=28
©Ming-chi Chen 社會統計 Page.8
基本運算複習
)(1
N
iixc )( 21 Ncxcxcx
)( 21 Nxxxc
N
iixc
1
©Ming-chi Chen 社會統計 Page.9
基本運算複習
N
i
c1
cN
timesN
cccc
©Ming-chi Chen 社會統計 Page.10
基本運算複習
N
i
c1
)(1
N
ii cx
N
iix
1
cnxN
ii
1
©Ming-chi Chen 社會統計 Page.11
基本運算複習
2
1
)(
N
iix 2
1
)(
N
iix是否等於
2
1
)(
N
iix
2
1
)(
N
iix
©Ming-chi Chen 社會統計 Page.12
基本運算複習
2
1
)(
N
ii cx )2(
1
22
N
iii ccxx
N
iii ncxcx
1
22 2
©Ming-chi Chen 社會統計 Page.13
母體平均數 population mean
N
x
N
xxxu iN
21
大 N通常代表母體的個數
©Ming-chi Chen 社會統計 Page.14
樣本平均數 sample mean
n
x
n
xxxx iN
21
小 n通常代表母體的個數
©Ming-chi Chen 社會統計 Page.15
次數分配 (frequency distribution)
• 次數分配表呈顯落在各個不同組( class )裡面觀察到的數量,在第 i 組裡的次數稱為組次數,以 fi來表示。
©Ming-chi Chen 社會統計 Page.16
次數分配 (frequency distribution)
• 社會變遷基本調查資料中,每一名受訪者皆被要求提供月薪資訊:
• 第一位受訪者 月薪 2.4 萬• 第二位受訪者 月薪 4.5 萬……..• 第 1813 位受訪者月薪 5.2 萬• 此時我們可以透過次數分配表來整理資料,以便瞭解台灣地區民眾收入的分佈情形。
©Ming-chi Chen 社會統計 Page.17
次數分配 (frequency distribution)
Class組數 class boundary組界class frequency
組次數(f i )
1 B0 ~ B1 f 1
2 B1 ~ B2 f 2
3 f 3
4
k Bk-1~Bk f k
下組界 Lower limit
上組界 Upper limit
Width of class 組距 = Bk- Bk-
1
組中點 =(Bk+Bk-1)/2
©Ming-chi Chen 社會統計 Page.18
次數分配 (frequency distribution)您現在這個工作,每個月月入多少元?
組數 組界組次數
Frequency百分比Percent
累積百分比Cumulative Percent
1 1萬元以下 88 4.85 4.852 1-2萬元 330 18.20 23.063 2-3萬元 430 23.72 46.774 3-4萬元 341 18.81 65.585 4-5萬元 239 13.18 78.766 5-6萬元 163 8.99 87.767 6-7萬元 71 3.92 91.678 7-8萬元 43 2.37 94.049 8-9萬元 18 0.99 95.04
10 9-10萬元 25 1.38 96.4111 10-11萬元 22 1.21 97.6312 19-20萬元 28 1.54 99.1713 20萬元以上 15 0.83 100.00
Total 1813 100
組上界 = 2萬組下界 = 1萬組寬 = 1萬
組中點 = 1.5 萬
©Ming-chi Chen 社會統計 Page.19
選擇組界的兩個原則 (two rules for selecting classes)
• 互斥性 mutually exclusive :各組的組界不得重疊,即每有任何一個觀察值可以被同時分類至不同的兩個組中。– 一般以「不含組上界值」為規範,如組上界為 2萬,僅將 2 萬元以下的觀察值歸入該組, 2 萬元整及以上的觀察值歸入下一組。
• 周延性 Exhaustive :所有的觀察值皆能被歸入某一組中。
©Ming-chi Chen 社會統計 Page.20
分組的其他原則• 究竟要分幾組才恰當?• 視情況而定,一般以 5-20 組為原則。• 或者可採用下列公式及算組數:• 組數= 1 + 3.322 ×log(n 樣本數 )• 組寬要多大?• 最好能設等距的組寬,但如果部分觀察值的分佈情形非常集中,另一部份非常分散,則有時候會採用不等距的分組方式。
©Ming-chi Chen 社會統計 Page.21
分組的其他原則• 組界的選擇• 最好能夠選擇組的上下界,使組中點接近該組觀察值的平均數。因為我們在計算全體總平均時,會以組中點來代表該組的平均值,因此組中點越接近該組的平均值,估計的總平均數會越準確。
©Ming-chi Chen 社會統計 Page.22
分組的其他原則
100 元 200元
50 元 150 元
Midpoint
Midpoint
©Ming-chi Chen 社會統計 Page.23
Relative Frequency Distributions相對次數
• 相對次數為第 i 組的次數,佔全體的比率。
(母體數)組的次數)(第或
(樣本數)組的次數)(第
N
if
n
if ii
©Ming-chi Chen 社會統計 Page.24
相對次數 (Relative frequency)您現在這個工作,每個月月入多少元?
組數 組界組次數
Frequency百分比Percent
累積百分比Cumulative Percent
1 1萬元以下 88 4.85 4.852 1-2萬元 330 18.20 23.063 2-3萬元 430 23.72 46.774 3-4萬元 341 18.81 65.585 4-5萬元 239 13.18 78.766 5-6萬元 163 8.99 87.767 6-7萬元 71 3.92 91.678 7-8萬元 43 2.37 94.049 8-9萬元 18 0.99 95.04
10 9-10萬元 25 1.38 96.4111 10-11萬元 22 1.21 97.6312 19-20萬元 28 1.54 99.1713 20萬元以上 15 0.83 100.00
Total 1813 100
第二組的相對次數為 :330/1813 = 0.182
©Ming-chi Chen 社會統計 Page.25
Frequency Histogram 直方圖
88
330
430
341
239
163
0
100
200
300
400
500
1萬元以下 1-2萬元 2-3萬元 3-4萬元 4-5萬元 5-6萬元
組次數
©Ming-chi Chen 社會統計 Page.26
相對次數直方圖• 與直方圖相同,為其縱軸改以相對次數表達
組相對次數 0.049
0.182
0.237
0.188
0.132
0.090
0.000
0.050
0.100
0.150
0.200
0.250
1萬元以下 1-2萬元 2-3萬元 3-4萬元 4-5萬元 5-6萬元
©Ming-chi Chen 社會統計 Page.27
分組資料的算數平均數
為觀察值其中 iii x
n
xfx ,
x i f i x i × f i
3 34 1024 13 525 24 1206 32 192
103 466
ii xf
n103
466
n
xfx ii
©Ming-chi Chen 社會統計 Page.28
連續性資料的算數平均數
為組次數為組中點,其中 iiii fm
n
mfx ,
103
5.517
n
fmx ii
組下界 組上界 f i 組中點m i m i × f i
3 4 34 3.5 1194 5 13 4.5 58.55 6 24 5.5 1326 7 32 6.5 208
103 517.5
©Ming-chi Chen 社會統計 Page.29
算數平均數• 各個觀察值與平均數差的總和為 0
n
ii xx
1
0)(
n
iii xmf
1
0)(
xnxn
xx
xnxxx
ii
n
iii
1
證明
©Ming-chi Chen 社會統計 Page.30
算數平均數
• 各個觀察值與平均數差的平方和為最小為任意數其中 )()(
1
2
1
2
n
ii
n
ii xxx
)]()[()(1
22n
iii xxxx
)()(2 )()( 22 xxxxxx ii
等於 0大於等於 0
常數
©Ming-chi Chen 社會統計 Page.31
算數平均數• 設 x1, x2, x3, …xn 之算數平均數為 x-bar
bxybxy ii 若
bxaybxay ii 若
©Ming-chi Chen 社會統計 Page.32
算數平均數
Name Income Raise New income
A 3 0.5 3.5
B 4 0.5 4.5
C 5 0.5 5.5
D 3 0.5 3.5
E 4 0.5 4.5
Average 3.8 4.3
每位員工皆加薪 5000 元
©Ming-chi Chen 社會統計 Page.33
算數平均數
Name Income Raise New income
A 3 1.05 3.15
B 4 1.05 4.2
C 5 1.05 5.25
D 3 1.05 3.15
E 4 1.05 4.2
Average 3.8 3.99
每位員工皆加薪 5%
©Ming-chi Chen 社會統計 Page.34
算數平均數• 平均值容易受到極端值的影響,若資料中有過大或過小的觀察值時,不要以平均值來代表集中趨勢。
Name Income
A 3
B 4
C 5
D 3
E 60
Average 15
©Ming-chi Chen 社會統計 Page.35
算數平均數• 分組資料中若有開放式的組界,由於該組的組中點無法決定,因此其平均數亦無法計算。
Name Income f
A 3 ~ 4 23
B 4 ~ 5 12
C 5 ~ 6 34
D 6 ~ 7 12
E 7 以上 32
Average ??
©Ming-chi Chen 社會統計 Page.36
Median
•將一組數字由大排至小,位居中間的數值為該組數字的中衛數。一般以 Md來表示
©Ming-chi Chen 社會統計 Page.37
Median 中位數• 如果一組數列有奇數個觀察值,則中位數為排序後數列的中間值
• 12 13 14 15 16 17 18 • 如果一組數列有偶數個觀察值,則中位數為排序後數列的中間兩個觀察值的算數平均數
• 12 13 14 15 16 17 18 19 Md = 15.5
©Ming-chi Chen 社會統計 Page.38
Median 中位數•未分組資料求中位數:•將 n個數值由小至大排序•決定中位數所在的位置 n/2+1/2 。•若 n 為偶數,則取第 n/2 與第 n/2+1 個之數值的平均數為代表。
©Ming-chi Chen 社會統計 Page.39
Median 中位數
• 求下列數值的中位數:• 66 70 71 76 80 84 92• n=7, 所以中位數所在的位置為第 (7+1)/2=4第 4個數值 (76).
• 66 70 71 76 80 84 92 96• n=8, 中位數所在的位置為第( 8+1) /2=4.5 個,取第 n/2(第4個)值與第 n/2+1(第五個)值的平均數
• =(76+80)/2 = 78
©Ming-chi Chen 社會統計 Page.40
Median 中位數• 列舉式分組資料求中位數的步驟:1. 將資料由小至大排序。2. 計算累加次數。3. 決定中位數所在的位次 (n+1)/2 。4. 如果中位數的位次剛好在組內,則取該組的
數值 x為中位數。如果位次落在兩組中間,則取兩組的平均值。
©Ming-chi Chen 社會統計 Page.41
Median 中位數• 中位數的位次 =94/2+1/2=47.5• Median = 82
分數 人數 累加人數77 6 678 12 1880 15 3382 22 5584 21 7686 16 9290 2 94
©Ming-chi Chen 社會統計 Page.42
Median 中位數• 中位數的位次 =94/2+1/2=47.5• Median = (82+84)/2
分數 人數 累加人數77 6 6
78 12 18
80 15 33
82 14 47
84 21 68
86 16 84
90 10 94
©Ming-chi Chen 社會統計 Page.43
分組資料中位數的推估• 分組資料(連續資料)求中位數的步驟:1. 計算累加次數。2. 根據中位數所在的位次 n/2+1/2 ,找出中位
數所在的組別。3. 以下列公式求出中位數:
©Ming-chi Chen 社會統計 Page.44
分組資料中位數的推估
f
CF
nBmedian iL )
2( 1
iii Fn
i 2FF 1組的累積次數,若第設
為中位組所在組的次數距為中位數所在的組的組
為該組的組下界
f
C
BL
©Ming-chi Chen 社會統計 Page.45
分組資料中位數的推估
nfi
Class組數boundary
組界frequency
組次數(f i )
Cumulativefrequency
累積次數1 B0 ~ B1 f 1 F 1
2 B1 ~ B2 f 2 F 2
3 f 3 F 3
4
… F i-1
i fi F i
k Bk-1~Bk f k F k
(1) 先將各組次數加總求出總次數,再用 n/2的公式找到中位數的
©Ming-chi Chen 社會統計 Page.46
分組資料中位數的推估
nfi
(2)如果中位數的位次 n/2 介於 Fi-1 與 Fi
之間。(3) 用 C= Bi-Bi-1 求得組距 C則中位數 =
Class組數boundary
組界frequency
組次數(f i )
Cumulativefrequency
累積次數1 B0 ~ B1 f 1 F 1
2 B1 ~ B2 f 2 F 2
3 f 3 F 3
4
… F i-1
i Bi-1~Bi fi F i
k Bk-1~Bk f k F k f
CF
nB ii )
2( 11
©Ming-chi Chen 社會統計 Page.47
分組資料中位數的推估
• 這個公式看起來有點複雜,其實很好理解。我們已知第 n/2 的數值落於該組中,我們想要找出最接近第 n/2 的位置的一個推估數值。
f
CF
nB ii )
2( 11
從第 n/2個觀察值到本組的下界之間共有幾個觀察值
組距為 C,組次數為 f,C/f可以看成每個觀察值之間的單位距離
n/2Fi-1
©Ming-chi Chen 社會統計 Page.48
分組資料中位數的推估請問你每星期大約工作幾小時?0-10小時 2711-20小時 3521-30小時 5731-40小時 17241-50小時 100151-60小時 25161-70小時 8771-80小時 7181-90小時 5091-100小時 35
1786
請找出台灣地區成年人每週工時的中位數。
©Ming-chi Chen 社會統計 Page.49
分組資料中位數的推估
步驟一:先算出累積次數
步驟二:找出中位數所在的組( n/2+1/2) 。
n/2=1786/2=893
請問你每星期大約工作幾小時?f F累積次數0-10小時 27 2711-20小時 35 6221-30小時 57 11931-40小時 172 29141-50小時 1001 129251-60小時 251 154361-70小時 87 163071-80小時 71 170181-90小時 50 175191-100小時 35 1786
1786
©Ming-chi Chen 社會統計 Page.50
分組資料中位數的推估
步驟三:將組界調整成為不間斷
步驟四:套入公式求組中位數:
Median = 40.5+ (1786/2 – 291) * (50.5-40.5)/1001 = 46.51
請問你每星期大約工作幾小時?f F累積次數0.5-10.5小時 27 2710.5-20.5小時 35 6220.5-30.5小時 57 11930.5-40.5小時 172 29140.5-50.5小時 1001 129250.5-60.5小時 251 154360.5-70.5小時 87 163070.5-80.5小時 71 170180.5-90.5小時 50 175190.5-100.5小時 35 1786
1786
©Ming-chi Chen 社會統計 Page.51
中位數的特性• 各觀察值與中位數差異的絕對值總和為最小。令 α 為任意數,則:
n
ii
n
ii xMx
11d
為任意數其中
)()(1
2
1
2n
ii
n
iei xxx
別忘了:
©Ming-chi Chen 社會統計 Page.52
眾數Mode
• 未分組或列舉式資料:找出出現最多次數的觀察值,即為眾數 Mo。
©Ming-chi Chen 社會統計 Page.53
分組資料求眾數 Mode
• 先再次數表中找出次數最多的那一組,稱為「眾數組」。
• 若取眾數組的組中點為眾數,則稱為「粗眾數」
©Ming-chi Chen 社會統計 Page.54
分組資料求眾數 Mode- King 插補法• King 差補法
Cff
fBMo
11
1
88
330
430
341
239
163
0
100
200
300
400
500
1萬元以下 1-2萬元 2-3萬元 3-4萬元 4-5萬元 5-6萬元
眾數組
f-1 f+1
B Mo
©Ming-chi Chen 社會統計 Page.55
分組資料求眾數 Mode- King 插補法• King 差補法
Cff
fBMo
11
1
眾數組
前一組次數
組下界
後一組次數
組距
©Ming-chi Chen 社會統計 Page.56
分組資料求眾數 Mode- King 插補法
眾數組
10
1314
17
23
14
1211
5
7
9
11
13
15
17
19
21
23
25
當 f-1>f+1 時,眾數較靠近「組中點」的左方
f-1 f+1
©Ming-chi Chen 社會統計 Page.57
分組資料求眾數 Mode- King 插補法
當 f-1<f+1 時,眾數較靠近「組中點」的右方
10
1213
14
23
18
1211
5
7
9
11
13
15
17
19
21
23
25
f-1 f+1
©Ming-chi Chen 社會統計 Page.58
分組資料求眾數 Mode- Czuber 插補法
CBMo
21
1
12
11
ff
ff
為組距為後一組的次數為前一組的次數為眾數組的次數
C1
1
f
f
f
©Ming-chi Chen 社會統計 Page.59
分組資料求眾數 Mode- Czuber 插補法
CBMo
21
1
10
1213
14
23
18
1211
5
7
9
11
13
15
17
19
21
23
25
11 ff12 ff
f1f 1f
©Ming-chi Chen 社會統計 Page.60
分組資料求眾數 Mode- Pearson 經驗法
• Pearson 發現在單峰微偏的次數分配中,平均數至眾數的距離,為平均數至中位數距離的三倍。
)(3 do MXMX
oM dM X
)(3 do MXXM
©Ming-chi Chen 社會統計 Page.61
例題:用三種方法求眾數• 粗眾數 = 45.5• King’s Mo = 40.5 +251/(172+2
51) ×10 = 46.43• Czuber: 40.5 + (1001-172) ×
10/[(1001-172)+(1001-251)]= 45.75
• Pearson: Mo=48.38 –3(48.38-46.51) = 42.77
請問你每星期大約工作幾小時?f F累積次數0.5-10.5小時 27 2710.5-20.5小時 35 6220.5-30.5小時 57 11930.5-40.5小時 172 29140.5-50.5小時 1001 129250.5-60.5小時 251 154360.5-70.5小時 87 163070.5-80.5小時 71 170180.5-90.5小時 50 175190.5-100.5小時 35 1786
1786
©Ming-chi Chen 社會統計 Page.62
中央趨勢統計測量數之比較統計測量數 優 點 缺 點
算算術平均數 1.資料的重心。資料無極端值或偏態時,具代表性。
1.若有極端值存在時則不具代表性
2.適合代數演算 2.資料如為偏態,則代表性較差。 3.考慮所有觀察值,敏感度高。
4.觀察值與平均數差平方和最小 5.適合統計推論的工作
中位數 1.適用於有極端值的資料 1.不適合代數演算 2.適用於偏態資料 2.對觀察值敏感性低 3.觀察值與中位數絕對差和最小 3.不易進行母數統計推論 4.可做無母數統計推論
眾數 1.適用於有極端值的資料 1.可能不止一個或不存在
2.適用於偏態資料 2.敏感性低 3.適用於質的資料 3.不能做統計推論
©Ming-chi Chen 社會統計 Page.63
分配的形狀• 次數分配圖是否對稱? • 如非對稱則為偏態• 如果分配的右尾很長超過左尾時,稱為右偏
©Ming-chi Chen 社會統計 Page.64
Common Shapes of Distributions
• When a distribution is unimodal( 單峰) and symmetric(對稱) like the bell-shaped normal distribution, the mean median, and the mode all coincide.
MeanMedianMode
相對次數
單峰對稱:
Mean = Median =Mode
©Ming-chi Chen 社會統計 Page.65
Common Shapes of Distributions
Mode
相對次數
Median
Mean
右偏分配( skewed to the right) :
Mean > Median >Mode
©Ming-chi Chen 社會統計 Page.66
Common Shapes of Distributions
Mode
相對次數
Mean
Median
左偏分配( skewed to the left) :
Mean < Median <Mode
©Ming-chi Chen 社會統計 Page.67
分位數
• 中位數又稱為二分位數,即將數字資料由小至大排序後,切成二部分。大於及小於中位數者剛好各佔所有數字資料的一半。
• 除了將資料作半切割外,我們也可以將資料切成四等分、十等分、或一百等分。
• 四分位數 (Quartiles): Q1, Q2, Q3, Q4,
• 十分位數 (Deciles): D1, D2, D3, … D10
• 百分位數 (Percentiles): P1, P2, P3, … P100
©Ming-chi Chen 社會統計 Page.68
百分位數
Q1 = P25
Me = Q2=D5 =P50
Q3 =P75
©Ming-chi Chen 社會統計 Page.69
百分位數
• Xp為第 p 個百分位數,則「小於 XP的觀察值佔所有觀察值的 p% 」。
• 基測的PR值
X1 XpX2 X3 Xn
p% (1-p)%
©Ming-chi Chen 社會統計 Page.70
未分組資料求百分位數
• 先將資料由小之大排序。• 以 p為所求之百分位, n為樣本數,計算出百分位
數的位置 i。 i = (p × n)/100• 如果 i 是一個整數,第 p 個百分位數是 i 和 (i + 1) 的
數值的平均。• 如果 i 不是一個整數,第 p 個百分位數是 (i + 1) 的
數值。
X1 XnX2 X3 Xp
©Ming-chi Chen 社會統計 Page.71
未分組資料求百分位數
X1 XnX2 X3 Xp
1 100p n
ip
100
在一百個中間的第 p個,相當於在 n中間的第幾個?
i
整數,則 p分位數= 第 i與第 (i+1)個觀察值的平均值
非整數,則 p分位數 =i下一個觀察值
©Ming-chi Chen 社會統計 Page.72
例題:求下列數列的 70th 80th percentiles
• 18 14 45 32 65 43 25 41 83 51 26 36 40 55 20
• 重組:• 14 18 20 25 26 32 36 40 41 43 45 51 55 65
83
• i =(70 ×15)/100 = 10.5 (not an integer 非整數 )
• 第 11 個觀察值為 70th percentile (70 分位數)
©Ming-chi Chen 社會統計 Page.73
例題:求下列數列的 70th 80th percentiles
• 14 18 20 25 26 32 36 40 41 43 45 51 55 65 83
• i =(80 ×15)/100 = 12 (an integer)
• 第 12 個觀察值為 51 ,第 13th觀察值為 55
• 所以 80 分位數 = (51+55)/2=53
©Ming-chi Chen 社會統計 Page.74
分組資料求百分位數• 有些統計學家認為分組資料應該用 interpolati
ng 內插法的方法來求 p 分位數:
f
CF
npB i
)
100( 1
B=組下界
Fi-1=小於該組的各組次數和
f = 該組次數
C = 組距
©Ming-chi Chen 社會統計 Page.75
四分位數 (Quartiles)
• Q1 :25 百分位數 (25th percentile) 又稱之為下四分位 (lower quartile) 或第一個四分位數 (first quartile) , 25% 的觀察值在此數之下, 75% 的觀察值在此數之上。
• Q3 : 75 百分位數 (75th percentile) 又稱之為上四分位 (upper quartile) 或第三個四分位數 (third quartile) , 75% 的觀察值在此數之下, 25% 的觀察值在此數之上。
©Ming-chi Chen 社會統計 Page.76
Measures of Dispersion分散量數、離差量數、差異量數
• 測量群體中各個觀察值之差異或離中程度的表徵數,即為離差量數。
• 離差小,表示各數值間的差異小,平均數較能代表群體中的各個數值,離差大,表各數值之間的變動很大,較為分散。
• EX) In many financial problems, risk is measured by the amount of variability in the potential returns from an investment
©Ming-chi Chen 社會統計 Page.77
Range全距• The range of a set of observations is the difference
between the largest value and the smallest value.
• 未分組資料 R = Xmax – Xmin( 最大觀察值 - 最小值)• 分組資料 R = Umax – Lmin( 最大組之上界 –最小組之下界)
©Ming-chi Chen 社會統計 Page.78
Interquartile Range 四分位距• IQR = Q3 – Q1
• Semi-interquartile Range 四分位差• QD = (Q3 – Q1) /2 , 即 IQR 的一半為四分位差。• Q3 - Md = Md – Q1
• QD = Q3 - Md=Md - Q1
Q1 Q3
IQR
Md
©Ming-chi Chen 社會統計 Page.79
Deviation from the mean 平均差
• 各個觀察值與平均數之間的距離為衡量此組資料分散程度的良好指標,但如果將所有平均差加總,則:
)(or )( xxux
0)(1
n
i i xx
©Ming-chi Chen 社會統計 Page.80
Mean Absolute Deviation平均絕對差
• The mean absolute deviation (M.A.D.) is calculated using the following formula:
n
xxxxxxDAM n
21...
n
xxi
©Ming-chi Chen 社會統計 Page.81
Mean Absolute Deviation平均絕對差
• 分組資料算 M.A.D.:
n
xmfDAM ii
...
mi 為組中點, fi 為組次數
©Ming-chi Chen 社會統計 Page.82
Population Variance σ2 Population Standard Deviation σ
• 母體變異數與母體標準差
N
)x( 2i2
N
)x( 2i
©Ming-chi Chen 社會統計 Page.83
Sample Variance s2 Sample Standard Deviation s
• 樣本變異數與標準差
1
)( 22
n
xxs i
x
Degree of freedom
©Ming-chi Chen 社會統計 Page.84
Sample Variance s2 Sample Standard Deviation s
• 樣本變異數與標準差
1
)( 22
n
xxs i
x
)2( 22 xxxx ii 22 2 xxxx ii
22 2 xnxnxxi 22 xnxi
ii xxn
n
xx1
222
n
xnxs i
x
©Ming-chi Chen 社會統計 Page.85
例題:求下列數列的標準差
• 樣本變異數與標準差
1
222
n
xnxs i
x
1
)( 22
n
xxs i
x
Xi
345667743
©Ming-chi Chen 社會統計 Page.86
例題:求下列數列的標準差• 步驟一:• 修求平均數• 步驟二:計算Xi
3 (3-5)= -24 (4-5)= -15 (5-5)= 06 (6-5)= 16 (6-5)= 17 (7-5)= 27 (7-5)= 24 (4-5)= -13 (3-5)= -25
Xi - mean
平均數
xxx
©Ming-chi Chen 社會統計 Page.87
例題:求下列數列的標準差
• 步驟三:• 計算 Xi (Xi-mean)2
3 (3-5)= -2 44 (4-5)= -1 15 (5-5)= 0 06 (6-5)= 1 16 (6-5)= 1 17 (7-5)= 2 47 (7-5)= 2 44 (4-5)= -1 13 (3-5)= -2 45 20
Xi - mean2
)( xx
1
)( 22
n
xxs i
x
= 20/(9-1) = 2.5
5811.15.2 s
©Ming-chi Chen 社會統計 Page.88
另解:求下列數列的標準差
Xi Xi2
3 94 165 256 366 367 497 494 163 95 245
2
22
22
2
5.2)19/(20
20225245
22559
245
s
xnx
xn
x
i
i
x
©Ming-chi Chen 社會統計 Page.89
分組資料求變異數及標準差
1
)( 22
n
xmfs ii
x
1
222
n
xnmfs ii
x
2222
22
222
2
2
2
xnmfxnxnxmf
xnmfxmf
xxmmfxmf
iiii
iiii
iiiii
©Ming-chi Chen 社會統計 Page.90
例題:求下列分組資料之變異數及標準差
請問你每星期大約工作幾小時?f
0.5-10.5小時 2710.5-20.5小時 3520.5-30.5小時 5730.5-40.5小時 17240.5-50.5小時 100150.5-60.5小時 25160.5-70.5小時 8770.5-80.5小時 7180.5-90.5小時 5090.5-100.5小時 35
©Ming-chi Chen 社會統計 Page.91
例題:求下列分組資料之變異數及標準差
請問你每星期大約工作幾小時?f mi f*mi
0.5-10.5小時 27 5.5 148.510.5-20.5小時 35 15.5 542.520.5-30.5小時 57 25.5 1453.530.5-40.5小時 172 35.5 610640.5-50.5小時 1001 45.5 45545.550.5-60.5小時 251 55.5 13930.560.5-70.5小時 87 65.5 5698.570.5-80.5小時 71 75.5 5360.580.5-90.5小時 50 85.5 427590.5-100.5小時 35 95.5 3342.5
1786 86403mean = 86403/1786= 48.37794
步驟一:先求出算數平均數
©Ming-chi Chen 社會統計 Page.92
例題:求下列分組資料之變異數及標準差
請問你每星期大約工作幾小時?f mi (mi-mean) (mi-mean)
2f*(mi-mean)
2
0.5-10.5小時 27 5.5 -42.878 1838.518 49640.010.5-20.5小時 35 15.5 -32.878 1080.959 37833.620.5-30.5小時 57 25.5 -22.878 523.400 29833.830.5-40.5小時 172 35.5 -12.878 165.841 28524.740.5-50.5小時 1001 45.5 -2.8779 8.283 8290.850.5-60.5小時 251 55.5 7.12206 50.724 12731.760.5-70.5小時 87 65.5 17.1221 293.165 25505.470.5-80.5小時 71 75.5 27.1221 735.606 52228.080.5-90.5小時 50 85.5 37.1221 1378.047 68902.490.5-100.5小時 35 95.5 47.1221 2220.489 77717.1
1786 391207.39mean = 48.38 14.804175
11786
391207
©Ming-chi Chen 社會統計 Page.93
另解:求下列分組資料之變異數及標準差
請問你每星期大約工作幾小時?f mi mi
2f*mi
2
0.5-10.5小時 27 5.5 30.25 816.7510.5-20.5小時 35 15.5 240.3 8408.7520.5-30.5小時 57 25.5 650.3 37064.2530.5-40.5小時 172 35.5 1260 21676340.5-50.5小時 1001 45.5 2070 2072320.2550.5-60.5小時 251 55.5 3080 773142.7560.5-70.5小時 87 65.5 4290 373251.7570.5-80.5小時 71 75.5 5700 404717.7580.5-90.5小時 50 85.5 7310 365512.590.5-100.5小時 35 95.5 9120 319208.75
1786 4571206.5mean = 48.38 4179999.11
14.80418
1
222
n
xnmfs ii
x
1
22
n
xnmfs ii
x
©Ming-chi Chen 社會統計 Page.94
變異數與標準差之性質S2 0, ≧ 只有在所有觀察值皆相同時,等號才會成立。
22xyii ssaxy
222xyii sasxay
2
22
a
ss
a
xy x
yi
i
©Ming-chi Chen 社會統計 Page.95
變異數與標準差之性質
• 一群資料分成 N1, N2, …Nk等 k 部分,各部分的相對平均數及變異數分別為 μ1,σ1
2, μ2,σ2
2… μk,σk2
N1
σ12
μ1
N2
σ22
μ2
Nk
σk2
μk……
之平均數及標準差為:則全體
k
iiNN
1
©Ming-chi Chen 社會統計 Page.96
變異數與標準差之性質
• 平均數:
N1
σ12
μ1
N2
σ22
μ2
Nk
σk2
μk……
N
uN
NNN
uNuNuNu
k
iii
k
kk
1
21
2211
各組平均數的加權平均數
©Ming-chi Chen 社會統計 Page.97
變異數與標準差之性質
• 變異數:
N
uuux
N
uxk
i
N
jiiij
k
i
N
jij
ii
1 1
2
1 1
2
2
)()()(
N
uuuxuuuxk
i
N
jiiij
k
i
N
ji
k
i
N
jiij
iii
1 11 1
2
1 1
2
2
))((2)()(
觀察值與平均數之差為零
N
uuNNk
iii
k
iii
1
2
1
2 )(i
N
jiij
i N
uxi
1
2
2
)(
觀察值與該組平均數之差
該組平均數與整體平均數之差
N
uuNk
iiii
1
22 ])([
©Ming-chi Chen 社會統計 Page.98
變異數與標準差之性質
• 例題:已知人社系全體同學有以下的統計量:• 男生 40人 ,學期平均成績 83分 , 標準差 4分• 女生 200人,平均成績 85 分,標準差 5分• 請問全班的平均成績為何?標準差為何?
©Ming-chi Chen 社會統計 Page.99
變異數與標準差之性質• N 男=40人 ,μ 男=83分 , σ 男=4分• N 女=200人 ,μ 女=85 分 , σ 女=5 分• 全班平均分數:
N
uNu
k
iii
1
N
NN 女女男男
67.84240
852008340
©Ming-chi Chen 社會統計 Page.100
變異數與標準差之性質• N 男=40人 ,μ 男=83分 , σ 男=4分• N 女=200人 ,μ 女=85 分 , σ 女=5 分• 全班分數標準差:
N
uuNk
iiii
1
22 ])([
20040
])67.8485(5[200])67.8483(4[40 2222
©Ming-chi Chen 社會統計 Page.101
Chebyshëv’s Theorem徹比雪夫定理
• Let c be any number greater than 1. For any sample or population of data, the proportion of observations that lie fewer than c standard deviations from the mean is at least (1 - 1 /c2).
• 令 c 為任意大於 1 的常數,若一母體( 或樣本)的平均數及標準差分別為 μ 及σ ,則介於 (μ - cσ, μ + cσ) 內之觀察值至少為 (1 - 1 /c2) 。
©Ming-chi Chen 社會統計 Page.102
Chebyshëv’s Theorem徹比雪夫定理
μμ-cσ μ+cσ
介於兩紅線之間的觀察值至少有(1-1/c2)
當 c=2時,至少 75% (1-1/4)的觀察值落在平均數左右兩個標準差的範圍內。
當 c=3時,至少 89% (1-1/9)的觀察值落在平均數左右三個標準差的範圍內。
當 c=4時,至少 93% (1-1/16)的觀察值落在平均數左右四個標準差的範圍內。
©Ming-chi Chen 社會統計 Page.103
The Empirical Rule經驗法則
• Chebyshëv’s Theorem 是一個較保守的估計,如果我們知道確切的分佈,則能更精準的估算出落於某範圍的機率。
• When the distribution of a population or sample of data is approximately bell shaped,
• approximately 68% of the values will fall within 1 standard deviation of the mean,
• approximately 95% of the values will fall within 2 standard deviations of the mean, and
• approximately 99.7% of the values will fall within 3 standard deviations of the mean.
©Ming-chi Chen 社會統計 Page.104
The Empirical Rule經驗法則
• 若資料呈現鐘形分配,則:
%68),( 約佔
%95)2,2( 約佔
%7.99)3,3( 約佔
©Ming-chi Chen 社會統計 Page.105
The Empirical Rule經驗法則
• 若資料呈現鐘形分配,則:
68%
95%
99%
μ
μ+σμ-σ
μ+2σμ-2σ
μ-3σ μ+3σ
©Ming-chi Chen 社會統計 Page.106
The Empirical Rule經驗法則
• Consider a bell-shaped distribution approximately ______ percentage of the values lies between μ-2σand μ+σ.
68%
μ
μ+σμ-2σ
μ-σ
μ+2σ
95%
68% ÷2= 34%
95% ÷2= 47.5%
©Ming-chi Chen 社會統計 Page.107
Standardized Score標準化分數
• 有時候我們會想要知道一個觀察值在整組資料中的相對位置。
• 某位同學在班上的成績為 85 分,這個分數本身所傳遞的訊息很有限,我們通常想要進一步知道 85 分究竟是高還是低?也就是說,我們想知道這個分數離一般平均數多遠?
©Ming-chi Chen 社會統計 Page.108
Standardized Score標準化分數
• 標準化分數 (standardized score) 可以告訴我們觀察值在所有資料中的位置,又稱之為 Z score ,表示該觀察值與平均數之間,間隔多少個標準差。
ux
z
s
xxz
X與平均數之間的實際距離
以標準差來表達
©Ming-chi Chen 社會統計 Page.109
例題• 如果全班同學的統計學平均分數為 85 分,標準差為 5 分,請將將下列三位同學的分數改成標準化分數:
• 80, 70, 901
5
85801
z
35
85702
z
15
85903
z
©Ming-chi Chen 社會統計 Page.110
例題• 如果根據經驗法則來看,• 分數低於80分的同學佔全班的______%?• 有多少___%的同學分數低於70?• 高於90分的同學佔______%?
85
908070
©Ming-chi Chen 社會統計 Page.111
Detecting Outliers用標準化分數找出偏離值
• An outlier is an observation that falls far out in the tail of a distribution.
• Sometimes an outlier can be an indication of a faulty or incorrectly recorded observation.
• A Z score can be helpful in detecting an outlier. If the data are approximately normally distributed, then fewer than .3% of the observations have Z scores less than- 3 or greater than + 3.
©Ming-chi Chen 社會統計 Page.112
Coefficient of Variation變異係數
• The coefficient of variation, also called the relative standard deviation, expresses the standard deviation as a percentage of the mean.
%100x
sCV
The CV allows us to consider the dispersion as a proportion of the mean, that is, the dispersion in proportion to the average magnitude of the data.
©Ming-chi Chen 社會統計 Page.113
Coefficient of Variation變異係數
• A 股票過去一年的平均價格為 $100 ,標準差為 $5 。
• B 股票過去一年的平均價格為 $50 ,標準差為 $4 。
• 請問哪一支股票的價格波動較厲害?• A 股票的 CV = 5/100 =5%
• B 股票的 CV=4/50 = 8%
©Ming-chi Chen 社會統計 Page.114
Box Plot (箱型圖)
Q1
Q3
IRQ Median
Max
Min
©Ming-chi Chen 社會統計 Page.115
Box Plot (箱型圖)
Q1
Q3IRQ Median
1.5 IRQ
Inner fence
Inner fence
3 IRQ
Outer fence
Outer fence
Outliers
Extreme
Cases with values between 1.5 and 3 box lengths from the upper or lower edge of the box. The box length is the IRQ.
Extremes: Cases with values more than 3 box lengths from the upper or lower edge of the box.
©Ming-chi Chen 社會統計 Page.116
中位數
Q1 Q3
25,000
IQ R
29,000
內籬 內籬外籬 外籬
19,000 21,000 23,000 27,000
24,050
29,05027,025
15. ( )IQR
3( )IQR 3( )IQ R
15. ( )IQR
21,62519,600
28,250
©Ming-chi Chen 社會統計 Page.117
Statistics
V46
1010
0
49.06
48.00
48
13.12
172.10
83
7
90
44.00
48.00
56.00
Valid
Missing
N
Mean
Median
Mode
Std. Deviation
Variance
Range
Minimum
Maximum
25
50
75
Percentiles
Statistics
V46
741
0
47.92
48.00
48
13.16
173.18
88
2
90
44.00
48.00
50.00
Valid
Missing
N
Mean
Median
Mode
Std. Deviation
Variance
Range
Minimum
Maximum
25
50
75
Percentiles
男性 女性
男女生平均工時的敘述性統計
©Ming-chi Chen 社會統計 Page.118
7411010N =
©Ê§O
¤k¨k
½Ð
°Ý±
z¥ §
¡¨C¬
P´Á
¤j¬
ù¤
u§
@¦h
¤Ö
¤p
®É
100
80
60
40
20
0
outlier
extreme
©Ming-chi Chen 社會統計 Page.119
描述統計之為用:台灣歷年出生性比表 1-1 我國歷年出生嬰兒性別比例按胎次統計 單位: %
年別
胎次別 (100 名女嬰相對男嬰人數 )
合計 第一胎 第二胎 第三胎 第四胎 五胎及以上
198719881989
108.4108.2108.6
107.2107.3107.0
108.2106.9106.9
110.2111.6113.3
113.7111.5120.6
109.8118.0116.3
19901991∫
110.3110.4
106.8107.4
108.7108.5
118.7118.2
128.5129.5
126.7124.4
2000 109.4 106.9 107.7 118.9 135.0 120.2
2001 108.7 106.9 105.8 120.8 135.0 121.2
2002 109.8 106.9 109.1 121.5 138.7 123.0
2003 110.2 107.7 108.9 123.6 139.7 122.2
2004 110.7 108.7 109.4 122.6 134.1 122.8
2005 109.0 107.7 107.1 122.0 124.3 121.9
2006 109.6 107.2 108.2 126.7 136.6 113.3資料來源:內政部「中華民國人口統計年刊」。
©Ming-chi Chen 社會統計 Page.120
描述統計之為用:台灣歷年出生性比趨勢圖歷年嬰兒出生數
0
5
10
15
20
25
30
35
40
45
70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95年
104
105
106
107
108
109
110
111
女嬰出生數
男嬰出生數
嬰兒性比例
性比例(%)
出生數 (萬人 )
©Ming-chi Chen 社會統計 Page.121
統計之為用:我國人口金字塔
©Ming-chi Chen 社會統計 Page.122
人口金字塔
©Ming-chi Chen 社會統計 Page.123
中國人口金字塔, 1990 普查
©Ming-chi Chen 社會統計 Page.124
中國人口金字塔的變遷