Upload
others
View
17
Download
0
Embed Size (px)
Citation preview
1
生物統計學
江大雄
師大健康促進與衛生教育研究所
統計概念
統計可分「估計(Estimation)」和「推論(Inference)」
兩大部份。
前者為估算平均數、標準差與百分比等。後者為
「假說檢定」,常會使用到各種不同的檢定方法。
與前者有關的統計稱為「描述性統計」,與後者有
關的統計稱為「推論性統計」。
2
統計概念
「描述統計」可經由描述數據過程中,產生問
題或假說。
「分析統計」的目的則在測試前者產生的問題
或假說是否屬實。其結果可用來解釋一個事實
或現象,或用來做預測用。
母數(Parameter)與統計值(Statistics)
描述母群體(population)的指標參數稱為母數
(parameter)。
描述樣本(sample)的指標參數稱為統計值
(statistics)。
母數通常是指平均數 m 和變異數s2,其相對應
的樣本統計值為 和s2。 x
3
無母數(non-parameter)
指的是中位數(median)、極小值(minimum)、極
大值(maximum)、四分位數(quartile)、十分位
數(decile)、百分位數(percentile)等。
針對序數(rank)而言。
不牽涉變項的分佈。
描述性統計–變項
變項(Variable,Covariate,Field,String):
類別變項(Categorical variable)
- 命名變項(Nominal variable):互斥,不能比大
小。如性別、血型。【頻率、次數與百分比】
- 序位變項(Ordinal variable):互斥,可比大小,
但單位間不一定等距,如教育程度、成績。【頻
率、次數與百分比】
等距變項(Interval variable):如長度、重量。
【平均數與變異數】
4
描述性統計–變項
變項(Variable,Covariate,Field,String):
連續性變項(continuous variable)與非連續性變
項(discrete variable):等距變項為連續性變項,
命名變項與序位變項為非連續性變項。
自變項(independent variable)與依變項
(dependent variable):自變項有解釋或預測的
功能。依變項則是隨自變項變動產生的反應或
結果變項。
集中量數(Central Tendency)
算術平均數(Arithmetic mean):易受極端值影響。
=
為母群體平均數 m 之無偏差估計值。
例:(120+80+90+110+95)/5 = 99 mmHg
加權平均數(Weighted mean): =
f 為權數。
(3*120+2*80+5*90+1*110+2*95)/13 = 98 mmHg
X
N
x
x
x
f
fX
5
集中量數(Central Tendency)
中位數(Median):若資料中有若干個極大或極
小值時,以中位數較能代表全體數值之集中量
數。(序數rank)
若個案數(n)為奇數,則中位數為第(n+1)/2個觀
測值。若個案數(n)為偶數,則中位數為第n/2
與n+2/2個觀測值之平均值。
80 90 95 110 120
集中量數(Central Tendency)
眾數(Mode):出現頻率最多之值,又稱為流行
值,可能會有好幾個。較適於類別變項。若以
圖形表示所有數值,則在最高峰處(peak)的對應
數值為眾數。
若資料屬於類比變項,則要先計算那一組人數
最多,再取該組組距的中點為眾數。
6
集中量數(Central Tendency)
幾何平均數(Geometric mean):通常用於微生
物或血清資料的研究,可以用來表示平均改變
率、平均生長率和平均比率。
GM x x x x antin
xn in
i
n
n
1 21
1log log
集中量數(Central Tendency)
盤尼西林抑制淋菌生長的最低濃度
幾何平均數
= antilog{[(21*log(0.03125)+6*log(0.0625)+…+3*log(1.0)]/74}
= 0.0143 mg/ml
濃度(mg/ml)
頻率 濃度(mg/ml)
頻率
0.03125 21 0.250 19
0.0625 6 0.50 17
0.125 8 1.0 3
7
變異量數(發散Dispersion)
全距(Range):為群體中最大值與最小值的差。
平均差(mean deviation):各數值與平均值之相差值的平
均數。其公式為:
平均差 =
變異數(Variance):將每個數值減以平均值後平方相加之
總和(sum of square,SS),再除以個案數。
x x
n
變異量數(發散Dispersion)
母群體變異數 σ2 =
樣本變異數 s2 =
※ 為估計值,所以樣本數 n要減1。s2為σ2之無偏差
估計值。n-1稱為自由度(degree of freedom)
標準差(Standard deviation):由變異數開平方根而來,族群
的標準差為σ;樣本之標準差為 s。針對變項的一群數值而
言。
2
XN
m
2
1
x xn
x
sum of square
8
變異量數(發散Dispersion)
標準誤(standard error, SE):標準差除以
s/ 係針對一群母群體平均數的分佈而言。
s / 係針對一群母群體平均數的分佈而言。
中央極限定理(central theorem limit):
重複取樣,每個樣本的樣本數至少30,則這
些樣本的平均數呈現常態分佈。
n
n
n
變異量數(發散Dispersion)
變異係數(Coefficient of Variance, C.V.):
( ) *100%
主要作用為比較二種不同變項的變異情形,若CV
值愈大,表示測量愈不好。
CV值一般以不超過30%為佳,若超過則不宜以
「平均值+標準差」來表達變項,應以全距及最大
和最小值來表示。
例: 10.3+4.4 , 7.9+1.3 , 6.5+11.2
s
m or
S
x
9
17
Percentile, Quartile
Percentile: e.g. 25th Percentile, 1st quartile
Shapes of the Variable Distribution
任何連續變項都能計算它的集中量數和變異量
數,但無法描述整個資料的狀況。
Three common shapes of frequency distributions:
Symmetrical
and bell shaped
Positively skewed or
skewed to the right
Negatively skewed or
skewed to the left
A B C
10
變項之分佈(distribution)
• 對稱 (symmetric)
– Left tail looks like right tail
– Mean = Median = Mode
Mean Median Mode
變項之分佈(distribution)
偏右 (right skewed, positively skewed)
Long right tail
Mean > Median
Mean Mode
Median
11
變項之分佈(distribution)
• 偏左 (left skewed, negatively skewed)
– Long left tail
– Mean < Median
Mode Median Mean
變項之分佈(distribution)
常態分佈(normal distribution):X ~ N(m, s2)
Mean
Standard Deviation Standard Deviation
Mean
12
Normal distribution
平均數(期望值)與變異數
變項內的每一個數減去一個正數,則平均數減少一個正數,變異數不改變。圖形向左移一個正數單位。
變項內的每一個數加上一個正數,則平均數增加一個正數,變異數不改變。圖形向右移一個正數單位。
E(X-a) = E(X) – a = m – a (圖形左右移動);
Var(X-a) = Var(X) = s2 。
變項內的每一個數乘以一個常數,則平均數乘以一個常數,變異數增加為常數的平方倍。若常數大於1,則圖形變為寬扁。若常數小於1,則圖形變為尖聳。
Var(3X) = 32*Var(X) = 9 s2 (圖形變寬扁)
Var(X/3) = (1/3)2*Var(X) = (1/9) s2 (圖形變高聳)
http://upload.wikimedia.org/wikipedia/commons/1/1b/Normal_distribution_pdf.png
13
Z distribution:X~N(0, 1)
Standard Score (Z) = (x-m)/s或= (x - )/s
x
Standard Normal Scores (Z值)
Z = 1:觀察值位於平均值右側1個標準差的位置
Z = 2 :觀察值位於平均值右側2個標準差的位置
Z = -1:觀察值位於平均值左側1個標準差的位置
Z = -2:觀察值位於平均值左側2個標準差的位置
14
Z值的計算
假設男性血壓平均值為125mmHg,標準差為
14mmHg。
若一男性血壓值為167mmHg,則其Z值為
(167-125)/14 = 3.0。
若另一男性血壓值為97mmHg,則其Z值為
(97-125)/14 = -2.0。
Z值的意義與運用
Within Z SDs of the mean
More than Z SDs above the mean
More than Z SDs above or below the mean
Z
1.0
2.0 2.5 3.0
68.27%
95.45% 98.76% 99.73%
15.87%
2.28% 0.62 % 0.13%
31.73%
4.55% 1.24% 0.27%
Within Z SDs of the mean
More than Z SDs above the mean
More than Z SDs above or below the mean
Z
1.0
2.0 2.5 3.0
68.27%
95.45% 98.76% 99.73%
15.87%
2.28% 0.62 % 0.13%
31.73%
4.55% 1.24% 0.27%
15
Binormial distribution X~B(m=np, s2=np(1-p))
Binomial PDF and Normal approximation for n=6 and p=0.5.
c2 distribution
http://upload.wikimedia.org/wikipedia/commons/2/21/Chi-square_distributionPDF.png
16
變項的表達-折線圖
變項的表達-XY散佈圖 (scattergram)
17
變項的表達-日字圖(Box plot)
變項的表達-莖葉圖 (Stem and leaf plot)
18
推論性統計
統計假設:
原始(虛無)假設(H0)與替代假設(H
1)
雙尾假設:H0:m
1 = m
2; H
1:m
1 m
2
單尾假設:H0:m1 = m2; H1:m1 > m2
單尾假設:H0:m1 = m2; H1:m1 < m2
推論性統計
值:type I error或significant level。若原始假設H0是正確
的,檢定結果卻排除了原始假設H0,此種誤差稱type I
error,其大小以值表示。通常值的大小不超過0.05。
b值:type II error。若替代假設H1是正確的,檢定結果卻
排除了替代假設H1,此種誤差稱type II error,其大小以b
值表示。通常b值的大小不超過0.20。(1-b)稱為檢定方法的
效力(power),效力在檢定時,至少要不小於80%。
19
推論性統計
Ho HA
Reject
Ho
Not
Reject Ho
D
E
C
I
S
I
O
N
TRUTH
Type I Error
-level
Type II Error
b
Power
1- b
Ho HA
Reject
Ho
Not
Reject Ho
D
E
C
I
S
I
O
N
TRUTH
Type I Error
-level
Type II Error
b
Power
1- b
推論性統計
(1-)信賴區間(Confidence Interval,CI):
(1-) CI of m: Z(1-/2)* s (雙尾)
Z(1-) * s (單尾)
※ =0.05,則為95%信賴區間。
※ 若為樣本的95%信賴區間,則以95%
Confidence Limit (CL) 表示。
x
x
20
推論性統計
若變項為線性分佈,則其95%信賴區間對平均數
呈對稱分佈。如:平均數為3.9, 95%信賴區間為
(1.6, 6.2)。
若變項為非線性分佈,則其95%信賴區間對平均
數不呈對稱分佈。如:Odds ratio 0.88之95%信賴
區間為(0.32, 2.40)。
40
接受H0區和排除H0區 (acceptance & rejection region)
21
推論性統計
自由度(degree of freedom, df):每一個樣本的
df 為1,每一個估計的母數值也為1。
p值 (p value):在原始假設下,檢定值所在之
尾端區面積。
p < 0.05代表有統計顯著意義 (statistically
significant) 。
42
mean m1< null mean m0
mean m1 null mean m0
22
母數檢定方法 (parameter test, distribution test)
Z檢定:
檢定樣本平均數和母群體平均數之差異。
H0 : m = m0,H1 : m m0。
Z = ( - m0)/(s / )
檢定兩個比率間之差異。(可用c2 檢定取代)
H0 : p1 = p2,H1 : p1 p2 。
x n
Z 檢定
美國21~40歲婦女的膽固醇平均值為190 mg/dL,標準差為40 mg/dL。選取200位同年齡群亞洲移民婦女,測得她們的膽固醇平均值為181.52 mg/dL。比較移民婦女與美國婦女的膽固醇平均值有無差異?
H0 : m = m0 = 190,H1 : m m0 (= 190)
Z = (181.52-190)/(40/ ) = -3.00
-3.00 < Z0.025(= -1.96) → 排除原始假設
P value = 2*(-3.00) = 0.003 < (=0.05)
200
23
Student’s t 檢定
比較兩個獨立樣本的平均數。
H0 : m1 = m2,H1 : m1 m2
或 H0 : m1 - m2 = 0,H1 : m1 - m2 0
兩個獨立樣本都要有常態分佈
測試是否有相同的變異數分佈(Bartlett’s test)
t test with equal variance (同質性)
t test with unequal variance (異質性)
樣本同質性?異質性?
24
Bartlett’s 檢定(測變異數是否相同?)
H0 : = ,H1 :
若Bartlett 檢定的p值>0.05,表示兩個樣本為同質性。
比較這兩個樣本的平均數要使用有同質性的t檢定(t test
with equal variance)。
若Bartlett 檢定的p值
25
Student’s t 檢定
比較抽菸者65人和非抽菸者589人的用力呼氣
量(Forced Expiroatory Volume, FEV)。
50
Student’s t test with equal variance
Pooled variance
26
Student’s t test with unequal variance
修正degree of freedom
Student’s t 檢定(Using FEV data)
抽菸者和無抽菸者的FEV平均數無統計顯著差異(P>0.05).
27
Paired t test (before-after test)
自己當做自己的對照組,減少個案間的差異。也
可減少樣本數。
10位婦女使用避孕丸前後,血壓有無增加?
H0 : = 0,H1 : 0,where
= (Sdi)/n
dj: 使用避孕丸後的血壓增減值
d d
d
Paired t test
BP Before OC BP After OC After-Before
1. 115 128 13
2. 112 115 3
3. 107 106 -1
4. 119 128 9
5. 115 122 7
6. 138 145 7
7. 126 132 6
8. 105 109 4
9. 104 102 -2
10. 115 117 2
Sample
Mean: 115.6 120.4 4.8 (SD, 4.6 mmHg)
28
Paired t test
tpaired = ( - 0)/ (4.6/ ) = 4.8/1.45 = 3.30
3.30稱為 t 檢定值,自由度=10-1=9,
p = 0.0089 < 0.05
避孕藥的使用會影響血壓。
10d
Pearson c2 test (卡方檢定)
觀查值表(Observed Table)
D: 有病; :無病
E:有暴露; :無暴露
D 合計
E a b a+b
c d c+d
合計 a+c b+d a+b+c+d=n
D
E
D
E
29
Pearson c2 test (卡方檢定)
期望值表(Expected Table)
D 合計
E (a+b)*(a+c)/n (a+b)*(b+d)/n a+b
(c+d)*(a+c)/n (c+d)*(b+d)/n c+d
合計 a+c b+d a+b+c+d=n
D
E
Pearson c2 test (卡方檢定)
用來做類別資料分析。
c2 =
R*C表:習慣上自變項(Column)在上,依變項
(Row)在左。
自由度(df) = (R-1)*(C-1)
CR
E
EO*
1
2
)(
30
生魚片 有病 沒病 合計
有吃 43 11 54
沒吃 3 18 21
合計 46 29 75
生魚片 有病 沒病 合計
有吃 33 21 54
沒吃 13 8 21
合計 46 29 75
期望值表
觀查值表
= [(43-33)2 / 33] + [(11-21) 2 / 21]
+ [(3-13)2 / 13] + [(18-8)2 / 8]
= 27.984 ~ c21, 0.975
P值 = 0.0000002
H0 : p1 = p2,H1 : p1 p2
p1 → p1 = 43/46 = 93.5%
p2 → p2 = 11/29 = 37.9%
測試兩個獨立比率是否相同
生魚片 有病 沒病 合計
有吃 43 11 54
沒吃 3 18 21
合計 46 29 75
觀查值表
生魚片 有病 沒病 合計
有吃 33 21 54
沒吃 13 8 21
合計 46 29 75
期望值表
H0 : p11 = p‧1* p 1‧
H1 : p11 p‧1* p 1‧
測試兩個變項是否相關
P‧1 → p‧1 = 46/75 = 61.3%
P1‧ → p1‧ = 54/75 = 72.0%
P11 → p11 = 43/75 = 57.3%
= [(43-33)2 / 33] + [(11-21) 2 / 21]
+ [(3-13)2 / 13] + [(18-8)2 / 8]
= 27.984 ~ c21, 0.975
P值 = 0.0000002
31
Yate’s corrected c2 test (葉氏修正c2檢定)
c2yate’s =
適用於中等大小樣本。
若c2檢定呈現無統計顯著意義,但葉氏修正c2
檢定呈現統計顯著意義,則採用葉氏修正c2檢
定的結果。
CR
E
EO*
1
2
)5.0|(|
Fisher’s exact test (費雪氏確實檢定)
當R*C格數中有超過20%格數的預期值小於5
時,使用此檢定法。
32
線性迴歸 (linear regression analysis)
簡單線性迴歸(Simple linear regression):自變項
及依變項皆為等距變項,使用單一自變項解釋或
預測單一依變項。
樣本迴歸方程式 Yi=b0+b1Xi+i;一般寫成
Y=b0+b1X+。b0:截距;b1:迴歸係數;i:抽
樣誤差
三個重要假設:Yi要相互獨立;有相同之分佈;
i ~ N(0,s2)。
64
簡單線性迴歸 (Simple linear regression analysis)
年齡每增加一歲,就增加0.222公升的FEV值。
33
線性迴歸 (linear regression analysis)
複線性迴歸(Multiple linear regression):用多個
自變項來解釋或預測一個依變項。 例:探討
年齡、體重、性別、血型、與收縮壓之關係。
迴歸方程式:Yi=b0+b1X1i+b2X2i +… +bpXpi +i
類別變項需轉換成擬似變項(dummy variable):
需設(K-1)個擬似變項。
66
複線性迴歸 (Multiple linear regression analysis)
控制身高、性別和抽菸狀態後,
年齡每增加一歲,就增加0.049公升的FEV值。
34
變異數分析(Analysis of Variance)
用在比較多個平均數。若F test結果顯示沒有統
計差異,則不需要進一步做多個平均數間之比
較。否則,要做如:Scheffe test;Tukey test;
Bonferroni test等之多個平均數檢定法。
變異數分析(Analysis of Variance)
3,000多人依其抽煙狀況分為六組:Nonsmokers
(NS), Passive smokers (PS), Non-inhaling
smokers (NI), Light smokers (LS), Moderate
smokers (MS), Heavy smokers (HS)。
除不吸入組取50人外,其他組各抽200人。測量
這些人的FEF (Forced Expiratory Flow)。
35
變異數分析(Analysis of Variance)
FEF Da ta for S mo k ing and N on-Sm ok in g Ma les
Mea n FEF S D FEF
G roup (L /s) (L/s ) n
NS 3.7 8 0 .79 20 0
P S 3.3 0 0 .77 20 0
NI 3.3 2 0 .86 5 0
LS 3.2 3 0 .78 20 0
M S 2.7 3 0 .81 20 0
HS 2.5 9 0 .82 20 0
變異數分析(Analysis of Variance)
單一變項ANOVA (one-way analysis of variance)結果
顯示六組之FEF有統計上的顯著差異(p < 0.001)。
若組別間FEF平均值間的變異數(between group
variation)大於組內的變異數(within group variation),
則代表組別間的FEF值確實有差異。
36
變異數分析(Analysis of Variance) 2.5
33.5
4
FE
F V
alu
es (
L/s
)
NS PS NI LS MS HSSmoking Group
變異數分析(使用FEV data)
72
37
對數邏輯迴歸(logistic regression analysis)
當依變項非連續變項,而為兩項式之類比變項時,
解釋或預測自變項與依自變項間關係時採用此種
分析法。
算出來的迴歸係數稱logit,elogit = OR。若發病率
小於5%,則算出來的迴歸係數可用來計算elogit =
RR。(OR:Odds Ratio; RR=Relative Risk)
簡單對數邏輯迴歸(使用Oswego data)
香草冰淇淋和食品中毒有統計相關
38
複對數邏輯迴歸(使用Oswego data)
控制年齡後,香草冰淇淋和食品中毒有統計相關
Pearson correlation ()
相依係數值()是用來表示兩連續變項間的線性相
關。值 > 0表示正相關,也就是自變項增加,依
變項跟著增加。 值 < 0表示負相關,也就是自變
項增加,依變項則減少。 值 = 0表示自變項與依
變項不相關。
用XY散佈圖可以觀看出自變項(X)與依變項(Y)的
關係是直線,還是曲線?
39
Pearson correlation ()
迴歸分析的R2值,除了表是依變項(Y)的變異數
有多少比率為自變項(X)所解釋。R值表示自變
項(X)和依變項(Y)的相關情形。正或負相關可由
自變項(X)的迴歸係數的正負值來決定。如迴歸
係數為負值,則R值為負值,表示負相關。
兩個類比變項的相依係數由Spearman rank
correlation來表示。
78
Pearson correlation ()
年齡和FEV的相關係數為0.7565,有統計顯著意義。
40
無母數檢定方法 (non parameter test, distribution free test)
不需要符合變項分佈的假設。
使用序數(rank)。
適用於小樣本。
不受偏離值(outliers)的影響。母數檢定法很容
易受偏離值(outliers)的影響而有不同的檢定結
果。
相對於母數檢定法而言,無母數檢定法較不
powerful (sensitive)。
無母數檢定方法 (non parameter test, distribution free test)
若不合乎 t 檢定的假設,則無法比較兩個獨立樣本的
平均值。但可使用無母數檢定方法中的Wilcoxon rank
sum test (又稱Mann-Whitney test或U test)來比較兩個
獨立樣本的中位數值。
若不符合ANOVA的假設,則可使用Kruskal-Wallis
test來比較三個或三個以上獨立樣本的中位數值 。
41
Wilcoxon rank sum test
10位高中生隨機分配到實驗組和對照組,觀查
兩個月衛生教育對實驗組的影響。
兩組的衛生教育評分為:
實驗組 (I) 5 0 7 2 19
對照組 (C) 6 -5 -6 1 4
Wilcoxon rank sum test
先將所有成績排序,再算各組序數平均值。
-6 –5 0 1 2 4 5 5 7 19
Rank 1 2 3 4 5 6 7 8 9 10
Group C C I C I C I C I I
實驗組序數平均值 =
對照組序數平均值 =
865
109653 .
2.45
86421
42
Wilcoxon rank sum test
依照公式比較兩個序數平均值(中位數值) 6.8和
4.2,得知 p 值為0.17 > 0.05。(接受兩組序數平
均值沒有差異的原始假設)
兩個月的衛生教育並未造成學生生活方式的差
異。
無母數檢定(Using FEV data)
84 抽菸者和無抽菸者的FEV中位數無統計顯著差異(P>0.05).