Upload
kinge-alling
View
116
Download
0
Embed Size (px)
Citation preview
1
STATISIK
LV Nr.: 0021
WS 2005/06
8. November 2005
2
Varianzanalyse
Varianzanalyse od. ANOVA
• Frage: Hat ein Faktor Einfluss auf ein Merkmal?
• Faktor: Nominal skalierte Größe, Faktorausprägungen = Ebenen oder Stufen
• Merkmal (durch Faktor beeinflusst): Metrische Größe
3
Varianzanalyse
Varianzanalyse
• Einfache Varianzanalyse: Ein Faktor
• Zweifache Varianzanalyse: Zwei Faktoren
• …
4
Varianzanalyse
• Test, für arithmetische Mittel von zwei oder mehr Grundgesamtheiten. – Test, ob die Differenz der arithmetischen Mittel
von zwei oder mehr als zwei Grundgesamtheiten signifikant von Null verschieden ist.
5
Varianzanalyse
• Modellannahmen der Varinazanalyse: – Unabhängigkeit der Stichproben (i=1,…,r)
– Normalverteilung der Merkmale mit µi und σi²
– Varianzhomogenität (Homoskedastizität), d.h. σi² = σ²
6
Varianzanalyse
• Nullhypothese: Alle Gruppen haben den gleichen Mittelwert µ
H0: µ1 = µ2 = … = µ
• Alternativhypothese: Nicht alle Gruppen haben den gleichen Mittelwert µ
H1: mindestens zwei µi sind ungleich
7
Varianzanalyse
• Frage: Beeinflusst der Faktor (nominal-skalierte Größe) das Merkmal (metrisch-skalierte Größe)?
• Unter H0: µi = µ für alle i (i = 1,…,r Faktorstufen).
• Abweichung, die dem Faktor zuzuschreiben sind: αi = µi - µ (i = 1,…,r) heißen wahre Effekte auf der i-ten Ebene.
8
Varianzanalyse
• Modell der einfachen Varianzanalyse:
• xij = µ + αi + eij – µ … Gesamtmittelwert
– αi … Effekt auf der i-ten Ebene
– eij … Versuchsfehler = die Abweichung eines zufällig aus der i-ten Ebene des Faktors herausgegriffenen Beobachtungswertes xik vom Mittelwert µi dieser Ebene.
eij = xij – µi = xij – (µ + αi)
9
Varianzanalyse
• Beispiel: Zugfestigkeit von r = 3 Drahtsorten überprüfen, je Sorte 6 Proben, unabhängig voneinander und N(µi,σ²)-vt. Frage: Bestehen signifikante Unterschiede in der Zugfestigkeit?
i Drahtsorte
j 1 2 3
1 9 7,3 18
2 15,4 15,6 9,6
3 8,2 14,2 11,5
4 3,9 13 19,4
5 7,3 6,8 17,1
6 10,8 9,7 14,4
10
Varianzanalyse
Vorgehensweise:
• Gesamtmittelwert aller Faktorstufen und Mittelwerte der Faktorstufen bestimmen
• Bestimmung der Abweichungen
• Zerlegung der Abweichungsquadratsumme
• Teststatistik und Testverteilung bestimmen
• Entscheidung, Interpretation
11
Varianzanalyse
• Gesamtmittelwert über alle Faktorstufen r
• Mittelwerte der r Faktorstufen
inr
iji=1 j=1
1x = x
N
in
i ijj=1i
1x = x
n
12
Varianzanalyse
• Beispiel: Drahtsorteni Drahtsorte
j 1 2 3 x..
1 9 7,3 18
2 15,4 15,6 9,6
3 8,2 14,2 11,5
4 3,9 13 19,4
5 7,3 6,8 17,1
6 10,8 9,7 14,4
xi. 9,1 11,1 15 11,7
13
Varianzanalyse
• Abweichungen: Quadratsumme der Abweichungen (Sum of Squares)– Abweichungen der Beobachtungen vom
Gesamtmittelwert.
– Summe der Quadratischen Abweichungen– Bezeichnungen: SST (Total), SSG (Gesamt)
inr2
iji=1 j=1
SST= (x -x )
14
Varianzanalyse
• Sum of Squares:– Abweichungen der Beobachtungen der
einzelnen Messreihen vom Mittelwert der jeweiligen Messreihe.
– Summe der Quadratischen Abweichungen des Restes, Maß für die nicht durch den Faktor beeinflusste Restvariabilität
– Bezeichnungen: SSW (Within), SSE (Error), SSR (Residual).
inr2
ij ii=1 j=1
SSW= (x -x )
15
Varianzanalyse
• Sum of Squares:– Abweichungen der Mittelwerte der einzelnen
Messreihen vom Gesamtmittelwert.
– Mit Stichprobengröße multiplizierte Summe der Quadratischen Abweichungen der Stichprobenmittelwerte vom Gesamtmittelwert, also der beobachteten Effekte des Faktors.
– Bezeichnungen: SSB (Between), SSE (Explained), SSM (Model), SST (Treatment),
r2
i ii=1
SSB= n (x -x )
16
Varianzanalyse
• Quadratsummenzerlegung:
• SST = SSB + SSW
• Interpretation: Gesamtvariation (SST) setzt sich aus der Variation zwischen den Messreihen (SSB) und der Variation innerhalb der Messreihen (SSW) zusammen.
i in nr r r2 2 2
ij i i ij ii=1 j=1 i=1 i=1 j=1
(x -x ) n (x -x ) (x -x )
17
Varianzanalyse
• Idee für Test: – Vergleich der Variation zwischen den
Messreihen mit der Variation innerhalb der Messreihen
– Ist die Variation zwischen den Messreihen größer als jene innerhalb der Messreihen, schließe auf Unterschied zwischen den Messreihen (Faktoreffekt).
18
Varianzanalyse
• Teststatistik – Idee: – Aus den Beobachtungswerten werden zwei
voneinander unabhängige Schätzwerte für sW² und sB² für die Varianzen der Beobachtungswerte innerhalb und zwischen den Stichproben bestimmt.
– Liegen keine wahren Effekte vor (Gültigkeit von H0), sind sW² und sB² (bis auf zufällige Abweichungen) gleich.
– Bei Vorhandensein von wahren Effekten (H1) ist sB² systematisch größer als sW².
19
Varianzanalyse
• Erwartungstreuer Schätzer für die Varianz innerhalb der Messreihen (Restvarianz):
• Erwartungstreuer Schätzer für die Varianz zwischen den Messreihen (Faktoreffekt)
inr2 2W ij i
i=1 j=1
1s = (x -x )
N-r
r2 2B i i
i=1
1s = n (x -x )
r-1
20
Varianzanalyse
• Mittlere Quadratsummen (MSS = Mean Sum of Squares):
• Quadratsummen dividiert durch entsprechende Freiheitsgrade
• MSB und MSW sind erwartungstreue Schätzer der Varianz zwischen- und innerhalb der Messreihen.
21
Varianzanalyse
• Varianzanalysetafel (r Messreihen):
Streuungs-ursache
Freiheits-grade (DF)
Quadrat-summe (SS)
Mittlere Quadratsumme (MS)
Unterschied zw Messreihen
r-1 SSB (Between)
MSB = SSB / (r-1)
Zufälliger Fehler
N-r SSW
(Within)
MSW = SSW / (N-r)
Gesamt N-1 SST
(Total)
22
Varianzanalyse
Teststatistik:
• F = MSB / MSW
• F ~ F(r-1),(N-r)
• Entscheidung: Ist F ≤ Fc, lehne H0 nicht ab (Fc = kritischer Wert der F-Verteilung mit (r-1) und (N-r) Freiheitsgraden).
23
Varianzanalyse
• Beispiel: Drahtsorten• Quadratsummenzerlegung: SST = SSB + SSW
– 324,62 = 108,04 + 216,58
• Mittlere Quadratsummen: – MSB = 108,04 / (3-1) = 54,02– MSW = 216,58 / (18-3) = 14,44
• Teststatistik: – F = MSB / MSW = 3,74
• Kritischer Wert der F2;15 Vt. 3,68• Entscheidung: 3,74 > 3,68 => H0 ablehnen, d.h. es
besteht ein signifikanter Unterschied zw. den Sorten
24
Varianzanalyse
• Zweifache Varianzanalyse: – 2 Faktoren (A und B, wobei r Faktorstufen bei
A und p Faktorstufen bei B)– 1 metrische Variable
• Unterscheidung: – Modell ohne Wechselwirkungen zw. den
Faktoren– Modell mit Wechselwirkungen zw. den
Faktoren
25
Varianzanalyse
• Modell ohne Wechselwirkungen zw. den Faktoren
• xijk = µ + αi + βj + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte
– eijk zufällige Fehler
26
Varianzanalyse
• Mittelwerte:
• Gesamt
• Faktor A
• Faktor B
pr n
ijki=1 j=1 k=1
1x = x
rpn p n
i ijkj=1 k=1
1x = x
pn r n
j ijki=1 k=1
1x = x
rn
27
Varianzanalyse
• Schätzer für Gesamtmittel und Effekte
• Gesamtmittel
• Effekt von Faktor A
• Effekt von Faktor B
m=x
i ia =x -m
j jb =x -m
28
Varianzanalyse
• Quadratsummen
•
•
•
• SSR = SST – SSE(A) – SSE(B)
pr n2
ijki=1 j=1 k=1
SST= (x -x )r
2i
i=1
SSE(A)=pn ap
2j
j=1
SSE(B)=rn b
29
Varianzanalyse
• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSR
• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSR = SSR / (rpn-r-p+1)
30
Varianzanalyse
• Prüfgrößen und kritische Werte:
• Faktor A: – F(A) = MSE(A) / MSR
– Fr-1,(nrp-r-p+1);1-α
• Faktor B: – F(B) = MSE(B) / MSR
– Fp-1,(nrp-r-p+1);1-α
31
Varianzanalyse
• Beispiel: 2 Faktoren (Erreger, Antibiotikum)Erreger i
(A) Antibiotikum j (B)
1 2 3 Mittelwerte Schätzer ai
k
1 1 38 40 38
2 35 41 39 38,5 0,667
2 1 42 39 33
2 45 33 34 37,7 -0,167
3 1 38 38 33
2 41 38 36 37,3 -0,500
Mittelwerte 39,8 38,2 35,5 37,8
Schätzer bj 2,000 0,333 -2,333
32
Varianzanalyse
• Modell mit Wechselwirkungen zw. den Faktoren
• xijk = µ + αi + βj + (αβ)ij + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte– αβ Wechselwirkung
– eijk zufällige Fehler
33
Varianzanalyse
• Mittelwerte:
• Gesamt
• Faktor A
• Faktor B
• Wechselwirkung
pr n
ijki=1 j=1 k=1
1x = x
rpn p n
i ijkj=1 k=1
1x = x
pn r n
j ijki=1 k=1
1x = x
rn n
ij ijkk=1
1x = x
n
34
Varianzanalyse
• Gesamtmittel und Effekte
• Gesamtmittel
• Effekt von Faktor A
• Effekt von Faktor B
• Effekt der Wechselwirkung
m=x
i ia =x -m
j jb =x -m
ij ij i j(ab) =x -a -b -m
35
Varianzanalyse
• Quadratsummen
SSR = SST – SSE(A) – SSE(B) – SSE(AB)
pr n2
ijki=1 j=1 k=1
SST= (x -x )r
2i
i=1
SSE(A)=pn ap
2j
j=1
SSE(B)=rn bpr
2ij
i=1 j=1
SSE(AB)=n (ab)
36
Varianzanalyse
• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSE(AB) + SSR
• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSE(AB) = SSE(AB) / (p-1)(r-1)– MSR = SSR / rp(n-1)
37
Varianzanalyse
• Prüfgrößen und kritische Werte: • Faktor A:
– F(A) = MSE(A) / MSR
– Fr-1, pr(n-1); 1-α
• Faktor B: – F(B) = MSE(B) / MSR
– Fp-1, pr(n-1); 1-α
• Wechselwirkung: – F(AB) = MSE(AB) / MSR
– F(p-1)(r-1), pr(n-1); 1-α
38
Varianzanalyse
• Beispiel: 2 Faktoren + Wechselwirkung
Erreger i Antibiotikum j (Faktor B)
(Faktor A) 1 2 3 xi.. ai
k xi1k xi1. (ab)i1 xi2k xi2. (ab)i2 xi3k xi3. (ab)i3
1 1 38
36,5 -4,000
40
40,5 1,667
38
38,5 2,333
2 35 41 39 38,5 0,667
2 1 42
43,5 3,833
39
36 -2,000
33
33,5 -1,833
2 45 33 34 37,7 -0,167
3 1 38
39,5 0,167
38
38 0,333
33
34,5 -0,500
2 41 38 36 37,3 -0,500
x.j. 39,8 38,2 35,5 37,8
bj 2,000 0,333 -2,333
39
Varianzanalyse
• Beispiel: Varianzanalysetafel
• Faktor Erreger: kein Effekt
• Faktor Antibiotikum: Effekt
• Interaktion: Effekt (impliziert, dass auch Faktor Erreger eine Wirkung hat).
Streuungs-ursache
Freiheits-grade
Quadrat-summe
Mittlere Quadrats.
Test-statistik
Kritischer Wert
Erreger 2 4,33 2,16667 0,52 4,26
Antibiotikum 2 57,33 28,6667 6,88 4,26
Interaktion 4 93,33 23,3333 5,60 3,63
Fehler 9 37,50 4,16667
Total 17 192,5
40
VarianzanalyseErreger - Antibiotikum
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
0 1 2 3 4
Antibiotikum
Mit
telw
ert
e
Erreger 1
Erreger 2
Erreger 3
41
Nichtparametrische ANOVA
• Kruskal-Wallis Test• Unterscheiden sich die Mittelwerte von p
Messreihen (n1, …, np)? • Voraussetzungen:
– Stetige Verteilung der Messreihen – Mindestens Ordinalskala – Setzt weder Normalverteilung, noch
Varianzhomogenität voraus.
• Hypothese: – H0: Mittelwerte der p Messreihen sind gleich – H1: Mittelwerte unterscheiden sich
42
Nichtparametrische ANOVA
• Vorgehensweise:– N Messwerten X11, …, Xpnp werden Rangzahlen
rij zugewiesen.
– Summe der Ränge der einzelnen Messreihen berechnen:
– Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge
in
i ijj=1
r = r
43
Nichtparametrische ANOVA
• Prüfgröße:
– g … Anzahl der verschiedenen Messwerte– t … wie oft tritt ein Messwert auf– Treten keine Bindungen auf, ist B = 1
p2i
i=1 i
1 12 1H= r -3(N+1)
B N(N+1) n
g
3l3
i=1
1B=1- (t -t)
N -N
44
Nichtparametrische ANOVA
• Entscheidung:– H0 ablehnen, wenn H > hp(n1,…,np);1-α
– h … kritische Werte (Tabelle, z.B. Hartung S. 615)
• Approximation durch χ²p-1,1-α Verteilung: – H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ²
Verteilung)