44
1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

Embed Size (px)

Citation preview

Page 1: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

1

STATISIK

LV Nr.: 0021

WS 2005/06

8. November 2005

Page 2: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

2

Varianzanalyse

Varianzanalyse od. ANOVA

• Frage: Hat ein Faktor Einfluss auf ein Merkmal?

• Faktor: Nominal skalierte Größe, Faktorausprägungen = Ebenen oder Stufen

• Merkmal (durch Faktor beeinflusst): Metrische Größe

Page 3: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

3

Varianzanalyse

Varianzanalyse

• Einfache Varianzanalyse: Ein Faktor

• Zweifache Varianzanalyse: Zwei Faktoren

• …

Page 4: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

4

Varianzanalyse

• Test, für arithmetische Mittel von zwei oder mehr Grundgesamtheiten. – Test, ob die Differenz der arithmetischen Mittel

von zwei oder mehr als zwei Grundgesamtheiten signifikant von Null verschieden ist.

Page 5: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

5

Varianzanalyse

• Modellannahmen der Varinazanalyse: – Unabhängigkeit der Stichproben (i=1,…,r)

– Normalverteilung der Merkmale mit µi und σi²

– Varianzhomogenität (Homoskedastizität), d.h. σi² = σ²

Page 6: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

6

Varianzanalyse

• Nullhypothese: Alle Gruppen haben den gleichen Mittelwert µ

H0: µ1 = µ2 = … = µ

• Alternativhypothese: Nicht alle Gruppen haben den gleichen Mittelwert µ

H1: mindestens zwei µi sind ungleich

Page 7: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

7

Varianzanalyse

• Frage: Beeinflusst der Faktor (nominal-skalierte Größe) das Merkmal (metrisch-skalierte Größe)?

• Unter H0: µi = µ für alle i (i = 1,…,r Faktorstufen).

• Abweichung, die dem Faktor zuzuschreiben sind: αi = µi - µ (i = 1,…,r) heißen wahre Effekte auf der i-ten Ebene.

Page 8: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

8

Varianzanalyse

• Modell der einfachen Varianzanalyse:

• xij = µ + αi + eij – µ … Gesamtmittelwert

– αi … Effekt auf der i-ten Ebene

– eij … Versuchsfehler = die Abweichung eines zufällig aus der i-ten Ebene des Faktors herausgegriffenen Beobachtungswertes xik vom Mittelwert µi dieser Ebene.

eij = xij – µi = xij – (µ + αi)

Page 9: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

9

Varianzanalyse

• Beispiel: Zugfestigkeit von r = 3 Drahtsorten überprüfen, je Sorte 6 Proben, unabhängig voneinander und N(µi,σ²)-vt. Frage: Bestehen signifikante Unterschiede in der Zugfestigkeit?

i   Drahtsorte  

j 1 2 3

1 9 7,3 18

2 15,4 15,6 9,6

3 8,2 14,2 11,5

4 3,9 13 19,4

5 7,3 6,8 17,1

6 10,8 9,7 14,4

Page 10: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

10

Varianzanalyse

Vorgehensweise:

• Gesamtmittelwert aller Faktorstufen und Mittelwerte der Faktorstufen bestimmen

• Bestimmung der Abweichungen

• Zerlegung der Abweichungsquadratsumme

• Teststatistik und Testverteilung bestimmen

• Entscheidung, Interpretation

Page 11: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

11

Varianzanalyse

• Gesamtmittelwert über alle Faktorstufen r

• Mittelwerte der r Faktorstufen

inr

iji=1 j=1

1x = x

N

in

i ijj=1i

1x = x

n

Page 12: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

12

Varianzanalyse

• Beispiel: Drahtsorteni   Drahtsorte    

j 1 2 3 x..

1 9 7,3 18  

2 15,4 15,6 9,6  

3 8,2 14,2 11,5  

4 3,9 13 19,4  

5 7,3 6,8 17,1  

6 10,8 9,7 14,4  

xi. 9,1 11,1 15 11,7

Page 13: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

13

Varianzanalyse

• Abweichungen: Quadratsumme der Abweichungen (Sum of Squares)– Abweichungen der Beobachtungen vom

Gesamtmittelwert.

– Summe der Quadratischen Abweichungen– Bezeichnungen: SST (Total), SSG (Gesamt)

inr2

iji=1 j=1

SST= (x -x )

Page 14: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

14

Varianzanalyse

• Sum of Squares:– Abweichungen der Beobachtungen der

einzelnen Messreihen vom Mittelwert der jeweiligen Messreihe.

– Summe der Quadratischen Abweichungen des Restes, Maß für die nicht durch den Faktor beeinflusste Restvariabilität

– Bezeichnungen: SSW (Within), SSE (Error), SSR (Residual).

inr2

ij ii=1 j=1

SSW= (x -x )

Page 15: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

15

Varianzanalyse

• Sum of Squares:– Abweichungen der Mittelwerte der einzelnen

Messreihen vom Gesamtmittelwert.

– Mit Stichprobengröße multiplizierte Summe der Quadratischen Abweichungen der Stichprobenmittelwerte vom Gesamtmittelwert, also der beobachteten Effekte des Faktors.

– Bezeichnungen: SSB (Between), SSE (Explained), SSM (Model), SST (Treatment),

r2

i ii=1

SSB= n (x -x )

Page 16: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

16

Varianzanalyse

• Quadratsummenzerlegung:

• SST = SSB + SSW

• Interpretation: Gesamtvariation (SST) setzt sich aus der Variation zwischen den Messreihen (SSB) und der Variation innerhalb der Messreihen (SSW) zusammen.

i in nr r r2 2 2

ij i i ij ii=1 j=1 i=1 i=1 j=1

(x -x ) n (x -x ) (x -x )

Page 17: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

17

Varianzanalyse

• Idee für Test: – Vergleich der Variation zwischen den

Messreihen mit der Variation innerhalb der Messreihen

– Ist die Variation zwischen den Messreihen größer als jene innerhalb der Messreihen, schließe auf Unterschied zwischen den Messreihen (Faktoreffekt).

Page 18: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

18

Varianzanalyse

• Teststatistik – Idee: – Aus den Beobachtungswerten werden zwei

voneinander unabhängige Schätzwerte für sW² und sB² für die Varianzen der Beobachtungswerte innerhalb und zwischen den Stichproben bestimmt.

– Liegen keine wahren Effekte vor (Gültigkeit von H0), sind sW² und sB² (bis auf zufällige Abweichungen) gleich.

– Bei Vorhandensein von wahren Effekten (H1) ist sB² systematisch größer als sW².

Page 19: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

19

Varianzanalyse

• Erwartungstreuer Schätzer für die Varianz innerhalb der Messreihen (Restvarianz):

• Erwartungstreuer Schätzer für die Varianz zwischen den Messreihen (Faktoreffekt)

inr2 2W ij i

i=1 j=1

1s = (x -x )

N-r

r2 2B i i

i=1

1s = n (x -x )

r-1

Page 20: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

20

Varianzanalyse

• Mittlere Quadratsummen (MSS = Mean Sum of Squares):

• Quadratsummen dividiert durch entsprechende Freiheitsgrade

• MSB und MSW sind erwartungstreue Schätzer der Varianz zwischen- und innerhalb der Messreihen.

Page 21: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

21

Varianzanalyse

• Varianzanalysetafel (r Messreihen):

Streuungs-ursache

Freiheits-grade (DF)

Quadrat-summe (SS)

Mittlere Quadratsumme (MS)

Unterschied zw Messreihen

r-1 SSB (Between)

MSB = SSB / (r-1)

Zufälliger Fehler

N-r SSW

(Within)

MSW = SSW / (N-r)

Gesamt N-1 SST

(Total)

Page 22: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

22

Varianzanalyse

Teststatistik:

• F = MSB / MSW

• F ~ F(r-1),(N-r)

• Entscheidung: Ist F ≤ Fc, lehne H0 nicht ab (Fc = kritischer Wert der F-Verteilung mit (r-1) und (N-r) Freiheitsgraden).

Page 23: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

23

Varianzanalyse

• Beispiel: Drahtsorten• Quadratsummenzerlegung: SST = SSB + SSW

– 324,62 = 108,04 + 216,58

• Mittlere Quadratsummen: – MSB = 108,04 / (3-1) = 54,02– MSW = 216,58 / (18-3) = 14,44

• Teststatistik: – F = MSB / MSW = 3,74

• Kritischer Wert der F2;15 Vt. 3,68• Entscheidung: 3,74 > 3,68 => H0 ablehnen, d.h. es

besteht ein signifikanter Unterschied zw. den Sorten

Page 24: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

24

Varianzanalyse

• Zweifache Varianzanalyse: – 2 Faktoren (A und B, wobei r Faktorstufen bei

A und p Faktorstufen bei B)– 1 metrische Variable

• Unterscheidung: – Modell ohne Wechselwirkungen zw. den

Faktoren– Modell mit Wechselwirkungen zw. den

Faktoren

Page 25: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

25

Varianzanalyse

• Modell ohne Wechselwirkungen zw. den Faktoren

• xijk = µ + αi + βj + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte

– eijk zufällige Fehler

Page 26: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

26

Varianzanalyse

• Mittelwerte:

• Gesamt

• Faktor A

• Faktor B

pr n

ijki=1 j=1 k=1

1x = x

rpn p n

i ijkj=1 k=1

1x = x

pn r n

j ijki=1 k=1

1x = x

rn

Page 27: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

27

Varianzanalyse

• Schätzer für Gesamtmittel und Effekte

• Gesamtmittel

• Effekt von Faktor A

• Effekt von Faktor B

m=x

i ia =x -m

j jb =x -m

Page 28: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

28

Varianzanalyse

• Quadratsummen

• SSR = SST – SSE(A) – SSE(B)

pr n2

ijki=1 j=1 k=1

SST= (x -x )r

2i

i=1

SSE(A)=pn ap

2j

j=1

SSE(B)=rn b

Page 29: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

29

Varianzanalyse

• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSR

• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSR = SSR / (rpn-r-p+1)

Page 30: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

30

Varianzanalyse

• Prüfgrößen und kritische Werte:

• Faktor A: – F(A) = MSE(A) / MSR

– Fr-1,(nrp-r-p+1);1-α

• Faktor B: – F(B) = MSE(B) / MSR

– Fp-1,(nrp-r-p+1);1-α

Page 31: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

31

Varianzanalyse

• Beispiel: 2 Faktoren (Erreger, Antibiotikum)Erreger i

(A)   Antibiotikum j (B)    

    1 2 3 Mittelwerte Schätzer ai

  k          

1 1 38 40 38    

  2 35 41 39 38,5 0,667

2 1 42 39 33    

  2 45 33 34 37,7 -0,167

3 1 38 38 33    

  2 41 38 36 37,3 -0,500

Mittelwerte   39,8 38,2 35,5 37,8  

Schätzer bj   2,000 0,333 -2,333    

Page 32: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

32

Varianzanalyse

• Modell mit Wechselwirkungen zw. den Faktoren

• xijk = µ + αi + βj + (αβ)ij + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte– αβ Wechselwirkung

– eijk zufällige Fehler

Page 33: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

33

Varianzanalyse

• Mittelwerte:

• Gesamt

• Faktor A

• Faktor B

• Wechselwirkung

pr n

ijki=1 j=1 k=1

1x = x

rpn p n

i ijkj=1 k=1

1x = x

pn r n

j ijki=1 k=1

1x = x

rn n

ij ijkk=1

1x = x

n

Page 34: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

34

Varianzanalyse

• Gesamtmittel und Effekte

• Gesamtmittel

• Effekt von Faktor A

• Effekt von Faktor B

• Effekt der Wechselwirkung

m=x

i ia =x -m

j jb =x -m

ij ij i j(ab) =x -a -b -m

Page 35: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

35

Varianzanalyse

• Quadratsummen

SSR = SST – SSE(A) – SSE(B) – SSE(AB)

pr n2

ijki=1 j=1 k=1

SST= (x -x )r

2i

i=1

SSE(A)=pn ap

2j

j=1

SSE(B)=rn bpr

2ij

i=1 j=1

SSE(AB)=n (ab)

Page 36: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

36

Varianzanalyse

• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSE(AB) + SSR

• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSE(AB) = SSE(AB) / (p-1)(r-1)– MSR = SSR / rp(n-1)

Page 37: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

37

Varianzanalyse

• Prüfgrößen und kritische Werte: • Faktor A:

– F(A) = MSE(A) / MSR

– Fr-1, pr(n-1); 1-α

• Faktor B: – F(B) = MSE(B) / MSR

– Fp-1, pr(n-1); 1-α

• Wechselwirkung: – F(AB) = MSE(AB) / MSR

– F(p-1)(r-1), pr(n-1); 1-α

Page 38: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

38

Varianzanalyse

• Beispiel: 2 Faktoren + Wechselwirkung

Erreger i   Antibiotikum j (Faktor B)    

(Faktor A)   1 2 3 xi.. ai

  k xi1k xi1. (ab)i1 xi2k xi2. (ab)i2 xi3k xi3. (ab)i3    

1 1 38

36,5 -4,000

40

40,5 1,667

38

38,5 2,333

   

  2 35 41 39 38,5 0,667

2 1 42

43,5 3,833

39

36 -2,000

33

33,5 -1,833

   

  2 45 33 34 37,7 -0,167

3 1 38

39,5 0,167

38

38 0,333

33

34,5 -0,500

   

  2 41 38 36 37,3 -0,500

x.j.   39,8     38,2     35,5     37,8  

bj   2,000     0,333     -2,333        

Page 39: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

39

Varianzanalyse

• Beispiel: Varianzanalysetafel

• Faktor Erreger: kein Effekt

• Faktor Antibiotikum: Effekt

• Interaktion: Effekt (impliziert, dass auch Faktor Erreger eine Wirkung hat).

Streuungs-ursache

Freiheits-grade

Quadrat-summe

Mittlere Quadrats.

Test-statistik

Kritischer Wert

Erreger 2 4,33 2,16667 0,52 4,26

Antibiotikum 2 57,33 28,6667 6,88 4,26

Interaktion 4 93,33 23,3333 5,60 3,63

Fehler 9 37,50 4,16667    

Total 17 192,5      

Page 40: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

40

VarianzanalyseErreger - Antibiotikum

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

0 1 2 3 4

Antibiotikum

Mit

telw

ert

e

Erreger 1

Erreger 2

Erreger 3

Page 41: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

41

Nichtparametrische ANOVA

• Kruskal-Wallis Test• Unterscheiden sich die Mittelwerte von p

Messreihen (n1, …, np)? • Voraussetzungen:

– Stetige Verteilung der Messreihen – Mindestens Ordinalskala – Setzt weder Normalverteilung, noch

Varianzhomogenität voraus.

• Hypothese: – H0: Mittelwerte der p Messreihen sind gleich – H1: Mittelwerte unterscheiden sich

Page 42: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

42

Nichtparametrische ANOVA

• Vorgehensweise:– N Messwerten X11, …, Xpnp werden Rangzahlen

rij zugewiesen.

– Summe der Ränge der einzelnen Messreihen berechnen:

– Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge

in

i ijj=1

r = r

Page 43: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

43

Nichtparametrische ANOVA

• Prüfgröße:

– g … Anzahl der verschiedenen Messwerte– t … wie oft tritt ein Messwert auf– Treten keine Bindungen auf, ist B = 1

p2i

i=1 i

1 12 1H= r -3(N+1)

B N(N+1) n

g

3l3

i=1

1B=1- (t -t)

N -N

Page 44: 1 STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005

44

Nichtparametrische ANOVA

• Entscheidung:– H0 ablehnen, wenn H > hp(n1,…,np);1-α

– h … kritische Werte (Tabelle, z.B. Hartung S. 615)

• Approximation durch χ²p-1,1-α Verteilung: – H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ²

Verteilung)