26
Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Embed Size (px)

Citation preview

Page 1: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Klassische Hypothesenprüfung

nach Neyman & Pearson (1928)

nach Fisher (1925)

Page 2: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Theorie und Empirie

Theorie

Empirie

Page 3: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Theorie und Hypothesen

Theorie

Hypothese

Hypothese

Hyp

othe

se

Hypothese

Prüfung

Page 4: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Theorie und Hypothesen

Hypothese

Hypothese

Hyp

othe

se

Hypothese

Prüfung

Theorie

Page 5: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Theorie und Hypothesen

Theorie

Hypothese

Hypothese

Hyp

othe

se

Hypothese

Prüfung

Page 6: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Theorie und Hypothesen

Theorie

Hypothese

Hypothese

Hyp

othe

se

Hypothese

Prüfung

Prüf

ung

Prüfung

Theorie

Page 7: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

H1 und H0

• H1 (Alternativhypothese, inhaltliche Hypothese, Arbeitshypothese, theoriekonforme Hypothese)– abgeleitet aus einer innovativen Theorie

• z.B. Widerspruch zu herkömmlichen Theorien,

• kontraintuitiv (im Widerspruch zu intuitiven Theorien),

• oder Erklärung neuer Sachverhalte, Ergänzungen, ...

• H0 (Nullhypothese)– keineswegs aus Gegentheorie abgeleitet,

sondern lediglich Verneinung von H1.theoriefrei

Page 8: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Ziel einer Studie

• meist: Beweis von H1.

– Festigung (nicht: Beweis) der eigenen Theorie

• gelegentlich: Beweis von H0.

– theoriefreie Schwächung (nicht: Widerlegung) einer gängigen Theorie

• Popper: AsymmetrieBeweis einer Theorie geht nicht,

Widerlegung mit einem einzigen Experiment möglich.– z.B.: All-Aussagen: Alle Menschen haben ihr Herz links.– sinnvolle Theorien meist komplexer strukturiert.

Page 9: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Hypothesen

• Unterschieds- versus Zusammenhangshypothesen– Die Einführung von PowerPoint in die Lehre verändert den Lernerfolg.

UH werden mit Häufigkeits- und Mittelwertvergleichen geprüft.

– Zwischen Internetgebrauch und Lesetätigkeit besteht ein Zusammenhang.ZH werden mit Korrelationsrechnungen geprüft.

• Gerichtete versus ungerichtete Hypothesen– Die Einführung von PowerPoint in die Lehre verbessert den Lernerfolg.– Zunehmender Internetgebrauch beeinträchtigt die Lesetätigkeit.

• Spezifische versus unspezifische Hypothesen– Die Einführung von PowerPoint verbessert den Lernerfolg um 1 Note.– Die Korrelation zwischen Internetgebrauch und Lesetätigkeit

ist kleiner als –0.5.

Page 10: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Überführung in statistische Hypothesen

– Die Einführung von PowerPoint in die Lehre verändert den Lernerfolg. Der durchschnittliche Lernerfolg µ1 einer mit PP unterrichtete Gruppe

ist ungleich dem durchschnittlichen Lernerfolg µ0 einer ohne PP unterrichteten Gruppe.

H1: µ1 µ0.

H0: µ1 = µ0.

– Die Einführung von PowerPoint in die Lehre verbessert den Lernerfolg. Der durchschnittliche Lernerfolg µ1 einer mit PP unterrichtete Gruppe

ist größer als der durchschnittlichen Lernerfolg µ0 einer ohne PP unterrichteten Gruppe.

H1: µ1 > µ0.

H0: µ1 µ0.

Page 11: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Überführung in statistische Hypothesen

– Zwischen Internetgebrauch und Lesetätigkeit besteht ein Zusammenhang. In einer repräsentativen Stichprobe ist die Korrelation zwischen

Internetgebrauch und Lesetätigkeit ungleich Null.

H1: 0.

H0: = 0.

– Zunehmender Internetgebrauch beeinträchtigt die Lesetätigkeit. In einer repräsentativen Stichprobe ist die Korrelation zwischen

Internetgebrauch und Lesetätigkeit kleiner Null.

H1: < 0.

H0: 0.

Page 12: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

H1 stimmt H0 stimmt

in Wirklichkeit

stimmt H1

stimmt H0

-FehlerFehler 2. Art

-FehlerFehler 1. Art

FehlerErgebnis der Hypothesenprüfung

Welcher Fehler ist schlimmer? Das hängt davon ab...

• H1: Der eben aus Hongkong eingetroffene Tourist ist mit SARS infiziert.

• H1: Der eben aus Paris eingetroffene Tourist ist nicht mit SARS infiziert.

richtig

richtig

Page 13: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

-Fehler Wahrscheinlichkeit

• z. B. im Fall einer gerichteten UnterschiedshypotheseH1: µ1 > µ0.

– µ0 und 0 seien bekannt.– Eine Stichprobe mit n=30 ergibt Mittelwert <x>.– erwartete Verteilung für <x> bei n=30: N(µ0,0²/30).

µ0 <x>

<x>=

0/n

Wahrscheinlichkeitfür -Fehler.

z = (<x> – µ0) / <x> = (<x> – µ0) / (0 / n)

– testet eigentlich µ1 = µ0, nicht µ1 µ0.

Page 14: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

-Fehler Wahrscheinlichkeit

• z. B. im Fall einer ungerichteten UnterschiedshypotheseH1: µ1 µ0.

– µ0 und 0 seien bekannt.– Eine Stichprobe mit n=30 ergibt Mittelwert <x>.– erwartete Verteilung für <x> bei n=30: N(µ0,0²/30).

µ0 <x>

<x>=

0/n

Wahrscheinlichkeitfür -Fehler.

z = (<x> – µ0) / <x> = (<x> – µ0) / (0 / n)

– testet korrekterweise µ1 = µ0.

Page 15: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Signifikanzniveaus

• p (Ergebnis | H0) 0.05: signifikant

• p (Ergebnis | H0) 0.01: „sehr signifikant“

Fahrer: „Was bedeutet die durchgezogene gelbe Linie am Fahrbahnrand?“Polizist: „Dort dürfen Sie nicht parken.“Fahrer: „Und was ist, wenn da zwei gelbe Linien sind?“Polizist: „Dort dürfen Sie überhaupt nicht parken!“

• entweder: Signifikanzniveaus vor Untersuchungsbeginn festlegen, nicht anhand der Daten.

• oder: Nur Fehlerwahrscheinlichkeiten berichten.

• Praxis: „hochsignifikante Ergebnisse (p<0.002)“(Verstoß gegen die reine Lehre, aber kein wirkliches Problem)

Page 16: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

-Fehler Wahrscheinlichkeit

Page 17: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

-Fehler Wahrscheinlichkeit

• z. B. im Fall einer gerichteten UnterschiedshypotheseH1: µ1 > µ0.

– µ1 ist unbekannt. 1 wird als identisch zu 0 angenommen.– Eine Stichprobe mit n=30 ergibt Mittelwert <x>.– erwartete Verteilung für <x> bei n=30: N(µ1,0²/30).

µ1=??<x>

Wahrscheinlichkeitfür -Fehler.

Die -Fehler Wahrscheinlichkeit ist eine Funktion von µ1!

µ1 festlegen: µ1 = µ0 + E, Effektstärke = (µ1 – µ0) / 0 = E / 0.

... fragwürdige Vorgehensweise ...

Page 18: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

- und -Fehlerbei unterstellter Effektstärke

- und -Fehler sind gegenläufig

µ1<x>

-Fehler.

µ0 <x>

-Fehler.

Page 19: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

- und -Signifikanzniveaus• „konservativ“:

– kleines -Fehler-Niveau (5%, 1%)

– hohes -Fehler-Niveau (z. B. 20%)

µ1k

-Fehler > 20%H1 verwerfen

µ0 k

<x>=

0/n

-Fehler.< 5%

H0 verwerfen

<x>

• Indifferenzbereich, z.B. hier: weder H0 noch H1 verwerfen.

Page 20: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

n erhöhen <x> nimmt ab(hier: n' = 4*n, '<x> = <x>/2).

µ1k

-Fehler > 20%H1 verwerfen

µ0 k

<x>=

0/n

-Fehler.< 5%

H0 verwerfen

<x>

• Indifferenzbereich, hier: sowohl H0 als auch H1 verwerfen.

Page 21: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

„optimaler“ Stichprobenumfang(hier: n' = 2*n, '<x> = <x>/1.4).

µ1k

-Fehler > 20%

H1 verwerfen

µ0 k

<x>=

0/n

-Fehler.< 5%

H0 verwerfen

• kein Indifferenzbereich....

Page 22: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Kritik

• „optimaler“ Stichprobenumfang verschleiert das Problem, das durch den Indifferenzbereich aufgedeckt wird:

Wenn eine Effektstärke vorgegeben wird,sind H0 und H1 keine komplementären Hypothesen mehr.

• Es ist z. B. sehr gut möglich, daß zwar ein Effekt da ist, er aber nicht die postulierte Effektstärke erreicht.Dann stimmt weder H0 noch H1.

• verwandte Begriffe: -Fehler, Effektstärke,optimaler Stichprobenumfang,Teststärke (power) 1 – .

Page 23: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

- und -Fehler sind gegenläufig:

- und -Fehlermit unterstellter Effektstärke

µ1<x>

-Fehler.

µ0 <x>

-Fehler.

Page 24: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

µ1 <x>

-Fehler.

- und -Fehlerbei komplementären Hypothesen

µ0 <x>

-Fehler.

-Fehler testet nicht H0: µ1 µ0, sondern “worst case” µ1 = µ0.

-Fehler testet nicht H1: µ1 > µ0, sondern “worst case” µ1 = µ0 + (mit beliebig klein).

= 1 – . - und -Fehler sind gegenläufig:

H1: µ1 > µ0.

H0: µ1 µ0.

Page 25: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Korrekter Test einer unterstellten Effektstärke

• wirklich konservativ:– kleines -Fehler-Niveau (5%, 1%) für H1: µ1 > µ0, H0: µ1 µ0.

µ0 k

-Fehler.< 5%

µ0+E k

-Fehler.< 5%

– kleines -Fehler-Niveau (5%, 1%) für H1: µ1 > µ0 + E, H0: µ1 µ0 + E.

• „-Fehlerwahrscheinlichkeit von 20%“ entspricht „-Fehlerwahrscheinlichkeit von 80% !!!

Page 26: Klassische Hypothesenprüfung nach Neyman & Pearson (1928) nach Fisher (1925)

Wann ist es sinnvoll, den -Fehler separat zu bestimmen?

• Die Effektgröße muß bekannt sein.Sonst muß man eine beliebig kleine Effektgröße zulassen, und ist einfach 1 – .

• Was soll dann noch fraglich sein?Eine klassische Unterschiedshypothese kommt nicht in Frage.

• Umkehrung der Fragestellung:– bisher: Zugehörigkeit der VP zu Gruppe A oder B ist bekannt.

Frage: Gibt es einen Unterschied zwischen A und B?

– jetzt: Unterschied zwischen Gruppe A und B ist bekannt.Frage: Gehört VP zu Gruppe A oder zu Gruppe B?

SDT (Statistical Decision Theory, Signal Detection Theory)