Click here to load reader

11 Statistisches Testen ... 11 Statistisches Testen 11.3.3 Nichtparametrische 2-TestsAllgemeiner Überblick 11.3.4 Weitere Tests Sonstige Tests und Testmethoden 2-Anpassungstest 2-Unabhängigkeitstest

  • View
    2

  • Download
    1

Embed Size (px)

Text of 11 Statistisches Testen ... 11 Statistisches Testen 11.3.3 Nichtparametrische 2-TestsAllgemeiner...

  • 11 Statistisches Testen

    731

  • 11 Statistisches Testen

    11.1 Was versteht man unter einem Test?

    11.1.1 Einführende Beispiele

    11.2.1 Hypothesenwahl und Fehlerarten

    11.2.4 Signifikanz vs. Relevanz

    11.1.2 Grundstruktur und Durchführung

    11.2 Wichtige Aspekte beim Testen

    11.2.2 Irrtumswahrscheinlichkeiten und Güte

    11.2.3 p-Werte

    11.3 Ausgewählte Testverfahren

    11.3.1 Tests über Erwartungswerte

    735

    735

    749

    756

    756

    759

    774

    780

    783

    783

    11.3.2 Tests über Erwartungswertdifferenzen 790

    11.1.3 Zusammenhang zur Intervallschätzung 754

  • 11 Statistisches Testen

    11.3.3 Nichtparametrische 2-Tests

    Allgemeiner Überblick

    11.3.4 Weitere Tests

    Sonstige Tests und Testmethoden

    2-Anpassungstest

    2-Unabhängigkeitstest

    Tests über Anteilswerte

    Tests auf Unkorreliertheit und Unabhängigkeit

    11.3.5 Allgemein zu beachtende Punkte

    795

    795

    795

    810

    823

    823

    836

    844

    845

    733

  • 11.1 Was versteht man unter einem Test?

    11.1.1 Einführende Beispiele

    ● Vorbemerkung ●

    ● Beispiel 11.1.1: Raten vs. Wissen ●

    Angenommen eine Multiple-Choice-Klausur besteht aus 30 Aussagen, die ent-

    weder richtig oder falsch sind. Falls ein Student 19 dieser Fragen korrekt und

    11 Fragen falsch beantwortet, wie ist dann eine solche Leistung einzustufen?

    Statistisches Modell: 𝑋1, … , 𝑋30 unabhängig 𝐵 1, 𝜋 -verteilt

    mit Kodierung 0 = falsch, 1 = richtig

    Entscheidungsproblem: Raten vs. Wissen

    Testproblem: 𝑯𝟎: 𝜋 = 0.5 vs. 𝑯𝟏: 𝜋 > 0.5

    Teststatistik:

    (Prüfgröße)

    𝑆30 =෍ 𝑖=1

    30

    𝑋𝑖 ~ 𝐵 30,0.5 𝜋 = 0.5

    Testverteilung

    Nullhypothese Alternativhypothese

    734

  • 11.1 Was versteht man unter einem Test?

    Kritischer Wert:

    Testniveau (Signifikanzniveau): 𝛼 = 0.049

    𝑐 = 19

    Testprozedur: Falls 𝑆30 > 19, Entscheidung für 𝐻1 (Verwerfung von 𝐻0), sonst Beibehaltung von 𝐻0

    Testergebnis hier:

    Mit 𝑠30 = 19 wird hier 𝐻0 beibehalten. Somit sprechen die Daten bei einem Testniveau von 4.9% nicht signifikant gegen Raten.

  • 736

    11.1 Was versteht man unter einem Test?

    ● Beispiel 11.1.2: Kein Rückgang vs. Rückgang ●

    Studierende werden zu ihrer Zufriedenheit mit der Mensa befragt. Angenom-

    men die Zufriedenheitsquote lag in einem vorhergehenden Jahr bei 80%. In

    einer Blitzumfrage äußerten sich aktuell nun 15 von 20 Befragten zufrieden.

    Dies entspricht einem aktuellen Anteil von nur noch 75%. Ist die Zufrieden-

    heit damit nun tatsächlich zurückgegangen im Vergleich zum Vorjahr?

    Statistisches Modell: 𝑋1, … , 𝑋20 unabhängig 𝐵 1, 𝜋 -verteilt

    mit Kodierung 0 = unzufrieden, 1 = zufrieden

    Entscheidungsproblem: Kein Rückgang vs. Rückgang

    Testproblem: 𝐻0: 𝜋 ≥ 0.8 vs. 𝐻1: 𝜋 < 0.8

    Teststatistik: 𝑆20 =෍ 𝑖=1

    20

    𝑋𝑖 ~ 𝐵 20,0.8 𝜋 = 0.8

    Testniveau (Signifikanzniveau): 𝛼 = 0.032

  • 737

    11.1 Was versteht man unter einem Test?

    Kritischer Wert: 𝑐 = 13

    Testprozedur: Falls 𝑆20 < 13, Entscheidung für 𝐻1 (Verwerfung von 𝐻0), sonst Beibehaltung von 𝐻0

    Testergebnis hier:

    Mit 𝑠20 = 15 wird hier 𝐻0 beibehalten. Somit sprechen die Daten bei einem Testniveau von 3.2% für keinen signifikanten Rückgang

    der Zufriedenheitsquote.

  • 738

    11.1 Was versteht man unter einem Test?

    ● Beispiel 11.1.3: Norm vs. Abweichung ●

    In der Kunststoffverarbeitung müssen bei der Herstellung eines bestimmten

    Produktes ein weißes und ein schwarzes Kunststoffgranulat im Verhältnis von

    2:3 miteinander vermischt werden. Das korrekte Mischungsverhältnis wird

    dabei in regelmäßigen Abständen kontrolliert. Dazu wird mithilfe eines Mess-

    bechers der laufenden Produktion eine Stichprobe entnommen, von der dann

    500 Körner maschinell nach Farben sortiert und ausgezählt werden. Der Anteil

    schwarzer Körner darf hierbei vom Sollanteil 0.6 nicht signifikant abweichen.

    Doch wo sind hier die Grenzen zu setzen?

    Statistisches Modell: 𝑋1, … , 𝑋500 unabhängig 𝐵 1, 𝜋 -verteilt

    mit Kodierung 0 = weiß, 1 = schwarz

    Entscheidungsproblem: Norm vs. Abweichung

    Testproblem: 𝐻0: 𝜋 = 0.6 vs. 𝐻1: 𝜋 ≠ 0.6

    Teststatistik: 𝑆500 =෍ 𝑖=1

    500

    𝑋𝑖 ~ 𝐵 500,0.6 𝜋 = 0.6

  • 11.1 Was versteht man unter einem Test?

    Kritische Werte: 𝑐1 = 279, 𝑐2 = 321

    Testprozedur: Falls 𝑆500 < 279 oder 𝑆500 > 321, Entscheidung für 𝐻1 (Verwerfung von 𝐻0), sonst Beibehaltung von 𝐻0

    Testniveau (Signifikanzniveau): 𝛼 = 0.025 + 0.024 = 0.049

    Man beachte, dass die kritischen Werte 279 und 321 zu den Anteils-

    werten 55.8% und 64.2% korrespondieren. Außerhalb dieser Schranken

    würde man ein Abweichung vom Sollwert 60% als signifikant erachten.

  • 740

    11.1 Was versteht man unter einem Test?

    ● Approximative Binomialtests - nichtstandardisierte Varianten ●

    Wir betrachten erneut das vorhergehende Beispiel (Norm vs. Abweichung)

    Jetzt: Approximation der Testverteilung durch Normalverteilung

    Statistisches Modell: 𝑋1, … , 𝑋500 unabhängig 𝐵 1, 𝜋 -verteilt

    mit Kodierung 0 = weiß, 1 = schwarz

    Testproblem: 𝐻0: 𝜋 = 0.6 vs. 𝐻1: 𝜋 ≠ 0.6

    Teststatistik: 𝑆500 =෍ 𝑖=1

    500

    𝑋𝑖 ~ 𝑁 300, 120 𝑎𝑝𝑝𝑟𝑜𝑥.

    Kritische Werte:

    Testniveau (Signifikanzniveau): 𝛼 = 0.05

    𝑐1 = 𝑞0.025 = 300 + 120 × 𝑧0.025

    = 300 − 120 × 1.96 = 278.5

    𝑐2 = 𝑞0.975 = 300 + 120 × 𝑧0.975

    = 300 + 120 × 1.96 = 321.5

    𝜋 = 0.6

  • 741

    11.1 Was versteht man unter einem Test?

    Fazit:

    Somit bestünde in diesem Beispiel kein Unterschied zwischen dem sog.

    exakten Binomialtest und dem approximativen Binomialtest. Die

    Testentscheidungen wären jeweils immer identisch.

    Testprozedur: Unter Berücksichtigung, dass 𝑆500 nur ganze Zahlen anneh- men kann, resultiert die gleiche Testprozedur wie zuvor, d. h.

    Falls 𝑆500 < 279 oder 𝑆500 > 321, Entscheidung für 𝐻1 (Verwerfung von 𝐻0), sonst Beibehaltung von 𝐻0

    In analoger Weise lassen sich approximative Tests für die Beispiele 11.1.1

    (Raten vs. Wissen) und 11.1.2 (kein Rückgang vs. Rückgang) konstruieren,

    welche ebenfalls zu identischen oder fast identischen Testprozeduren führen.

    Nähere Details dazu im LB.

  • 11.1 Was versteht man unter einem Test?

    ● Approximative Binomialtests - standardisierte Varianten ●

    Wir betrachten weiterhin das Beispiel 11.1.3 („Norm vs. Abweichung“)

    Jetzt: Approximation durch Normalverteilung und Standardisierung

    Statistisches Modell: 𝑋1, … , 𝑋500 unabhängig 𝐵 1, 𝜋 -verteilt

    mit Kodierung 0 = weiß, 1 = schwarz

    Testproblem: 𝐻0: 𝜋 = 0.6 vs. 𝐻1: 𝜋 ≠ 0.6

    Teststatistik: 𝑍500 = σ𝑖=1 500𝑋𝑖 − 300

    120 ~ 𝑁 0, 1 𝑎

    𝜋 = 0.6

    Kritische Werte:

    Testniveau (Signifikanzniveau):

    𝑐1 = 𝑧0.025 = −1.96 und 𝑐2 = 𝑧0.975 = 1.96

    𝛼 = 0.05

    Testprozedur: Falls 𝑍500 < −1.96 oder 𝑍500 > 1.96, Entscheidung für 𝐻1 (Verwerfung von 𝐻0), sonst Beibehaltung von 𝐻0

  • 743

    11.1 Was versteht man unter einem Test?

    𝑍𝑛 = σ𝑖=1 𝑛 𝑋𝑖 − 𝑛𝜋0

    𝑛𝜋0 1 − 𝜋0 =

    ത𝑋 − 𝜋0

    Τ𝜋0 1 − 𝜋0 𝑛 ~ 𝑁 0, 1

    > Allgemeine Form der Teststatistik unter 𝐻0: 𝜋 = 𝜋0:

    𝑎

    𝜋 = 𝜋0

    Standardisierte Summe Standardisiertes

    Stichprobenmittel

    Bemerkungen:

    > Die Testprozeduren von standardisierter und nichtstandardisierter Variante

    sind völlig äquivalent (führen stets zu identischen Entscheidungen).

    𝑆𝑛 < 𝑞 Τ𝛼 2 ⇔ 𝑍𝑛 = 𝑆𝑛 − 𝜇

    𝜎 < 𝑞 Τ𝛼 2 − 𝜇

    𝜎 = 𝑧 Τ𝛼 2

    𝑞 Τ𝛼 2 = 𝜇 + 𝜎𝑧 Τ𝛼 2Beachte, dass gilt:

    > Mit 𝑆𝑛~𝑁 𝜇, 𝜎 2 und 𝑍𝑛~𝑁 0,1 gilt dann beispielsweise:

    𝑎 𝑎

    > Die standardisierte Variante ist in der Praxis üblicher.

    > Analog funktionieren die Beispiele 11.1.1 und 11.1.2.

  • 11.1 Was versteht man unter einem Test?

  • 745

    11.1 Was versteht man unter einem Test?

    ● Beispiel 11.1.4: Wirkung vs. keine Wirkung ●

    Gegeben sei das Pflanzenexperiment Nr. 1 aus Beispiel 10.2.3 von Folie 702.

    Wie lässt sich hier statistisch prüfen und entscheiden, ob ein gemessener

    Unterschied zwischen den beiden Behandlungsgruppen signifikant oder mög-

    licherweise nur Zufall ist? Ab wann kann man von einer systematischen Wir-

    kung der Düngung ausgehen?

    Statistisches Modell:

    𝑌