View
1
Download
0
Category
Preview:
Citation preview
11 Tests zur Uberprufung von Mittelwerts-unterschieden
11.1 Der z–Test (t–Test) fur verbundene Stichproben
11.2 Der z–Test (t–Test) fur unabhangige Stichproben
11.3 Fehler 1. Art und 2. Art
11.4 Typische Fehler im Umgang mit statistischen Tests
Appendix A: Uberprufung der Annahmen beim t–Test
Appendix B: t–Test mit SPSS
11.1 Der z–Test (t–Test) fur verbundeneStichproben
Sei (X1, X2) ein Merkmalspaar und
(x11, x21), . . . , (x1n, x2n)
eine verbundene (gepaarte) Stichprobe vom
Umfang n.
StatBio 288
Bezeichnen wieder
di = x1i − x2i, i = 1, . . . , n
die Paardifferenzen. Es wird angenommen, dass
d1, . . . , dn als einfache Stichprobe angesehen
werden kann.
Uberpruft wird die Nullhypothese
H0 : µ1 = µ2
(kein Mittelwertsunterschied), also
H0 : µd = 0
mit µd = µ1 − µ2 (Populationsmittelwert der
Paardifferenzen ist Null).
StatBio 289
Die Alternative ist
H1 : µ1 6= µ2
anders geschrieben
H1 : µd 6= 0
Eine naheliegende Prufgroße ware die Differenz
d− µd =1
n
n∑i=1
di − µd
Um die Bedeutsamkeit dieser Differenz beur-
teilen zu konnen, wird sie in Relation zur
(geschatzten) Streuung von d um µd gesetzt.
Als Prufgroße wahlt man somit
d− µdsd/√n
(11.1)
StatBio 290
Im Nenner steht der geschatzte Standardfehler
von d (ESEM), wobei
sd =
√√√√ 1
n− 1
n∑i=1
(di − d)2
wieder die Standardabweichung der Paardifferen-
zen d1, . . . , dn bezeichnet.
Unter (der Gultigkeitsannahme von) H0 : µd =
0 reduziert sich die Prufgroße (11.1) zu
d
sd/√n
(11.2)
Plausibel: Unter H0 wird ein Prufgroßenwert
,,in der Nahe” von Null erwartet. Ist daher die
Abweichung des Prufgroßenwertes von der Null
,,zu groß”, so wird die Gultigkeit der Nullhypo-
these in Zweifel gezogen.
StatBio 291
Was heißt ,,in der Nahe” von Null? Oder anders
gefragt: Ab wann gilt eine Abweichung als ,,zu
groß”?
Diese Fragen werden im Rahmen zweier zum
gleichen Ziel fuhrender Verfahren beantwortet:
(1) Klassisches Testverfahren
(2) p–Wert–Methode
Beide Verfahren beurteilen mittels Wahrschein-
lichkeiten, ob der Prufgroßenwert (11.2) im Sin-
ne der Nullhypothese plausibel oder unplausibel
ist
StatBio 292
Zunachst: In Kap. 10 wurde gesagt, dass H0
zu verwerfen ist, falls etwas beobachtet wurde,
also ein Ereignis eingetreten ist, das unter H0
nur mit einer kleinen Wahrscheinlichkeit hatte
eintreten durfen. Um Wahrscheinlichkeiten zu
bestimmen, muss man die Stichprobenverteilung
der Prufgroßed
sd/√n
unter H0 kennen.
StatBio 293
(A) Fur hinreichend große Stichprobenumfange
(n ≥ 30) ist die Prufgroße
z =d
sd/√n
nach dem zentralen Grenzwertsatz annahernd
N(0, 1)–verteilt (z–Test fur gepaarte Stich-proben).
(B) Unter der Normalverteilungsannahme ist die
Prufgroße
t =d
sd/√n
t–verteilt mit n−1 Freiheitsgraden (t–Test furgepaarte Stichproben) .
StatBio 294
(1) Das klassische Testverfahren
Anmerkung: Die folgenden Ausfuhrungen beziehen sich
(zunachst) auf den z–Test. Sie gelten vollig analog fur den
t–Test.
Das klassische Testverfahren gibt einen kriti-schen Wert zkrit > 0 an, so dass ,,in der Nahe”
von Null einen Prufgroßenwert z meint, der im
Intervall
(−zkrit, zkrit)liegt, fur den also
−zkrit < z < zkrit
gilt. Ein Prufgroßenwert z außerhalb dieses Be-
reiches, fur den also
z ≤ −zkrit oder zkrit ≤ z
gilt, wird unter H0 als unplausibel angesehen.
StatBio 295
Veranschaulichung auf dem Zahlenstrahl:
z–Wert z–Wert
zu klein zu groß] | [
−zkrit 0 zkrit
Testentscheidung: Ablehnung von H0, falls z
im Ablehnungsbereich (Verwerfungsbereich),
bestehend aus den beiden Intervallen
(−∞,−zkrit] und [zkrit,∞)
liegt (man spricht auch vom kritischen Be-reich). Keine Ablehnung von H0, falls z im
Nichtablehnungsbereich
(−zkrit, zkrit)
liegt.
Frage: Wie ist der kritische Wert zkrit festzule-
gen?
StatBio 296
Dieser ist durch die Vorgabe einer kleinen Wahr-
scheinlichkeit α festgelegt, etwa α = 0.05 (α
heißt Testniveau, Signifikanzniveau oder Irr-tumswahrscheinlichkeit).
Man wird zkrit so festlegen, dass Folgendes gilt:
Der erwartete Anteil von Prufgroßenwerten z,
die im Ablehnungsbereich liegen, also die Wahr-
scheinlichkeit, einen Prufgroßenwert z mit
z ≤ −zkrit oder zkrit ≤ z
zu beobachten, soll unter der Gultigkeitsan-nahme von H0 (hochstens) mit Wahrschein-
lichkeit 0.05 auftreten.
z ≤ −zkrit −zkrit < z < zkrit zkrit ≤ zmit W. 0.025 mit W. 0.95 mit W. 0.025
] | [
−zkrit 0 zkrit
StatBio 297
Die Wahrscheinlichkeit, unter H0 einen
Prufgroßenwert z im Nichtablehnungsbereich
(−zkrit, zkrit)
zu beobachten, ist
Φ(zkrit)− Φ(−zkrit) = 2 · Φ(zkrit)− 1
Denn: Unter H0 ist die Stichprobenverteilung
von z annahernd eine N(0, 1)–Verteilung (falls
n ≥ 30).
Somit bestimmt sich zkrit aus der Gleichung
2 · Φ(zkrit)− 1 = 0.95
D. h.
Φ(zkrit) =1.95
2= 0.975
Damit ist zkrit das 0.975–Quantil der Standard-
normalverteilung, also z0.975 = 1.96.
StatBio 298
Fazit: Unter H0 fuhren nur 5% aller Stichproben
(gleichen Umfangs) zu einem Prufgroßenwert z
mit z ≤ −1.96 oder z ≥ 1.96.
Ist das Ereignis
z ≤ −1.96 oder z ≥ 1.96
eingetreten, so bedeutet dies, dass
– entweder ein seltener z–Wert beobachtet
wurde (mit einer Wahrscheinlichkeit von
hochstens 0.05) oder
– dass die Nullhypothese H0 inkorrekt ist.
Plausibler ist die Entscheidung, dass H0 falsch
ist. Damit lautet die Testentscheidung:
StatBio 299
• Ist z ≤ −1.96 oder z ≥ 1.96, so wird H0 zum
Signifikanzniveau 5% abgelehnt. Man spricht
von einem signifikanten Testresultat.
• Ist −1.96 < z < 1.96, so wird H0 zum Signi-
fikanzniveau 5% nicht abgelehnt. Man spricht
von einem nichtsignifikanten Testresultat.
Anteil: 0.05/2 keine Anteil: 0.05/2
Ablehnung Ablehnung Ablehnung] | [
−1.96 0 1.96
Abbildung 11–1 Verwerfungsbereich (z–Test) zum
Testniveau 0.05 zur Alternative µd 6= 0
StatBio 300
Nur in 5% aller Falle kommt es unter der Gultig-
keitsannahme von H0 zu einer Fehlentscheidung
(Entscheidung fur H1). Die Wahrscheinlichkeit
eines Fehlers 1. Art (Entscheidung fur H1 ob-
wohl H0 richtig ist) betragt hochstens 5%. Mehr
zum Fehler 1. Art in Abschnitt 11.3.
t–Test
Der t–Test unterstellt die Normalverteilung der
Paardifferenzen. In diesem Fall ist die Prufgroße
t =d
sd/√n
unter H0 t–verteilt mit n − 1 Freiheitsgra-
den (Abschnitt 8.3). Der kritische Wert zum
5%–Testniveau ist das 0.975–Quantil der t–
Verteilung mit n− 1 Freiheitsgraden.
Bezeichnungsweise: tn−1;0.975
StatBio 301
Der Verwerfungsbereich zum 5%–Testniveau be-
steht aus den beiden Intervallen
(−∞,−tn−1;0.975] und [tn−1;0.975,∞)
Anteil: 0.025 keine Anteil: 0.025
Ablehnung Ablehnung Ablehnung] | [
−tn−1;0.975 0 tn−1;0.975
Abbildung 11–2 Verwerfungsbereich (t–Test) zum
5%–Niveau zur Alternative µd 6= 0
Testentscheidung: Ablehnung von H0, falls
t ≤ −tn−1;0.975 oder tn−1;0.975 ≤ t
StatBio 302
Allgemein: Testet man zum Niveau α, so ist
der kritische Wert das
(1− α/2)–Quantil
Beim z–Test ist es das (1 − α/2)–Quantil der
Standard–Normalverteilung. Bezeichnungsweise:
z1−α/2.
Beim t–Test ist es das (1 − α/2)–Quantil der
t–Verteilung mit n− 1 Freiheitsgraden. Bezeich-
nungsweise: tn−1;1−α/2.
Ausgewahlte (1 − α)–Quantile der N(0, 1)–
Verteilung und der t–Verteilung finden sich in
Tab. 11–1.
In der Praxis sind die Werte α = 0.01, α = 0.05
und α = 0.1 gebrauchlich.
StatBio 303
11.1 Beispiel: Man mochte feststellen, ob einespezielle Diat zu einer Gewichtsabnahme fuhrt.Bei 10 Personen wurde das Gewicht (in kg) vorder Diat (x1i) und nach der Diat (x2i) gemessen.Sei di = x1i − x2i, i = 1, . . . , 10.
Person xi1 x2i di1 85 78 72 78 75 33 92 90 24 103 93 105 94 93 16 89 83 67 84 85 −18 82 79 39 109 98 1110 102 96 6
Kann H0 : µ1 = µ2 zum Signifikanzniveau α =
0.05 abgelehnt werden?
Der kritische Wert ist das (1−α/2)–Quantil der
t–Verteilung mit n − 1 Freiheitsgraden. Hier ist
StatBio 304
n = 10, α = 0.05 und man erhalt
tkrit = tn−1;1−α/2 = t9;0.975 = 2.262
siehe Tab. 11–1. Damit lautet der Annahmebe-
reich
(−2.262, 2.262)
Wegen
d = 4.8, sd = 3.882
ergibt sich ein Prufgroßenwert von
t =4.8
3.882/√
10= 3.91
Da t = 3.91 > 2.262 kann H0 zum Signifikanz-
niveau α = 0.05 abgelehnt werden.
StatBio 305
Abbildung 11–3 t–Verteilung mit df = 9; Flache unter-
halb von −2.262 und oberhalb von 2.262 ist 0.05 (graue
Flache)
StatBio 306
Tabelle 11–1 (1 − α)–Quantile der t–Verteilung tdf ;1−αfur df = 1, . . . , 30 und α = 0.1, 0.05, 0.025, 0.01, 0.005(in der letzten Zeile sind die entsprechenden Quantile z1−αder Standard–Normalverteilung)
1− αdf 0.90 0.95 0.975 0.99 0.9951 3.078 6.314 12.706 31.821 63.6572 1.886 2.920 4.303 6.965 9.9253 1.638 2.353 3.182 4.541 5.8414 1.533 2.132 2.776 3.747 4.6045 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.7077 1.415 1.895 2.365 2.998 3.4998 1.397 1.860 2.306 2.896 3.3559 1.383 1.833 2.262 2.812 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.10612 1.356 1.782 2.179 2.681 3.05513 1.350 1.771 2.160 2.650 3.01214 1.345 1.761 2.145 2.624 2.97715 1.341 1.753 2.131 2.602 2.947
Fortsetzung nachste Seite!
StatBio 307
1− αdf 0.90 0.95 0.975 0.99 0.99516 1.337 1.746 2.120 2.583 2.92117 1.333 1.740 2.110 2.567 2.89818 1.330 1.734 2.101 2.552 2.87819 1.328 1.729 2.093 2.539 2.86120 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.83122 1.321 1.717 2.074 2.508 2.81923 1.319 1.714 2.069 2.500 2.80724 1.318 1.711 2.064 2.492 2.79725 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.77927 1.314 1.703 2.052 2.473 2.77128 1.313 1.701 2.048 2.467 2.76329 1.311 1.699 2.045 2.462 2.75630 1.310 1.697 2.042 2.457 2.750
∞ 1.282 1.645 1.960 2.326 2.576
StatBio 308
(2) Die p–Wert–Methode
Die Frage, ob die Daten mit der Nullhypothese
vertraglich sind, wird mit der klassischen Testme-
thode grob mit ,,ja” oder ,,nein” beantwortet.
,,Grob” deswegen, weil, wie Bsp. 11.1 zeigt,
auch ein kleinerer Wert als t = 3.91, etwa 2.34,
zu einer Ablehnung von H0 gefuhrt hatte (zum
Signifikanzniveau α = 0.05). Zur Erinnerung:
Das Signifikanzniveau α = 0.05 fuhrt zum An-
nahmebereich
(−2.262, 2.262)
Selbst wenn die Stichprobe zu einem Prufgroßen-
wert von t = 2.262 gefuhrt hatte, ware H0 (ge-
rade noch) zum 5%–Niveau abgelehnt worden.
Intuitiv hat man aber bei einem Wert von 3.91
ein großeres Vertrauen in die Testentscheidung
H0 abzulehnen. Es ware also informativer, ein
StatBio 309
feineres Maß fur die Vertraglichkeit von Daten
und Nullhypothese anzugeben.
Statt von einem festen Signifikanzniveau aus-
zugehen, z. B. α = 0.05 oder α = 0.01,
und daraufhin einen kritischen Wert fur die
Prufgroße zu bestimmen, geht die p–Wert–Methode vom konkret beobachteten Wert ei-
ner Prufgroße aus, in Bsp. 11.1 t = 3.91. Die
wahrscheinlichkeitstheoretische Beurteilung, ob
der Prufgroßenwert 3.91 im Sinne der Nullhypo-
these extrem oder selten ist, erfolgt nicht uber
den Umweg kritischer Werte sondern direkt. Die
p–Wert–Methode fragt nach der Wahrscheinlich-
keit, einen Prufgroßenwert t zu beobachten, der
im Sinne der Nullhypothese noch extremer, noch
seltener als 3.91 ist.
Diese Wahrscheinlichkeit, unter H0 einen Pruf-
großenwert t mit
t ≤ −3.91 oder 3.91 ≤ t
StatBio 310
zu beobachten ist der p–Wert. Dieser wird
in Abhangigkeit vom konkreten Prufgroßenwert
3.91 mit p(3.91) bezeichnet. Der p–Wert be-
tragt1
p(3.91) = 0.001
Abbildung 11–4 t–Verteilung mit df = 9 und
p–Wert ≈ 0.001 (graue Flache) zu Bsp. 11.1
Hatte man bei der klassischen Testmethode ein
Signifikanzniveau von 0.1% vorgegeben, dann1Der p–Wert wird mittels statistischer Software, also mittels Com-
puter, berechnet.
StatBio 311
ware der kritische Wert
tkrit = t9;1−0.001/2 = t9;0.9995 = 3.91
und der Ablehnungsbereich
(−∞,−3.91] und [3.91,∞)
Mit anderen Worten: Der p–Wert 0.001 ist das
kleinste Signifikanzniveau, welches bei einem
Prufgroßenwert von t = 3.91 noch zu einer Ab-
lehnung von H0 fuhrt. (Die Wahl eines kleine-
ren Signifikanzniveaus als 0.001 fuhrt zu einem
Ablehnungsbereich, der den Prufgroßenwert von
3.91 nicht mehr enthalt).
Tatsachlich ware man also bereit gewesen, zu ei-
nem kleineren Signifikanzniveau als 5%, namlich
zum 0.1%–Niveau, H0 abzulehnen. Man hat also
ein großeres Vertrauen in die Entscheidung, H0
abzulehnen.
StatBio 312
Testentscheidung aufgrund des p–Wertes
Ein kleiner Wert p(t) bedeutet entweder, dass die
Nullhypothese richtig ist und ein seltener t–Wert
beobachtet wurde oder dass die Nullhypothese
falsch ist. Deshalb sprechen kleine p–Wertegegen die Nullhypothese. Wie klein muss aber
der p–Wert sein, damit genugend Evidenz gegen
H0 vorliegt?
• Seit etwa 75 Jahren wird nach R. A. Fisher
(1890–1962) ublicherweise eine Nullhypothese
als unannehmbar betrachtet, falls fur den p–
Wert eines statistischen Tests gilt
p–Wert ≤ c mit 0.01 ≤ c ≤ 0.05
Man spricht von einem signifikanten Testre-
sultat.
StatBio 313
• Andererseits herrscht im Allgemeinen Uber-
einstimmung daruber, dass zum Beispiel ein
p–Wert von 0.35 kaum ein Indiz gegen die
Nullhypothese sein kann. Man spricht von ei-
nem nichtsignifikanten Testresultat.
Wird H0 zu einem p–Wert abgelehnt, so bedeu-
tet dies, dass man eine Fehlerwahrscheinlichkeit
1. Art in Hohe des p–Wertes akzeptiert. Der
p–Wert wird auch exaktes oder tatsachlichesSignifikanzniveau genannt.
Hinweis: Die p–Wert–Methode beinhaltet das
klassische Testen. Lautet (vor Durchfuhrung des
Tests!) die Entscheidungsvorschrift, die Nullhy-
pothese ist abzulehnen, falls
p –Wert ≤ 0.05
so ist dies gleichbedeutend mit einem klassischen
Testverfahren zu (vorgegebenem) Signifikanzni-
StatBio 314
veau α = 0.05. In beiden Fallen gelangt man zur
gleichen Testentscheidung!
Zusammenfassend lasst sich feststellen:
Der p–Wert ist ein Maß fur dieGlaubwurdigkeit einer Nullhypothese.
Besser:
Der p–Wert ist ein Maß fur die Ver-traglichkeit von Daten und Nullhypo-these.
Beim z–Test lasst sich der p–Wert aus Tabellen
ablesen. Bei einem Prufgroßenwert z ist der p–
Wert
p(z) =
{2 · (1− Φ(z)), z ≥ 0
2 · Φ(z) = 2 · (1− Φ(−z)), z < 0
StatBio 315
Statistische Signifikanz und praktische Re-levanz
In Bsp. 11.1 konnte die Nullhypothese zum
5% Niveau verworfen werden. Man entscheidet
sich fur die Alternative, dass die zwei Popula-
tionen statistisch signifikante, unterschiedliche
Mittelwerte haben. Es stellt sich die Frage, ob
dieser Unterschied auch von praktischer Bedeu-
tung ist. Zur Beantwortung dieser Frage sind
Konfidenzintervalle hilfreich. Die Differenz der
Stichprobenmittel ist
x1 − x2 = d = 4.8
und die Grenzen eines 95%–Konfidenzintervalls
fur µd sind gegeben durch
d± t9;0.975 ·sd√n
= 4.8± 2.262 · 3.882√10
= 4.8± 2.78
StatBio 316
Inwieweit die Unterschiedswerte im Konfidenzin-
tervall
(2.02, 7.58)
als wesentlich beurteilt werden, hangt ausschließ-
lich von sachlogischen Argumenten ab. Ware
beispielsweise ein Unterschied erst ab 8 kg in-
teressant, so ist das Resultat signifikant, aber
nicht relevant. Zwischen (praktischer) Relevanzund (statistischer) Signifikanz ist daher genau
zu unterscheiden.
Zusammenhang zwischen Test und Konfi-denzintervall
Ferner fallt auf, dass die 0 nicht im Konfidenz-
intervall liegt. In der Tat gilt: Die Nullhypothese
H0 : µd = 0 wird genau dann zum Signifikanz-
niveau 5% verworfen, wenn die 0 nicht im 95%
Konfidenzintervall fur µd liegt.
Generell lasst sich Folgendes sagen: Wenn
StatBio 317
man einen beliebigen Wert aus dem 0.95–
Konfidenzintervall (2.02, 7.58) nimmt, dieser sei
mit δ bezeichnet, dann wurde der t–Test die
Nullhypothese
H0 : µd = δ
zum Signifikanzniveau 0.05 nicht ablehnen. Die
Prufgroße lautet in diesem Fall
t =d− δsd/√n
StatBio 318
Achtung! Annahmebereich und Konfidenzinter-
vall nicht verwechseln:
• Annahmebereich: festes, kein zufalliges In-
tervall, abhangig vom Testniveau α. Der An-
nahmebereich enthalt den Wert einer Teststa-
tistik mit Wahrscheinlichkeit 1 − α, falls die
Nullhypothese richtig ist.
• Konfidenzintervall: zufalliges, d.h. von den
Daten abhangiges Intervall. Es enthalt den
wahren (aber unbekannten) Parameterwert
mit einer vorgegebenen Vertrauenswahr-
scheinlichkeit 1− α.
StatBio 319
Einseitige und zweiseitige Alternativen
Grundsatzlich unterscheidet man einseitige und
zweiseitige Testprobleme. In der Praxis werden
die folgenden Testprobleme betrachtet:
(A) H0 : µ1 = µ2, H1 : µ1 6= µ2 (µd 6= 0)
(B) H0 : µ1 = µ2, H1 : µ1 > µ2 (µd > 0)
(C) H0 : µ1 = µ2, H1 : µ1 < µ2 (µd < 0)
Das Testproblem (A) nennt man zweiseitig(two–sided) oder ungerichtet (nondirectional),
da die Alternative nicht spezifiziert, ob µ1
großer als µ2 oder µ1 kleiner als µ2 ist, oder
anders formuliert, in welche Richtung
µd = µ1 − µ2
von Null abweichen soll (großer oder kleiner).
StatBio 320
Die Testprobleme (B) und (C) nennt man ein-seitig oder gerichtet, da die Alternative jetzt
spezifiziert, in welche Richtung µ1 von µ2 abwei-
chen soll (nur großer wie in (B) bzw. nur kleiner
wie in (C)). Welches Testproblem zu wahlen ist,
hangt von der konkreten Fragestellung ab. Man
wird immer einseitig testen, wenn man sicher
ist, dass µd nur in eine Richtung von der Null
abweichen kann (nur großer bzw. nur kleiner).
Einseitige Testpobleme verwenden wie im zwei-
seitigen Fall die Prufgroße (11.2):
d
sd/√n
Fur den einseitigen z–Test zum Niveau α gilt
folgendes:
StatBio 321
Alternative H1 : µd > 0
Der kritische Wert ist das (1 − α)–Quantil der
Standard–Normalverteilung
zkrit = z1−α
Der einseitige Verwerfungsbereich ist das Inter-
vall [z1−α,∞)
Anteil: α
keine Ablehnung Ablehnung| [0 z1−α
Abbildung 11–5 Verwerfungsbereich (z–Test) bei
einseitiger Alternative µd > 0.
Testentscheidung: Ablehnung von H0, falls
z ≥ z1−α
p–Wert (einseitig): p(z) = 1− Φ(z).
StatBio 322
Alternative H1 : µd < 0
Der kritische Wert ist
zkrit = −z1−α
Der einseitige Verwerfungsbereich ist das Inter-
vall (−∞,−z1−α]
Anteil: α
Ablehnung keine Ablehnung] |
−z1−α 0
Abbildung 11–6 Verwerfungsbereich (z–Test) bei
einseitiger Alternative µd < 0
Testentscheidung: Ablehnung von H0, falls
z ≤ −z1−α
p–Wert (einseitig): p(z) = Φ(z) = 1− Φ(−z).
StatBio 323
Beim t–Test sind tn−1;1−α und −tn−1;1−α die
kritischen Werte zu den einseitigen Alternativen
H1 : µd > 0 bzw. H1 : µd < 0.
Bemerkung: Bei symmetrischen Verteilungen
(z. B. Normalverteilung, t–Verteilung) gilt allge-
mein:
p–Wert (zweiseitig) = 2 · p–Wert (einseitig)
Achtung! Ein einseitiger Test wird die Rich-
tigkeit einer Alternative eher entdecken als ein
zweiseitiger Test. Eine objektive Testentschei-
dung ist daher nur dann gewahrleistet, wenn
vorab festgelegt wird, ob einseitig oder zweisei-
tig getestet werden soll!
StatBio 324
Hinweis: Bei den einseitigen Testproblemen (B)
und (C) uberpruft man automatisch die Nullhy-
pothesen
H0 : µd ≤ 0
bzw.
H0 : µd ≥ 0
Fortsetzung von Bsp. 11.1: Es wird von vorn-
herein (also vor Stichprobenerhebung) vermutet,
dass sich die Diat positiv ausgewirkt hat. Daher
soll das einseitige Testproblem
H0 : µ1 = µ2, H1 : µ1 > µ2
betrachtet werden. Das Signifikanzniveau sei
α = 0.05.
StatBio 325
Die Prufgroße hat den konkreten Wert
t =4.8
3.882/√
10= 3.91
Wegen t9;0.950 = 1.833 und t = 3.91 > 1.833
kann H0 zum Niveau 0.05 abgelehnt werden.
Der p–Wert (einseitig) ist praktisch Null:
p(3.91) = 0
StatBio 326
Abbildung 11–7 Unter H0 (Mittelwertsdifferenz=0): t–
Verteilung mit df = 9, tkrit = t9;0.95 = 1.833; Fehler-
wahrscheinlichkeit 1. Art = 0.05 = graue Flache = Flache
oberhalb von 1.833
StatBio 327
11.2 Bemerkung: Es lassen sich auch Nullhy-
pothesen der Form
H0 : µ = µ0
uberprufen. Dabei ist µ0 ein hypothetischer
Populations–Mittelwert (vgl. Ubungsblatt 9). Ist
x1, . . . , xn
eine Stichprobe, so ist das studentisierte Stich-
probenmittelx− µ0
s/√n
(11.3)
eine geeignete Prufgroße. Dabei bezeichnet wie-
der x das Stichprobenmittel und s die Stichpro-
benstandardabweichung.
StatBio 328
Unter H0 ist die Prufgroße (11.3) annahernd
standardnormalverteilt, falls n ≥ 30 (Ein–Stichproben–z–Test).
Unter der Normalverteilungsannahme ist die
Prufgroße (11.3) t–verteilt mit n − 1 Freiheits-
graden (Ein–Stichproben–t–Test).
Die Ablehnungsbereiche sind die gleichen wie im
Fall einer gepaarten Stichprobe.
StatBio 329
11.2 Der z–Test (t–Test) fur unabhangigeStichproben
Gepruft (widerlegt) werden soll die Nullhypothe-
se: Gleichheit zweier Populationsmittelwerteµ1 und µ2. Das (zweiseitige) Testproblem lautet
H0 : µ1 = µ2 , H1 : µ1 6= µ2
Gegeben: Zwei unverbundene (ungepaarte)
Stichproben
Stichprobe von Stichprobe von
Grundgesamtheit 1 Grundgesamtheit 2
x11 x21x12 x22x13 x23
...
x1n1...
x2n2
StatBio 330
Im Fall der Varianzhomogenitat lautet die
Prufgroße
x1 − x2Standardfehler von x1 − x2
=x1 − x2
sgepoolt ·√n1+n2n1·n2
(11.4)
Dabei bezeichnet wieder
s2gepoolt =(n1 − 1) · s21 + (n2 − 1) · s22
n1 + n2 − 2
die gepoolte Varianz (vgl. Abschnitt 9.3) als
Schatzung fur σ2.
StatBio 331
(A) Fur hinreichend große Stichprobenumfange
(n1 ≥ 30, n2 ≥ 30) ist die Prufgroße
z =x1 − x2
sgepoolt ·√n1+n2n1·n2
nach dem zentralen Grenzwertsatz annahernd
N(0, 1)–verteilt (Zwei–Stichproben–z–Test).
(B) Unter der Normalverteilungsannahme ist die
Prufgroße
t =x1 − x2
sgepoolt ·√n1+n2n1·n2
t–verteilt mit n1+n2−2 Freiheitsgraden (Zwei–Stichproben–t–Test).
StatBio 332
Zu einem vorgegebenen Testniveau α wird die
Nullhypothese H0 = µ1 − µ2 = 0 bei zweiseiti-ger Alternative H1 : µ1 6= µ2 abgelehnt, falls
z ≤ −z1−α/2 oder z1−α/2 ≤ z
(z–Test) bzw. falls
t ≤ −tn1+n2−2;1−α/2
oder
tn1+n2−2;1−α/2 ≤ t(t–Test).
Bei der einseitigen Alternative H1 : µ1 > µ2
wird H0 abgelehnt, falls
z ≥ z1−α
(z–Test) bzw.
t ≥ tn1+n2−2;1−α
StatBio 333
(t–Test). Entsprechend wird bei der einseitigenAlternative H1 : µ1 < µ2 die Nullhypothese
abgelehnt, falls
z ≤ −z1−α
(z–Test) bzw.
t ≤ −tn1+n2−2;1−α
(t–Test).
Fortsetzung von Bsp. 9.3: Unterscheidet
sich die durchschnittliche Korpergroße mannli-
cher Studenten (µ1) von der durchschnittlichen
Korpergroße weiblicher Studenten (µ2) ? Gepruft
werden soll die Nullhypothese
H0 : µ1 = µ2
StatBio 334
gegen die zweiseitige Alternative
µ1 6= µ2
zum Testniveau α = 0.05. Die Korpergroßen
seien normalverteilt mit identischen Varianzen.
Es wurden die Korpergroßen von 39 mannlichen
und von 30 weiblichen Studenten gemessen. Es
ergaben sich die folgenden Werte (Stichprobe 1
= mannlich, Stichprobe 2 = weiblich):
x1 = 182.5, s1 = 6.7
x2 = 168.3, s2 = 5.2
sgepoolt =
√38 · 6.72 + 29 · 5.22
39 + 30− 2= 6.096
Die obigen Werte ergeben einen Prufgroßenwert
von
t =182.5− 168.3
6.096 ·√
39+3039·30
= 9.59
StatBio 335
Wegen t67;0.975 ≈ z0.975 = 1.960 und
t = 9.59 > 1.960
kann H0 abgelehnt werden.
Der p–Wert ist praktisch Null:
p(9.59) ≈ 0
Ungleiche Populations–Varianzen
Sind die Varianzen σ21 und σ2
2 der beiden (nor-
malverteilten) Grundgesamtheiten verschieden,
so muss die Prufgroße (11.4) etwas modifiziert
werden, da die gepoolte (Stichproben–)Varianz
als ein Schatzwert fur zwei ungleiche Varian-
zen keinen Sinn mehr macht und daher nicht
verwendet werden kann. Der geschatzte Stan-
StatBio 336
dardfehler von x1 − x2 ist√s21n1
+s22n2
(vgl. die Ausfuhrungen in Abschnitt 9.3) und die
(modifizierte) Prufgroße ist die studentisierte
Mittelwertdifferenz
x1 − x2√s21n1
+s22n2
(11.5)
Fur Stichprobenumfange n1 ≥ 30, n2 ≥ 30 ist
diese Prufgroße annahernd standardnormalver-
teilt.
Unter der Normalverteilungsannahme ist die
Prufgroße (11.5) naherungsweise t–verteilt, wo-
bei die Anzahl der Freiheitsgrade aus den Da-
ten heraus geschatzt werden muss (die genaue
StatBio 337
Verteilung ist unbekannt (Behrens–Fisher–Problem), vgl. Abschnitt 9.3). Dies ist dann
der sogenannte Welch–Test.
Statistische Softwarepakete berechnen den p–
Wert.
11.3 Fehler 1. Art und Fehler 2. Art
Bei einem Test sind zwei Arten von Fehlentschei-
dungen moglich:
Fehler 1. Art: Die Nullhypothese H0 wird ab-
gelehnt, obwohl sie richtig ist. Die Wahrschein-
lichkeit einen Fehler 1. Art zu begehen wird mit
α (alpha) bezeichnet.
Fehler 2. Art: Die Nullhypothese H0 wird nicht
abgelehnt, obwohl sie falsch ist. Die Wahrschein-
lichkeit einen Fehler 2. Art zu begehen wird mit
β (beta) bezeichnet.
StatBio 338
Wir
klic
hke
it
Tes
ten
tsch
eid
un
g
H0
ist
wah
rH
1is
tw
ahr
kein
eA
ble
hn
un
gri
chti
ge
En
t-fa
lsch
eE
nt-
vonH
0sc
hei
du
ng
mit
sch
eid
un
gm
itW
ahrs
.1−α
Wah
rs.β
Ab
leh
nu
ng
fals
che
En
t-ri
chti
ge
En
t-vo
nH
0sc
hei
du
ng
mit
sch
eid
un
gm
itm
itW
ahrs
.α
Wah
rs.
1−β
StatBio 339
Das Risiko einer Fehlentscheidung lasst sich
nicht ausschließen, aber in einem ganz bestimm-
ten Sinne begrenzen.
Es ist nun so, dass man die Fehler 1. Art und
2. Art nicht gleichzeitig kontrollieren kann. Die
Fehlerwahrscheinlichkeiten α und β lassen sich
nicht gleichzeitig minimieren. Eine Verkleine-
rung von α bedeutet eine Vergroßerung von β
(α ↓ β ↑) und umgekehrt (α ↑ β ↓).
Die Vorgehensweise ist nun die, dass man den
Fehler 1. Art (Entscheidung fur H1, obwohl H0
richtig ist) kontrolliert. Dies wird dadurch er-
reicht, indem man α klein wahlt, ublicherweise
fordert man α = 0.05 oder α = 0.01. Fur den p–
Wert bedeutet dies p ≤ 0.05 oder p ≤ 0.01. Die
Zahl α heißt Irrtumswahrscheinlichkeit oder
Signifikanzniveau.
StatBio 340
Interpretation (fur α = 0.05):
Berechnet man aus allen Stichproben (gleichen
Umfangs) die Prufgroßenwerte, so wird sich un-
ter der Annahme der Gultigkeit von H0
– in 5% aller Falle ein Widerspruch zu H0 ein-
stellen,
– in 95% der Falle nicht.
Die Forderung, den Fehler 1. Art zu kontrollieren,
hat eine wichtige Konsequenz hinsichtlich der
Hypothesen H0 und H1:
Durch die Wahl einer kleinen Zahl α wird eine
richtige Nullhypothese H0 nur mit einer geringen
Fehlerwahrscheinlichkeit abgelehnt. Mat hat also
ein gewisses Vertrauen in diese Entscheidung.
StatBio 341
Dagegen kann man kein Vertrauen haben in
die Entscheidung H0 zu akzeptieren, wenn die
Fehlerwahrscheinlichkeit β nicht kontrollierbar
ist.
Die Ablehnung der Nullhypothese ist dieeinzige Entscheidung, die mit einer gerin-gen Fehlerwahrscheinlichkeit getroffen wer-den kann. (Deshalb wird man immer das in die
Nullhypothese stecken, was man widerlegt haben
mochte!)
StatBio 342
Zusammenfassung:
Fehler 1. Art (Type I error), α–Fehler
• Die Nullhypothese wird falschlicherweise ab-
gelehnt.
• Die Wahrscheinlichkeit fur einen Fehler 1. Art
wird im Voraus (d. h. vor Testdurchfuhrung)
durch eine kleine Zahl α (alpha) festgelegt.
• α wird nicht durch den Stichprobenumfang
beeinflusst.
StatBio 343
Fehler 2. Art (Type II error), β–Fehler
• Die Nullhypothese wird falschlicherweise nicht
abgelehnt.
• Die Wahrscheinlichkeit fur einen Fehler 2. Art
wird mit β (beta) bezeichnet.
• β hangt vom Stichprobenumfang und α ab.
Mit großerem Stichprobenumfang wird β klei-
ner (n ↑ β ↓, in diesem Sinne lasst sich β
kontrollieren).
• β ist fur einseitige und zweiseitige Alternati-
ven verschieden.
• β kann nur dann bestimmt werden, wenn die
wahre Alternative, also der wahre Effekt bzw.
Unterschied, bekannt ist oder hypothetisch
festgelegt wird.
StatBio 344
Fortsetzung von Bsp. 11.1:
Frage: Wie groß ist β, falls tatsachlich
µ1 − µ2 = 2
ist? Also: Wie groß ist die Wahrscheinlichkeit,
unter der Gultigkeit der Alternative µ1−µ2 =
2 einen t–Wert zu beobachten, der kleiner als
1.833 ist?
Antwort: β = 0.42...
StatBio 345
Abbildung 11–8 Bild oben: Unter H0 (Mittelwertdiffe-
renz=0): t–Verteilung mit df = 9, tkrit = t9;0.95 = 1.833;
Fehlerwahrscheinlichkeit 1. Art = 0.05 = graue Flache
= Flache oberhalb von 1.833; Bild unten: Alternative:
t–Verteilung mit df = 9 um 2 nach rechts verschoben
(Mittelwertdifferenz=2), Fehlerwahrscheinlichkeit 2. Art
β = graue Flache = Flache unterhalb von 1.833 ≈ 0.42.
StatBio 346
Die Zahl
1− Fehlerwahrscheinlichkeit 2. Art = 1−β
heißt Power, man sagt auch
Macht, Gute, Trennscharfe
des Tests.
Dies ist die Wahrscheinlichkeit der Ablehnung
von H0, wenn H1 richtig ist. Diese sollte
naturlich moglichst groß sein, da die Entdeckung
einer richtigen Alternative der eigentliche Zweck
des Hypothesentestens ist. In den meisten prak-
tischen Fragestellungen bleibt der Fehler 2. Art
jedoch unberucksichtigt (man spricht dann von
Signifikanztests).
StatBio 347
11.4 Typische Fehler im Umgang mit stati-stischen Tests
1. Eine Hypothese kann aufgrund eines sta-
tistischen Tests weder (logisch) ,,widerlegt”
noch ,,bewiesen” werden. Zufallsbehaftete Da-
ten konnen mit verschiedenen parametrischen
Modellen ,,in Einklang stehen”! Liegt der beob-
achtete Prufgroßenwert nicht im kritischen Be-
reich, so sagt man dazu, dass die Daten (Beob-
achtungen) nicht im Widerspruch zu H0 stehen.
Man spricht immer nur vom Ablehnen, Ver-
werfen oder Nichtablehnen, Nichtverwerfen der
Nullhypothese. Ein Nichtverwerfen der Null-hypothese bedeutet nicht unbedingt, dasssie zutrifft, sondern nur, dass sie nichtgenugend unplausibel ist, um verworfen zuwerden!
StatBio 348
2. Es ist ferner vom Grundprinzip statistischer
Tests her unzulassig, eine Hypothese, die durch
,,Sichtung” der Daten gewonnen wurde, an-
hand derselben Daten zu testen. Dem Test
bleibt nichts anderes ubrig, als dem Wunsch
des ,,Hypothesen–Formulierers” entsprechend zu
antworten. Es ist vollig legitim, aufgrund von Da-
ten Hypothesen zu formulieren, zu generieren.
Nur: Wer erst aufgrund eines Datensatzeszu einer Hypothese kommt, braucht neueDaten, um diese Hypothese zu bestatigen!
3. Ergibt ein Test zur Irrtumswahrscheinlichkeit
α die Ablehnung von H0, so ist eine Formulie-
rung wie ,,Die Wahrscheinlichkeit ist hochstens
α, dass aufgrund des Testergebnisses die Hy-
pothese H0 zutrifft” sinnlos. Denn die Zahl α
gibt nicht an, mit welcher Wahrscheinlichkeit ei-
ne aufgrund von Daten getroffene Entscheidung
falsch ist. Die Wahrscheinlichkeit α charakteri-
StatBio 349
siert nur in dem Sinne das Testverfahren, dass
bei Unterstellung der Gultigkeit von H0 die
Wahrscheinlichkeit fur eine Ablehnung von H0
hochstens α ist, d. h. in vielen Testdurchfuhrun-
gen wird es (unter der Gultigkeit von H0) in
etwa α · 100% der Falle zu einer Ablehnung von
H0 kommen. In jedem dieser Falle wurde mit
Sicherheit eine falsche Entscheidung getroffen.
Aber: Diese ,,Sicherheit” war nur vorhanden,
weil a priori die Gultigkeit von H0 in al-len Testdurchfuhrungen unterstellt wurde!!!In gleicher Weise wird sich bei Unterstellung
der Gultigkeit der Alternative H1 ein gewisser
Prozentsatz von signifikanten Ergebnissen, also
Ablehnungen von H0, einstellen. Hier hat man
in jedem dieser Falle eine richtige Entscheidung
getroffen, weil die Gultigkeit von H1 a priori
unterstellt wurde. Im Allgemeinen besitzt man
jedoch keinerlei Information daruber, ob bei der
Testdurchfuhrung H0 oder H1 zutrifft (sonst
StatBio 350
konnte man sich das Testen ersparen)!
Entsprechendes gilt fur den p–Wert. Zur Erin-
nerung: Der p–Wert hangt vom Prufgroßenwert
und damit von den Daten ab. Ist wie in Bsp.11.1 p(3.91) = 0.001, so sind Aussagen der
Form ,,die Nullhypothese hat die Wahrschein-
lichkeit 0.035” bzw. ,,die Nullhypothese ist mit
Wahrscheinlichkeit 0.001 richtig” falsch. Model-
le haben selbst keine Wahrscheinlichkeiten, sie
legen Wahrscheinlichkeiten fur Beobachtungen
und Teststatistiken fest!
StatBio 351
Appendix A: Uberprufung der Annahmen
Fur große Stichprobenumfange ist der t–
Test robust (unempfindlich) gegenuber Abwei-
chungen der Normalverteilung: Dies bedeutet:
Die Fehlerwahrscheinlichkeiten α und β blei-
ben nahezu unverandert. Fur kleine Stichpro-
benumfange muss im Allgemeinen die Normal-
verteilungsannahme gepruft werden. Histogram-
me geben einen ersten Hinweis, sind aber zur
Prufung nicht geeignet.
Ein geeigneteres Instrument der graphischen
Uberprufung auf Normalverteilung ist der sogen-
ante Quantil–Quantil–Plot, kurz QQ–Plot. Er
vergleicht die Quantile der empirischen Vertei-
lung mit den entsprechenden Quantilen der Nor-
malverteilung. Zeigt dieser einen linearen Verlauf
(Gerade), so deutet dies auf normalverteilte Da-
ten hin.
StatBio 352
Die Interpretation von QQ–Plots erfordert je-
doch einige Erfahrungen.
Auf Normalitat kann auch (statistisch) getestet
werden. Geeignete Tests sind z. B. der
• Shapiro–Wilk–Test und der
• Kolmogorov–Smirnov–Test, korrigiert nach
Lilliefors.
Achtung! Klassische Tests wie der Chi–
Quadrat–Anpassungstest und der (nicht–
korrigierte) Kolmogorov–Smirnov–Test sind un-
geeignet!!!
StatBio 353
Prufung der Varianzhomogenitat bei un-
abhangigen Stichproben:
• Levene–Test (p–Wert groß, etwa p > 0.05,
Daten sprechen nicht gegen die Varianzhomo-
genitat).
Achtung! Der sogenannte F–Test zur Uber-
prufung der Varianzhomogenitat sollte nicht ver-
wendet werden.
Appendix B: t–Test mit SPSS
Fortsetzung von Aufgabe 4, Blatt 7
Dateneingabe: Sie erfolgt im Daten–Editor–
Fenster nach folgendem Muster:
StatBio 354
Befehle: Folgende Befehle sind aus der Menulei-
ste auszuwahlen:
Analysieren
Mittelwerte vergleichen
T–Test fur unabhangige Stichproben
StatBio 355
Programm–Output:
0.95–Konfidenzintervalle werden automatisch
mitgeliefert. Da der Levene–Test den p–Wert
0.911 liefert, sprechen die Daten nicht gegen die
Annahme der Varianzhomogenitat.
StatBio 356
Recommended