View
219
Download
0
Category
Preview:
Citation preview
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 1
Univ.-Prof. Dr. Georg Wydra Methoden der Physiotherapie II Methoden zur Auswertung von Untersuchungen 1 STATISTIK ..................................... 2
2 DESKRIPTIVE STATISTIK ................. 4
3 INFERENZSTATISTISCHE VERFAHREN33
4 VERFAHREN ZUR PRÜFUNG VON ZUSAMMENHÄNGEN 29
5 SIGNIFIKANZNIVEAU, ALPHA- UND BETA-FEHLER 70
6 EINFLUSSGRÖßEN AUF SIGNIFIKANZNIVEAU 81
7 GÜLTIGKEITSANSPRUCH DER UNTERSUCHUNGSBEFUNDE 107
LITERATUR ...................................... 131
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 2
1 Statistik Deskriptive Statistik: Beschreibung der beobachteten
Merkmalsausprägungen
Die Inferenzstatistik (lat. infero; hineintragen; folgern, schließen), auch induktive oder schließende Statistik ge-nannt, beschäftigt sich mit Prüfung von Hypothesen
o Unterschiede o Zusammenhänge
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 3
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 4
2 Deskriptive Statistik Häufigkeiten
Verteilungsformen
diskrete und stetige Variablen
Skalenniveau o Likert-Skala: Ordinal- bzw. Intervallskalierung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 5
Häufigkeiten • Absolute Häufigkeiten • Relative Häufigkeiten • Kumulative Häufigkeiten • Relative kumulative Häufigkeiten • Jeweils von einer oder mehreren Gruppen
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 6
Häufigkeiten
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 7
Häufigkeiten
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 8
Mittelwerte - Maße der zentralen Tendenz Die zentrale Tendenz ist ein statistisches Messverfahren zur Bestimmung eines einzelnen Wertes zur Repräsentation einer bestimmten Verteilung. Dabei soll der zu bestimmende Wert typisch oder repräsentativ für das vollständige Datenset sein“ (Pospeschill, 2005, S. 59).
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 9
Mittelwerte • Arithmetisches Mittel: Durchschnittswert einer Zahlreihe • Gewogenes Arithmetisches Mittel: Mittelwert aus mehre-
ren unterschiedlich großen Stichproben • Median: Wert, der eine Verteilung halbiert • Modalwert (Modus): Der häufigste Werte einer Verteilung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 10
Mittelwerte
Bös, Hänsel & Schott, 2000
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 11
Streuungsmaße Die Variabilität ist ein statistisches Messverfahren zur Quanti-fizierung des Streuungsmaßes von Messwerten.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 12
Streuungsmaße Range (Spannweite): Differenz aus dem größten und kleinsten Wert Standardabweichung: Die mittleren 68 % einer Verteilung Varianz: Standardabweichung zum Quadrat Variationskoeffizient: Die relative Standardabweichung, d. h. die Standardabweichung dividiert durch den Mittelwert Interquartilabstand: Die mittlere 50 % einer Verteilung Standardfehler: Standardabweichung dividiert durch die Wur-zel aus der Stichprobengröße n.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 13
Streuungsmaße Durchschnittliche absolute Abweichung: basiert auf der Summe der absoluten Abweichungen jedes Variablenwertes vom »arithmetischen Mittel« über alle »Untersuchungseinhei-ten«. Die Summe der absoluten Abweichungen wird durch die Anzahl der Untersuchungseinheiten dividert, Konfidenzintervall (Präzision der Schätzung): Der Wertebe-reich, in dem man den interessierenden Parameter der Grund-gesamtheit mit einer bestimmten Wahrscheinlichkeit erwartet
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 14
Beispiel aus Statistica
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 15
Möglichkeiten der grafischen Darstellung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 16
Modifikation einer WinStat-Abbildung Mittelwert und Standardabweichung der Variable Alter
40
45
50
55
60
65
70
Alte
r (M
onat
e)
± SD
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 17
Box & Whisker Plot
45
50
55
60
65
70
75
Alter (Monate)
Alte
r (M
onat
e)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 18
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 19
Normalverteilung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 20
Verteilungsformen
Pospeschill, 2006
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 21
Schiefe oder Symmetrie
Bös, Hänsel & Schott, 2000
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 22
Steilheit oder Exzeß
Bös, Hänsel & Schott, 2000
Die Wölbung bzw. Kurtosis der Dichtefunktion bzw. Wahrscheinlichkeits-funktion einer Zufallsvariablen X ist definiert als ihr auf die vierte Potenz der Standardabweichung σ normiertes viertes zentrales Moment μ4(X)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 23
Einkommensverteilung (linkssteil)
http://www.zes.uni-bremen.de/GAZESse/201002/RU_Unterschiede_Pflege_West_Ost.html
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 24
Mortalitätsrate als Beispiel für linksschiefe, rechtssteile Verteilung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 25
Mortalitätsstatistik (rechssteil) Mortalitätsstatistik - in jungen Jahren sterben sehr wenige,
aber in höheren Jahren immer mehr und beim Überschrei-ten einer kritischen Schwelle verringert sich die Mortalität wieder, weil für Hochaltrige andere Gesetzmäßigkeiten gel-ten
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 26
Prüfung der Normalverteilung 1. Optische Prüfung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 27
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 28
2. Statistische Prüfung
3. WinStat • Kolmogorow für kontinuierliche Daten und Chi-Quadrat für
diskrete Daten • Angaben zu Schiefe und Kurtosis (→deskriptive Statistik)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 29
3 Verfahren zur Prüfung von Zusammenhängen • Visualisierung • Produkt-Moment-Korrelationskoeffizient r nach Pearson, • Determinationskoeffizient r2 • Rang-Korrelationskoeffizient R (rho) nach Spearman • Kontingenzkoeffizient (C) (→ Kreuztabelle), • Komplexe Zusammenhänge (Körgergewicht, Körperhöhe,
Körperfettanteil) o Partielle Korrelation o Multiple Regressionen
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 30
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 31
Der Korrelationskoeffizient r nach Pearson
Für die Reliabilitätskoeffizienten gelten folgende Richtwerte:
>0.90 = ausgezeichnet;
0.80 – 0.90 = sehr gut;
0.70 – 0.80 = annehmbar;
0.60 – 0.70 = mäßig;
< 0.60 = gering (vgl. BÖS 1987).
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 32
Korrelative Beziehungen
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 33
Korrelationen
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 34
Prüfung auf Ausreißer
Pospeschill, 2005
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 35
Möglichkeiten der Manipulation
Pospeschill, 2005
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 36
Bestimmtheitsmaß oder Determinationskoeffizient
Der Determinationskoeffizient gibt an, wieviel Prozent der Variation der Variable A durch eine zweite Variable B vorhergesagt (determiniert) werden kann.
Bei einer einfachen Regression (nur eine unabhängige Variab-le) entspricht dem Quadrat des Pearson'schen Korrelationsko-effizienten. Beispiel: r = 0,9 r2 = 0,81 - d. h. 81 % Varianzaufklärung r = 0,7 r2 = 0,49 - d. h. 49 % Varianzaufklärung r = 0,4 r2 = 0,16 - d. h. 16 % Varianzaufklärung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 37
Wichtige Korrelationskoeffizienten Produkt-Moment-Korrelationskoeffizient Pearson
Rang-Korrelationskoeffizient nach Spearman
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 38
Weitere Korrelationskoeffizienten Urteilerübereinstimmung von kategorialen Daten:
Kappa von Cohen
Kappa von Fleiss Urteilerübereinstimmung bei Rangdaten
Weighted-Kappa von Cohen
Konkordanzkoeffizient von Kendall Bortz,J.; & Lienert, G. A. (2008). Kurzgefasste Statistik für die klinische Forschung. Leitfaden für die verteilungsfreie Analyse kleiner Stichproben. Heidelberg: Springer.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 39
Spearmans R kann als der übliche Pearsonsche Produkt-Moment-Korrelationskoeffizient (Pearson r) angesehen werden, d. h. als Anteil an erklärter Veränderlichkeit, mit dem Unterschied, dass Spearmans R über Ränge be-rechnet wird. Spearmans R setzt voraus, dass die betrachteten Variablen mindestens ordinalskaliert sind, d. h., dass die Beobachtungen jeder Variablen in eine Rangfolge gebracht (die Ränge gebildet) werden können.
Kendalls Tau ist zu Spearmans R im Hinblick auf die Voraussetzungen äquivalent. Beide Maße sind auch in ihrer statistischen Macht vergleichbar. Spearmans R und Kendalls Tau sind jedoch gewöhnlich nicht identisch, da sich sowohl die Grundlagen ihrer Konstruktion als auch die Formeln, auf deren Basis sie berechnet werden, stark un-terscheiden. Wichtiger sind die Unterschiede in der Interpretation von Kendalls Tau und Spearmans R: Spe-armans R kann man sich als den gewöhnlichen Pearsonschen Produkt-Moment-Korrelationskoeffizienten vorstel-len, d. h. als Anteil an erklärter Variabilität, mit dem Unterschied, dass Spearmans R auf der Basis von Rängen be-rechnet wird. Kendalls Tau stellt dagegen eine Wahrscheinlichkeit dar, d. h. es ist die Differenz zwischen der Wahrscheinlichkeit, dass die beobachteten Daten für beide Variablen in derselben Rangfolge vorliegen und der Wahrscheinlichkeit, dass die Daten für die beiden Variablen verschiedene Rangfolgen besitzen.
Gamma. Die Gamma-Statistik ist Spearmans R oder Kendalls Tau vorzuziehen, wenn die Daten viele Verbund-ränge enthalten. Hinsichtlich der Voraussetzungen ist Gamma äquivalent mit Spearmans R oder Kendalls Tau. Bezüglich seiner Interpretation und Berechnung ist es Kendalls Tau ähnlicher als Spearmans R. Gamma ist eben-falls eine Wahrscheinlichkeit. Es handelt sich um die Differenz zwischen der Wahrscheinlichkeit, dass die Rang-ordnung für beide Variablen übereinstimmt und der Wahrscheinlichkeit, dass sie nicht übereinstimmt, dividiert durch 1 minus die Wahrscheinlichkeit von Verbundrängen. Gamma ist grundsätzlich äquivalent zu Kendalls Tau; Verbundränge werden hierbei jedoch explizit berücksichtigt.
Kappa: Übereinstimmung zwischen mehreren Beobachtern bei kategorialen Daten (Z. B. gesund ja/nein).
Kontingenzkoeffizient: Der Kontingenzkoeffizient ist ein Chi-Quadrat-Wert, der auf dem Zusammenhang zwi-schen zwei ordinalskalierten Variablen basiert. Dieser Test wurde von Pearson vorgeschlagen, der auch den Chi-Quadrat-Test entwickelt hat. Sein Vorteil gegenüber dem einfachen Chi-Quadrat-Wert liegt darin, dass er leichter interpretierbar ist. Sein Wert liegt immer im Bereich zwischen 0 und 1 (0 bedeutet dabei vollständige Unabhängig-keit). Der Nachteil dieser Statistik besteht darin, dass die Obergrenze durch die Größe der Tabelle "begrenzt" wird; C kann die Grenze von 1 nur erreichen, wenn die Anzahl der Kategorien unbegrenzt ist (Statistica).
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 40
Scheinkorrelationen
Siehe hierzu: http://images.zeit.de/wissen/2015-03/statistik-korrelation.pdf
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 41
Partielle Korrelation Geprüft wird der Zusammenhang zwischen zwei Variablen, wenn eine dritte Variable, die ebenfalls einen Einfluss auf die Kriteriumsvariable hat, herausgerechnet wird. Beispiel: Zusammenhang zwischen Körpergewicht (Kriteriums-variable) und dem Körpergewicht. Zusätzlich hat der Körperfet-tanteil (ermittelt über die Caliperimetrie) einen Einfluss auf das Gewicht.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 42
Regressionen Regressionen dienen der Vorhersage einer Kriteriumsvariable (=abhängige Variable) mittels einer oder mehrerer Prädiktorva-riablen (unabhängiger Variablen).
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 43
Multiple Regression Geprüft wird, wie stark eine Kriteriumsvariable durch mehrere andere Prädiktorvariablen erklärt wird. Beispiel: Abhängigkeit des Körpergewichts von Körpergröße und Körperfettanteil.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 44
Ergänzende Berechnung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 45
4 Inferenzstatistische Verfahren Die Inferenzstatistik (lat. infero; hineintragen; folgern,
schließen), auch induktive oder schließende Statistik ge-nannt, beschäftigt sich mit Prüfung von Hypothesen
o Unterschiede o Zusammenhänge
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 46
Inferenzstatistik Inferenzstatistik trifft Wahrscheinlichkeitsaussagen über Po-
pulationswerte. Wir haben demnach Daten aus einer Stichprobe vorliegen,
möchten anhand dieser jedoch Aussagen über die Population treffen.
Die Frage die sich daraus ergibt wäre also: Was würde pas-sieren, wenn ich den "wahren Effekt" schon kenne, und dann das relevante "Zufallsexperiment" unendlich oft wiederhole?
Die Antwort auf die Frage ist, ich erhalte eine Stichprobenver-teilung.
Diese Stichprobenverteilung ist die Grundlage für die Verfah-ren der Inferenzstatistik: Signifikanztests und Konfidenzinter-valle.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 47
Parametrische und nichtparametrische Verfahren
Parametrische Verfahren orientieren sich an der Normalver-teilung der Daten und setzen in der Regel Intervallskalenniveau und Normalverteilung voraus. Bei der Berechnung werden vor allem der Mittelwert und die Standardabweichung herangezo-gen. Nichtparametrische Verfahren orientieren sich an der Rang-reihe der Daten, d. h. die Daten werden nach ihrer Größe sor-tiert und die Statistik darauf aufgebaut.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 48
Entscheidungsdiagramm zur Wahl des geeigneten statisti-schen Verfahrens zur Prüfung von Unterschiedshypothesen.
2 Stichproben mehr als 2 Stichproben
Skalen-niveau Verteilung
unabhängig (Gruppenver-
gleiche)
abhängig (Vergleich
Messzeitpunkte)
unabhängig (Gruppenver-
gleiche)
abhängig (Vergleich
Messzeitpunkte)
Nominal para-meterfrei
Chi-Quadrat McNemar Vorzei-
chentest Chi-Quadrat Cochran Q-Test
Ordinal para-meterfrei
U-Test Wilcoxon-Test Kruskal-Wallis
H-test Friedmann-Test
Intervall para-metrisch
t-Test für unab-hängige Stichpro-
ben bei a: homogenen b: heterogenen
Varianzen
t-Test für abhängige
(gepaarte) Stich-proben
Varianzanalyse Varianzanalyse
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 49
Kenngrößen Maße der
zentralen Tendenz Streuungs-
maße Form- maße
Nominal-skalen Modus - -
Ordinal-skalen Modus, Median Prozent-ränge -
Intervall-skalen Mittelwert (M)
Standard-abweichung
(SD) Schiefe, Exzess
• t-Test für unabhängige Stichproben (Gruppen) • t-Test für abhängige Stichproben (Messzeitpunkte) • U-Text • Wilcoxon-Test • Varianzanalyse
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 50
Prüfung von Mittelwertsunterschieden
Vortest Nachtest Gruppe
1 normalverteilt Wilcoxon-Test nicht normal-verteilt
t-Test für
unabhängige Stichproben
U-Test
Gruppe 2 normalverteilt
t-Test für gepaarte (abhängige)
Stichproben normalverteilt
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 51
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 52
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 53
Die Varianzanalyse Immer dann, wenn die Gruppenunterschiede von mehr als zwei Gruppen oder Messzeitpunkten in den Blick genommen wer-den, kommt die Varianzanalyse zum Einsatz.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 54
Vortest Nachtest Gruppe
1 normalverteilt Wilcoxon-Test nicht normal-verteilt
t-Test für
unabhängige Stichproben
U-Test
Gruppe 2 normalverteilt
t-Test für gepaarte (abhängige)
Stichproben normalverteilt
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 55
Formen der Varianzanalyse Einfaktorielle Varianzanalyse Es werden Unterschiede in Abhängigkeit von einem (mehrstu-figen) Faktor beleuchtet. Beispiel: Körperliche Leistungsfähigkeit in Abhängigkeit von der Art der Endoprothese Mehrfaktorielle (multiple) Varianzanalyse Es werden Unterschiede in Abhängigkeit von mehreren (mehr-stufigen) Faktoren beleuchtet. Beispiel: Körperliche Leistungsfähigkeit in Abhängigkeit von der Art der Endoprothese und der Art der postoperativen Be-handlung - eventuell mit Analyse der Wechselwirkungen
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 56
ANOVA Je nachdem, ob eine oder mehrere abhängige Variablen vor-liegen, unterscheidet man zwei Formen der Varianzanalyse: • univariate Varianzanalyse (englisch: analysis of variance =
ANOVA), wenn nur eine abhängige Variable vorliegt • multivariate Varianzanalyse (englisch: multivariate analysis
of variance = MANOVA), wenn mehrere abhängige Variab-len vorliegen
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 57
Pospeschill (2006, S. 264)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 58
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 59
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 60
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 61
Erklärung einer Varianzanalyse
FG Effekt: Freiheitsgrade zwischen den Gruppen
MQ Effekt: Varianz zwischen den Gruppen
FG Fehler: Freiheitsgrade innerhalb der jeweiligen Gruppen
MQ Fehler: Varianz innerhalb der jeweiligen Gruppen
F: Testwert (MQ Effekt / MQ Fehler)
p: Irrtumswahrscheinlichkeit
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 62
WinStat-Ergebnisdarstellung einer Anova Wiederholte Messungen
Messvariable: BAUCH1
BAUCH2
gruppiert nach: VGKG
Quadrat- summe
Freiheits-grade mittlere QS F p
Zwischen Variab-len 5698,000385 1 5698,000385 33,72409155 4,35608E-07
Zwischen Fällen 135812,5776 50 2716,251551 16,07636185 2,44032E-18
Zwischen Grup-pen 366,3978142 1 366,3978142 0,134890973 0,714963841
Interaktion 1364,352415 1 1364,352415 8,07503381 0,006478674
Fehler 8447,9672 50 168,959344
Gesamt 151689,2954 103 1472,711606
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 63
Homogenität der Varianzen Die Homogenität der Varianzen ist – im Gegensatz zur Normal-verteilung – eine unabdingbare Voraussetzung für die Durch-führung der Varianzanalyse. • Levene-Test • Bartlett-Test
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 64
With-in-Subject-Design Untersuchung mehrerer Treatments an einer Gruppe. Rand-omisierung der Reihenfolge der Treatments
R O X1 O O X2 O O O R O X2 O O O O X1 O R O O O X1 O O X2 O
Spezielles Modul in Statistica bzw. SPSS
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 65
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 66
Post-hoc-Tests Die Varianzanalyse stellt nur fest, ob Unterschiede bestehen oder nicht. Wenn keine Unterschiede bestehen, braucht man überhaupt nicht mehr weiter zu rechnen. Wenn Unterschiede bestehen, möchte man natürlich auch wissen, zwischen wel-chen Gruppen - oder Testzeitpunkten - signifikante Unterschie-de bestehen. • Scheffé-Test (eher konservativ) • Bonferonie-Test • Least significant difference (LSD)-Test ((weniger konserva-
tiv) Diese Tests führen zu ähnlichen, aber nicht identischen Ergeb-nissen (siehe: http://de.wikipedia.org/wiki/Post-hoc-Test .
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 67
Parameterfreie Varianzanalysen Die Varianzanalyse ist sehr robust gegenüber Verletzungen der Normalverteilung. Unabdingbar aber ist die Homogenität der Varianzen. Ist diese nicht gegeben oder liegen nur ordinalska-lierte Daten (außer einer Likert-Skala) vor, kommen parameter-freie Verfahren zum Einsatz. • Unabhängige (ungepaarte) Daten: Kruskal-Wallis-Test (H-
Test) • Abhängige (gepaarte) Daten: Friedman-Test
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 68
Darstellung varianzanalytischer Ergebnisse Angabe der deskriptiven Statistik
Angabe von F-Wert (einschließlich Freiheitsgraden) und p-Wert entweder im Text oder in Tabellenform
Abbildung
Wydra, G. (2002). Sit-Ups am Schrägbrett: Untersuchungen zur Ef-fektivität als Bauchmuskeltraining und zur Verkürzung der Hüftbeu-gemuskulatur. Deutsche Zeitschrift für Sportmedizin, 53(10), 285 - 290. Wydra, G. (2003). Beanspruchung der Bauch- und Hüftbeugemusku-latur durch verschiedene Rumpfübungen. Leistungssport, 33(1), 23 - 29.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 69
Zusammenfassung statistische Verfahren
Zusa
mm
en-
häng
e
Gru
ppen
-un
ters
chie
de
Unt
ersc
hied
e
zwis
chen
Ze
itpun
kten
Effe
ktun
ter-
schi
ede
Kau
sal-
hypo
thes
en
Querschnitts- untersuchungen
Korrelatio-nen
t-Test U-Test
Ex-post-facto- Untersuchungen
t-Test U -Test Vari-anzanalyse
Längsschnitt- untersuchungen
t-Test Wilcoxon-Test Varianz-analyse
Hybride Experimente Varianz-analyse
Varianz-analyse
Naturwissenschaftliche Experimente Varianz-
analyse Varianz-analyse
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 70
5 Signifikanzniveau, Alpha- und Beta-Fehler o Signifikanz o Bedeutsamkeit
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 71
Signifikanzniveau = 5 % Wahrscheinlichkeit, mit der die Nullhypothese zu Unrecht
abgelehnt und die Alternativhypothese angenommen wird
mit einer Irrtumswahrscheinlichkeit von 5 % besteht tatsäch-lich ein Zusammenhang bzw. ein Unterschied
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 72
Irrtumswahr-scheinlichkeit p p > 0.05 p ≤ 0.05 p ≤ 0.01 p ≤ 0.001
Signifikanzniveau α α > 5 % α ≤ 5 % α ≤ 1 % α ≤ 0.1 %
Verbale Bedeutung nicht signi-fikant
signifikantsehr
signifikanthoch-
signifikant
Buchstaben-symbolisierung n. s. s. s. s. h. s.
Graphische Symbolisierung
* +
** ++
*** +++
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 73
Ein Feuermelder muss funktionieren!
Tatsache Es brennt stimmt stimmt nicht
Feuermelder Alarm Fehlalarm
kein Alarm Fehlalarm
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 74
In Gerichtsverfahren gilt: In dubio pro reo! Nullhypothese: Der Angeklagte ist unschuldig!
Tatsache Er ist der Täter stimmt stimmt nicht
RichterVerurteilungt Fehlurteil
Freispruch Fehlurteil
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 75
Im Leben gilt: Es prüfe, wer sich ewig bindet. Nullhypothese: Kandidat ist nicht der richtige Mann fürs Leben
Tatsache Ist die/der Richtige stimmt stimmt nicht
EntscheidungHeirat Fehlent-
scheidung
keine Heirat
Fehlent-scheidung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 76
Von 1000 Frauen haben tatsächlich 8 Brustkrebs. Nullhypothese: Die Frau hat keinen Brustkrebs!
Tatsache Brustkrebs stimmt stimmt nicht
Screening Alarm 7 70 = falsch
positiv:
kein Alarm
1 = falsch negativ 922
Vergleichbares Problem wie bei Sensitivität und Spezifität von Tests
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 77
Sensitivität und Spezifität von Tests
Goldstandard
(anerkannter Test)
Auffälligkeit
liegt vor liegt nicht vor
Neuer Test Auffälligkeit
positives Testergebnis
liegt vor
richtig positiv
a
falsch positiv
b
alle Test-Positiven =
a + b
negatives Testergebnis
liegt vor
falsch negativ
c
richtig negativ
d
alle Test-Negativen = c +
d
a + c =
alle Auffälli-gen
b + d = alle Unauf-
fälligen
a + b + c + d = alle Untersuch-
ten
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 78
Gütemaß Alternative Begrifflichkeiten Formel
Sensitivität
Richtig-Positiv-Rate, Empfind-lichkeit oder Trefferquote; englisch sensitivity, true posi-tive rate, recall oder hit rate
caa
Spezifität
Richtig-Negativ-Rate oder Kennzeichnende Eigenschaft; englisch: specificity, true ne-gative rate oder correct rejec-tion rate
bdd
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 79
-Fehler und ß-Fehler
Nullhypothese stimmt stimmt nicht
Statistische Entscheidung
Annahme ß-Fehler
Ablehnung -Fehler
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 80
Die vier Möglichkeiten des statistischen Entscheidungsproblems
α-Fehler Nicht existierender Unterschied wird als Unterschied ausgege-ben
β-Fehler Vorhandener Unterschied wird nicht entdeckt
1 - α Nicht existierender Unterschied wird tatsächlich erkannt
1 - β Vorhandener Unterschied wird tatsächlich entdeckt (Testpower)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 81
6 Einflussgrößen auf Signifikanzniveau Zusammenhang zwischen der Stichprobengröße n und der Irr-tumswahrscheinlichkeit p für einen t-Test für unabhängige Stichproben bei konstanten Populationswerten (M1=100, SD1 = 10; M2 = 110, SD2 = 10)
n = 5 10 20 50
p = 0.152 0.038 0.003 0.000
Bei genügend großer Stichprobe wird der
kleinste Unterschied signifikant!
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 82
Zusammenhang zwischen der Standardabweichung SD und der Irrtumswahrscheinlichkeit p für einen t-Test für unabhängi-ge Stichproben bei konstanten Populationswerten (M1=100, n1
= 20; M2 = 110, n2 = 20)
SD = 5 10 15 20
p = 0.000 0.003 0.042 0.122
Bei großen Standardabweichungen führen nur große
Unterschiede zu signifikanten Effekten!
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 83
Abbildung 1: Abhängigkeit der Irrtumswahrscheinlichkeit p von der Stichproben-größe und der Standardabweichung. Ergebnis eines t-Tests mit M1=100 und M2=110. Die Signifikanzgrenze von = 5 % (p=0.05) ist gesondert eingezeichnet.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 84
Einflussgrößen auf - und -Fehler
http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-normtest.html
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 85
Einflussgrößen auf - und -Fehler
Maßnahme Folge 1. Art und Folge 2. Art
Verringerung von von 5 % auf 1 % -Fehler -Fehler
Erhöhung von von 0,1 % auf 5 % -Fehler -Fehler
Wir brauchen ein zusätzliches Maß neben dem Signifikanz,
das unabhängig von der Stichprobengröße ist: Effektgröße
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 86
Effektgröße d für unabhängige Stichproben
sd KGEG XX
Die Streuung berechnet sich:
2
22KGEG sss
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 87
Effektgröße d für unabhängige Stichproben
sd 110100
Die Streuung berechnet sich:
1021010 22
s
110110100 d
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 88
Effektgröße d für abhängige Stichproben
sd XX 21 2
Die Streuung berechnet sich:
2122
12 2 ssrsss
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 89
Veränderung der Effektgröße d bei unterschiedlich hohen Standardabweichungen (SD) und konstant gehaltenen Mittel-werten von 100 bzw. 110. Beurteilung der Effektgröße für den t-Test für unabhängige Stichproben
SD 5 7.5 10 12.5 15 17.5 20 25 30 40 50 d 2 1.33 1 0.8 0.66 0.57 0.5 0.4 0.33 0.25 0.2
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 90
Effektgrößenberechnung
Zur Berechnung der Effektstärke oder -größe bei einfachen Gruppenvergleichen: inc/neustadt/bedeut.htm
Zur Berechnung der Effektstärke oder -größe bei Versuchs-Kontrollgruppen-Designs mit Vor- und Nachtest: inc/neustadt/eskorr.htm
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 91
Optimale Stichprobengröße Optimale Stichprobengröße für große, mittlere und kleine Effekt-größen (Bortz & Döring, 1995).
Effektgröße groß mittel klein d 0.80 0.50 0.20 Stichprobengröße n=20 n=50 n=310
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 92
Eta-Quadrat ή2 Eta-Quadrat: Anteil der durch die unabhängige Variable
aufgeklärten Varianz an der Gesamtvarianz
Partielles Eta-Quadrat: das jeweilige bezieht sich nur auf einen Teil (part) der Varianzaufklärung
Konventionen für die Interpretation (nach Cohen, 1988)
ή2 = 0,01 → kleiner Effekt
ή2 = 0,06 → mittlerer Effekt
ή2 = 0,14 → großer Effekt
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 93
Die vier Möglichkeiten des statistischen Entscheidungsproblems
α-Fehler Nicht existierender Unterschied wird als Unter-
schied ausgegeben β-Fehler Vorhandener Unterschied wird nicht entdeckt 1 - α Nicht existierender Unterschied wird erkannt 1 - β Vorhandener Unterschied wird entdeckt (Test-
power)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 94
Testpower (1 - ß) Wahrscheinlichkeit, dass ein Unterschied tatsächlich erkannt wird.
Nullhypothes stimmt stimmt nicht
Statistische Entscheidung
Annahme 1 - ß = Testpower ß-Fehler
Ablehnung -Fehler 1 -
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 95
Einfluss des Signifikanzniveaus auf - und -Fehler
Maßnahme Folge 1. Art + Folge
2. Art
Verringerung von von 5 % auf 1 %
-Fehler -Fehler Testpower
Erhöhung von von 0,1 % auf 5 %
-Fehler -Fehler Testpower
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 96
Einfluss der Probandenzahl auf das Auftreten von -Fehlern und die Testpower
Maßnahme -Fehler Testpower
(1 - )
Erhöhung von N
Verringerung von N
= Reduktion; = Erhöhung
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 97
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 98
Probleme Kontrolle der Alpha-Fehler-Wahrscheinlichkeit über Signifi-
kanzniveau: Je größer die Stichprobe, umso statistisch sig-nifikanter die Ergebnisse
Folge: Fehler 1. Art wird reduziert und gleichzeitig Fehler 2. Art erhöht
Fragen o Optimale Testpower o Optimale Stichprobengröße
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 99
Optimale Testpower Alpha/Beta-Fehler-Verhältnis ¼ (Fehler 2. Art ist nicht so gravierend wie der Fehler 1. Art) α-Fehler = 0,05 (Wissenschaftliche Konvention) β-Fehler = 0,20
Optimale Testpower = 0,80
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 100
Optimale Testpower (1 - β-Fehler = 0,80) Testpower = Wahrscheinlichkeit, dass ein Unterschied tatsäch-lich erkannt wird.
Nullhypothes stimmt stimmt nicht
Statistische Entscheidung
Annahme Testpower = 0,80
ß-Fehler = 0,2
Ablehnung -Fehler = 0,05 1 - = 0,95
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 101
Optimaler Stichprobenumfang „Ein optimaler Stichprobenumfang gewährleistet, daß ein Signi-fikanztest mit einer Wahrscheinlichkeit von 80 % zu einem sig-nifikanten Ergebnis führt, wenn die spezifische H1 den Popula-tionsverhältnissen entspricht. Das Risiko einer Fehlentschei-dung bei Annahme dieser H1 aufgrund eines signifikanten Er-gebnisses entspricht hierbei dem Signifikanniveau (5 % bzw. 1 %)“ (Börtz & Döring, 1995, S. 567).
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 102
Powerkalkulator
http://www.dssresearch.com/KnowledgeCenter/toolkitcalculators/samplesizecalculators.aspx
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 103
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 104
Minimaler klinisch relevanter Unterschied (MIKRU)
1. Bei großen Stichproben _ Mikru beachten! 2. Bei kleinen Stichproben _ _ - Fehler beachten! Berechnung der Patientenanzahl N = Anzahl der Patienten pro Studie, bei gleichmäßiger Vertei-lung auf Gruppen EA =Erfolgsrate der Gruppe A FA = Fehlschlagrate der Gruppe A EB = Erfolgsrate der Gruppe B FB = Fehlschlagrate der Gruppe B
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 105
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 106
Arbeitsauftrag A1: Wodurch erhöht sich die Gefahr eines Fehlers 2. Art mehr? Durch ein nicht sig-nifikantes oder ein sehr signifikantes Ergebnis?
A 2: Wie groß ist der Alpha-Fehler bei einem Signifikanzniveau von 5 %?
A 3: Vergrößert sich der Beta-Fehler durch eine Vergrößerung der Stichprobe oder verringert er sich?
A 4: Die Effektgröße zur Einschätzung der praktischen Bedeutsamkeit hängt ab von?
dem Mittelwertsunterschied zwischen EG und KG der Anzahl der Versuchspersonen dem Signifikanzniveau dem p-Wert bei der Signifikanzprüfung der Streuung in EG und KG
A 5: Warum reicht die Effektgröße allein nicht aus, um die Bedeutsamkeit einer Maß-nahme in einem größeren Gesamtzusammenhang zu begründen?
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 107
7 Gültigkeitsanspruch der Untersuchungsbefunde Eine Untersuchung ist intern valide, wenn ihre Ergebnisse eindeutig interpretierbar sind. Die interne Validität sinkt mit wachsender Anzahl plausibler Alternativerklärungen für die Er-gebnisse. Eine Untersuchung ist extern valide, wenn ihre Ergebnisse über die besonderen Bedingungen der Untersuchungssituation und über die untersuchten Personen hinausgehend generali-sierbar sind. Die externe Validität sinkt mit wachsender Unna-türlichkeit der Untersuchungsbedingungen bzw. mit abneh-mender Repräsentativität der untersuchten Stichproben. (BORTZ/DÖRING 1995)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 108
Interne Validität Überlegungen zur internen Validität befassen sich mit Fragen, ob die Untersuchungsbefunde eindeutig interpretiert werden können. Es stellen sich folgende Fragen: In wie fern ist die Variation in der abhängigen Variable (AV)
auf die Variation in der unabhängigen Variable (UV) zurück-zuführen?
Wie gut ist es gelungen, in der Untersuchung nur die Auswir-kungen der UV in der AV zu finden?
Können mögliche Alternativhypothesen zur Erklärung der Va-riation der AV ausgeschlossen werden?
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 109
Das MAX-KON-MIN-Prinzip als Maßnahme zur Verbesserung der internen Validität (vgl. Bös,
Hänsel & Schott, 2000, S. 50 - 60) Bei allen Messreihen erhält man ein Maßzahlen für die zentrale Tendenz (Modus, Median, Mittelwert) und Streuungsmaße (Prozentränge, Range, Varianz, Standardabweichung). Diese Streuung eines Wertwertes um den Mittelwert herum hängt von verschiedenen Faktoren ab. Ein Versuchsplan ist dann intern valide, wenn die Variation der AV (bis auf unsystematische Fehlervarianz) nur auf die Variati-on der UV zurückgeht.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 110
Beispiel: Zusammenhang zwischen Körpergewicht und Körpergröße. Das Körpergewicht als AV ist in hohem Maße von der Körpergröße (UV) abhängig. Dies kommt beispielsweise in der Verwendung des Body Mass Index (BMI) zur Einschätzung des Normalgewichts zum Ausdruck. Den Anteil an der Streuung der Messwerte des Körperge-wichts, der durch die Körpergröße zustande kommt, bezeichnet man als Primärvarianz.
Das Körpergewicht ist nicht nur von der Körpergröße, sondern auch von der Muskelmasse und dem Körperfettanteil abhängig. Die Muskelmasse bzw. der Körperfettanteil führen zu ei-ner systematischen Veränderung des Zusammenhangs zwischen Körpergröße und Körper-gewicht und werden deshalb als Sekundärvarianz bezeichnet.
Bei jeder Messung können Fehler gemacht werden. Deshalb legt man so großen Wert auf die Objektivität und Reliabilität von Messverfahren. Das ist die sog. Fehlervarianz. Im Gegensatz zur Primär- und Sekundärvarianz ist ihr Einfluss unsystematisch, d. h. man kann nicht sagen in welche Richtung die Messwerte beeinflusst werden
Bei einer Untersuchung an Rehateilnehmern wurden Körpergröße, Körpergewicht und der Körperfettanteil bestimmt. Eine mit diesen Variablen durchgeführte Regressionsanalyse er-brachte eine Gesamtvarianzaufklärung von 77 %, d. h. 77 % der zu beobachtenden Unter-schiede im Körpergewicht können erklärt werden durch die Körpergröße (46 %), den Körper-
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 111
fettanteil (17 % und das Geschlecht (14 %). Die restlichen 23 % sind bedingt durch die intra-individuellen Unterschiede bzw. die Fehlervarianz.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 112
Daraus folgt das Max-Kon-Min-Prinzip: Maximiere die Primärvarianz! Kontrolliere die Sekundärvarianz! Minimiere die Fehlervarianz!
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 113
MAXimierung der Primärvarianz der UV Primärvarianz maximieren bedeutet, die Stufen der UV so zu wählen, dass sich in der AV möglichst klare Unterschiede zwi-schen den Bedingungen zeigen. Wahl von extremen Stufen der UV - bei Altersabhängigkeit
einer Variable Junge und Alte untersuchen. Wahl von optimalen Stufen der UV - setzt Kenntnis der op-
timalen Stufen voraus; z. B. bei Krafttests hängt das Ergebnis von der Wiederholungszahl ab. Es werden wiederholte Mes-sungen durchgeführt bis die Kraftleistung nachlässt. Das bes-te Ergebnis wird gewertet.
Wahl vieler Stufen der UV - besonders wichtig bei Variablen, wie z. B. Wohlbefinden, die sich verändern.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 114
KONtrolle der Sekundärvarianz aus den Störvariablen
Störvariablen (SV) sind Variablen, die neben der interessierenden unabhängigen Variablen (UV) einen unerwünschten Einfluss auf die abhängige Variable (AV) ausüben. Eliminierung von Störvariablen - Ausschaltung von z. B. Lärm;
Arbeit im Labor. Konstanthaltung - Tageszeit, Wochentag, Ort der Untersuchung
etc. Umwandlung von Störvariablen in UV - Auswertung unter Be-
rücksichtigung der Störvariable (z. B. des Geschlechts, Alter, Nati-onalität etc.; der Umgebungsbedingungen, der Tageszeit etc.).
Vermeidung von Konfundierungen (Vermengung zweier oder mehrerer unabhängiger Variablen, so dass nicht eindeutig gesagt werden kann, wodurch die beobachteten Effekte verursacht wur-den)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 115
Beispiel Konfundierung: Bei einem Stretchingexperiment (Wallin et al., 1985) wurde die Ver-besserung der Dehnfähigkeit der ischiokruralen Muskelgruppe durch dynamisches bzw. statisches Dehnen überprüft. Die dynamisch trai-nierende Trainingsgruppe dehnte die ischiokrurale Muskulatur durch Rumpfbeugen. Die statisch trainierende Gruppe dehnte die ischiok-rurale Muskelgruppe, indem das zu dehnende Bein im Stehen auf einen Tisch aufgelegt wurde. Das Ergebnis der Untersuchung laute-te, dass das statische Dehnen effektiver sei als das statische. Es handelt sich um eine typische Konfundierung zweier unabhängiger Variablen: die Stretchingtechniken (statisch bzw. dynamisch) waren mit verschiedenen Ausführungsformen (Rumpfbeuge, Fuß auf dem Tisch) konfundiert. Wenn man die Frage der Effektivität der Stret-chingtechnik beantworten will, muss man die gleiche Übungsausfüh-rung wählen.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 116
MINimierung der Fehlervarianz Keine definierten Kontrolltechniken; Objektivität und Reliabilität der Messverfahren und der Auswertung. Im Einzelnen können folgende Faktoren zu einer unsystematischen Erhöhung der Fehlervarianz beitragen (vgl. Sarris, 1992, S. 147): Zeiteinflüsse (history): Was geschah zwischen Vor- und
Nachtest? (z. B. Ereignisse des 11. September auf die allge-meine Ängstlichkeit einer Population)
Entwicklung (maturation): Vor allem bei längeren Experi-menten von Bedeutung (z. B. Einstellung und Verhalten von Jugendlichen in der Pubertät; siehe hierzu die Ausführungen zu entwicklungspsychologischen Untersuchungen weiter un-ten)
Testeffekte (test sophistication): Einflüsse des Vortestes auf den zweiten Test (Lern- und Trainingseffekte). Alleine
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 117
schon durch die Durchführung des Vortests werden unter Umständen Einstellungs- und Verhaltensänderungen hervor-gerufen, die wiederum einen Einfluss auf den Nachtest ha-ben können (siehe Solomon-Vier-Gruppenplan, Arbeitsblatt 2.3).
Veränderung der Messinstrumente (instrumentation): Versuchsleiterwechsel und mangelnde Reliabilität des Mess-verfahrens.
Statistische Regression (regression): Boden- und De-ckeneffekte: Pbn. mit sehr guten Leistungen, z. B. Leistungs-sportler, können sich kaum noch verbessern, während sich Pbn. mit einer schlechten Leistungsfähigkeit, z. B. Rehabili-tanden, fast nur noch verbessern können.
Auswahlverzerrung (selection): Vpn. unterscheiden sich hinsichtlich wichtiger Kriterien vor allem bei nicht-randomisierter Auswahl. Bei Untersuchungen zur Motorik muss das Geschlechterverhältnis ausgewogen sein und die
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 118
sportliche Aktivität muss berücksichtigt werden, da diese bei-den Variablen einen direkten Einfluss auf die motorische Leistungsfähigkeit haben (siehe Parallelisierung, Arbeitsblatt 2.3).
Experimentelle Einbußen (mortality): Testmortalität (Aus-scheiden von Vpn. durch Verletzungen). Je länger eine Un-tersuchung dauert und mit mehr Aufwand eine Untersuchung für die Pbn. verbunden ist, umso größer ist die Gefahr, dass Pbn. aus einer Untersuchung aussteigen. Die Testmortalität sollte deshalb bei der Untersuchungsplanung abgeschätzt und die Stichprobengröße entsprechend angepasst werden.
Versuchsleitereffekte (experimenter-bias effects): Verhal-ten und Eigenschaften der Versuchsleiter. Optimal ist es, wenn wie in Doppelblindexperimenten die Versuchsleiter nicht wissen, welcher Pbd. welches Treatment bekommt.
Interaktive Effekte (interactive-effects): Verschiedene ex-perimentelle Bedingungen führen zu Carry-Over-Effekten.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 119
Externe Validität Eine Untersuchung ist extern valide, wenn ihre Ergebnisse
über die besonderen Bedingungen der Untersuchungssituati-on und den Zeitpunkt der Untersuchung (ökologische Validi-tät) bzw. über die untersuchten Personen (Populationsvalidi-tät) hinausgehend generalisierbar sind.
Störfaktoren sind Wechselwirkungen zwischen der unabhän-gigen Variabele und den Versuchspersonen, den Messzeit-punkten und den sonstigen situativen Bedingungen.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 120
Polpulationsvalidität Polpulationsvalidität (Wechselwirkung zwischen Personen-Selektion und UV). Ein Kernproblem bei vielen sportwissen-schaftlichen Untersuchungen besteht darin, dass für die Unter-suchungen Sportstudenten als Pbn. herangezogen werden. Es stellt sich die Frage, ob die bei jungen, gesunden und hochleis-tungsfähigen Menschen gefundenen Ergebnisse auf andere Populationen (ältere, kranke und wenig leistungsfähige Men-schen) übertragen werden können.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 121
Zeitliche Validität Zeitliche Validität in Abhängigkeit von besonderen Ereignis-sen in der Zeit (Konfundierung Alter und Generation bei Ent-wicklungsstudien)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 122
Beispiel - Ent-wicklungspsy-chologie: Bei der Analyse von al-ternsabhängigen Entwicklungsver-läufen ist zu be-achten, dass es methodisch so gut wie unmöglich ist, Menschen entlang ihrer gesamten Lebensspanne zu
Abbildung 1: Alternsabhängige Veränderung einiger motorischer und körperlicher Fähigkeiten.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 123
untersuchen. Die Ergebnisse ent-sprechender Un-tersuchungen (sie-he Abbildung 1) stammen zumeist aus Querschnitts-untersuchungen. Bei solchen Daten spielt aber nicht nur das biologi-sche Lebensalter eine Rolle, son-dern auch die Zu-gehörigkeit zu ei-ner bestimmten Generation, d. h.
Abbildung 2: Querschnitts- und Längs-schnittsequenzen
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 124
Situationsvalidität Interaktion Vortest und UV ( Solomon-Viergruppenplan)
Interaktion Situation und UV o Versuchsleitereffekt o Ökologische Validität (Natürlichkeit der Untersuchungs-
bedingung - Feld- oder Laboruntersuchung) o Placebo-, Neuigkeits- und Hawthorne-Effekt
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 125
Störvariablen Die Störvariable (SV) ist diejenige Variable, die neben der inte-ressierenden unabhängigen Variablen (UV) einen unerwünsch-ten Einfluss auf die abhängige Variable (AV) ausübt (Konfun-dierung von Einflüssen). Beispiel: Wenn nicht nur die Technik beim Dehnen (statisch vs. dynamisch) variiert wird, sondern zugleich die Ausführungsform
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 126
Kontrolle von Personenstörvariablen Randomisierung: Zuordnung durch Zufall
Parallelisierung - Matched Samples: Untersuchungsteilneh-
mer werden paarweise den Gruppen zugewiesen (Matching)
führt zu gleichen Mittelwerten und Streuungen in den unter-
suchten Gruppen
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 127
Parallelisierung
Testwert Rang Paarbildung Gruppe A Gruppe B20 1 Paar 1 1 (20) 2 (19) 19 2 18 3 Paar 2 4 (17) 3 (18) 17 4 16 5 Paar 3 5 (16) 6 (15) 15 6 14 7 Paar 4 8 (13) 7 (14) 13 8
M = 16,5 M = 16,5 M = 16,5
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 128
Randomisierung und Parallelisierung Beispielhafte Darstellung der Ergebnisse einer Randomisierung bzw. Parallelisierung (fiktive Werte). Angabe der Ergebnisse des t-Tests Gruppe 1 (n=22) Gruppe 2 (n=22)
M SD M SD t-Wert p
Randomisierung (N) 22,9 5,6 26,3 9,4 4,51 0,009
Parallelisierung (N) 24,5 5,3 25,0 4,9 0,45 0,897
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 129
Experiment Quasiexperiment
Feld Hohe externe Validität
Hohe interne Validität
Hohe externe Validität
Geringe interne Validität
LaborGeringe externe Validität
Hohe interne Validität
Geringe externe Validität
Geringe interne Validität
Kombination der Untersuchungsvarianten „experimentell vs. quasi-experimentell“ und Felduntersuchung vs. Laboruntersuchung.
(Bortz, 1984, S. 36)
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 130
Die beste Möglichkeit zur Verbesserung der exter-nen Validität besteht darin, Untersuchungen unter anderen Bedingungen mit anderen Versuchsper-sonen zu replizieren!
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 131
Literatur Bortz, J. & Döring, N. (1995). Forschungsmethoden und Evalu-ation (2. erw. Aufl.). Berlin: Springer. Bös, K., Hänsel, F., & Schott, N. (2000). Empirische Untersu-chungen in der Sportwissenschaft. Hamburg: Czwalina. Gigerenzer, G. (2002). Das Einmaleins der Skepsis. Über den richtigen Umgang mit Zahlen und Risiken. Berlin: Berlin Verlag. Möller, J. & Strauß, B. (1994). Experimentelle und quasiexpe-rimentelle Versuchspläne. In B. Strauß & H. Haag (Hrsg), For-schungsmethoden - Untersuchungspläne - Techniken der Da-tenerhebung in der Sportwissenschaft. Forschungsmethodolo-gische Grundlagen (S. 167 - 181). Schorndorf: Hofmann.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 132
Pospeschill, M. (2005). Statistische Methoden. Elsevier: Mün-chen. Sarris, V. (1992). Methodologische Grundlagen der Experimen-talpsychologie. 2: Versuchsplanung und Stadien. München: Reinhardt. Statistica (2003). Auszug aus dem elektronischen Handbuch des Statistikprogramms Statistica 6.1. Tulsa, Ok: StatSoft, Inc. (siehe Materialien zu Methoden der Sportwissenschaft http://www.uni-saarland.de/fak5/sportpaed/ ) Wallin, D., Ekblom, B., Grahn, R. & Nordenbrog, T. (1985). Im-provement of muscle flexibility: A comparison between two techniques. The American Journal of Sports Medicine, 13, 263 - 268.
Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 133
Wydra, G. (2002). Sit-Ups am Schrägbrett: Untersuchungen zur Effektivität als Bauchmuskeltraining und zur Verkürzung der Hüftbeugemuskulatur. Deutsche Zeitschrift für Sportmedizin, 53, 285 - 290.
Recommended