of 55 /55
Achim Tresch Computational Biology ‘Omics’ - Analysis of high dimensional Data

Achim Tresch Computational Biology

  • Upload
    golda

  • View
    48

  • Download
    0

Embed Size (px)

DESCRIPTION

‘Omics’ - Analysis of high dimensional Data. Achim Tresch Computational Biology. G R U N D G E S A M T H E I T. Stichprobe. Beurteilende Statistik. - PowerPoint PPT Presentation

Citation preview

Page 1: Achim Tresch Computational Biology

Achim TreschComputational Biology

‘Omics’

- Analysis of high

dimensional Data

Page 2: Achim Tresch Computational Biology

Deskriptive (beschreibende) Statistik:Übersichtliche Aufbereitung der Daten eines vorliegenden Kollektivs (Stichprobe) mittels Graphiken und Tabellen

Beurteilende (schließende, Inferenz-) Statistik:Induktiver Schluss von der Stichprobe auf die Grundgesamtheit; Gewinnung allgemeiner Erkenntnisse

Stichprobe

G R U N D G E S A M T H E I T

Beurteilende Statistik

Page 3: Achim Tresch Computational Biology

Unsicherheitsbehaftete Entscheidungen

Page 4: Achim Tresch Computational Biology

Andrey KolmogoroffSchamane

Unsicherheitsbehaftete Entscheidungen

Page 5: Achim Tresch Computational Biology

Unterschied in der Stichprobe

Unterschied in der Grund-gesamtheit?

Schluss von der Stichprobe auf die Grundgesamtheit

Da anhand einer Stichprobe nur unvollständige Information vorliegt, sind ungenaue Schlüsse und Fehlschlüsse möglich.

Wichtige Aufgabe der statistischen Methodik:Trotzdem möglichst genaue und fehlerfreie Schlüsse bzw. Quantifizierung der Unsicherheit bei diesen Schlüssen• Statistischer Test (Signifikanztest):

Beurteilende Statistik

Page 6: Achim Tresch Computational Biology

Ermittelte Maßzahl in der Stichprobe

Maßzahl in der Grund-gesamtheit?Toleranzen (Konfidenz-bereich)?

Schluss von der Stichprobe auf die Grundgesamtheit• Schätzung:

Beurteilende Statistik

Page 7: Achim Tresch Computational Biology

Wann ist der Schluss von der Stichprobe auf die Grundgesamtheit möglich? Wichtig: Stichprobe muss „repräsentativ“ sein!(Stichprobe enthält nur Bodenproben aus Köln -> Keine Aussagen über Boden in Argentinien möglich)

Repräsentativität kann erzielt werden durch zufällige Ziehung aus der Grundgesamtheit (in der Praxis selten möglich). Genau überlegen, „wie weit“ man schließen kann!

Beispiel: Therapie bei Kindern mit Leukämie in Mainz→ Kinder in anderen Unikliniken in Deutschland?→ Alle Leukämiekinder auf der Welt??

Beurteilende Statistik

Page 9: Achim Tresch Computational Biology

Lernphase: Vermesse alle Schafe, die dir begegnen. Beschreibe die Größe der Schafe, z.B. durch einen Dichteplot.

70 80 90 100 110 120 130 140

Groesse [cm]

Eine Methode zur Erkennung von (nicht-)Schafen

Page 10: Achim Tresch Computational Biology

Testphase: Begegnet dir ein neues Tier, so vermesse es. Liegt die Größe des Tieres außerhalb des Größenbereichs der Schafe, so nenne das Tier „zu groß/zu klein für ein Schaf“. Ansonsten gehe davon aus, dass es ein Schaf ist

70 80 90 100 110 120 130 140

Groesse [cm]

Kein Schaf

Eine Methode zur Erkennung von (nicht-)Schafen

Page 12: Achim Tresch Computational Biology

= Eine Methode zum Erkennen von nicht-Placebos

-10 -5 0 5 10 15

Blutdrucksenkung [mmHg]

Testphase: Quantifiziere die Wirkung eines Medikaments. Nenne es wirksam, wenn die Wirkung jenseits der Schwelle liegt

Lernphase: Quantifiziere die Wirkung eines Placebos (z.B. Blutdrucksenkung in mmHg).Lege eine Entscheidungsschwelle fest

Eine Methode zum Nachweis von Medikamentenwirksamkeit

Page 13: Achim Tresch Computational Biology

Formuliere eine Nullhypothese H0 („es passiert nichts“)Wähle eine Teststatistik (Prüfgröße, die gemessene Größe zur Entscheidungsfindung). Lege damit implizit die Nullverteilung (die Verteilung der Teststatistik, falls die Nullhypothese gilt) fest.

-10 -5 0 5 10 15

Blutdrucksenkung [mmHg]

Statistisches Testen von Hypothesen

Page 14: Achim Tresch Computational Biology

Formuliere eine Alternativhypothese (z.B. „die Werte sind größer als unter der Nullhypothese erwartet“)Lege eine Entscheidungsschwelle d fest. Dies ist äquivalent zur Festlegung des Signifikanzniveaus α, d.h. dem Anteil der falsch Positiven unter den Negativen.

-10 -5 0 5 10 15

Blutdrucksenkung [mmHg]

α

d

Statistisches Testen von Hypothesen

Page 15: Achim Tresch Computational Biology

-10 -5 0 5 10 15

Blutdrucksenkung [mmHg]

α

d

Bestimme den Wert der Teststatistik (z.B. mittels einer Studie), und fälle durch Vergleich von Teststatistik und Entscheidungschwelle eine Entscheidung.

Behalte H0 bei (lehne jedoch die Alternativ-hypothese nicht ab).

Lehne die Nullhypo-these ab, nimm die Alternativhypothese an.

Statistisches Testen von Hypothesen

Page 16: Achim Tresch Computational Biology

0

d Gute Statistik

Nullhypothese akzeptiert

Nullhypothese abgelehnt

Nullhypothese wahr

Richtige Entsch.Typ I Fehler

(Falsch Positive)

Alternativhypo- these wahr

Typ II Fehler(Falsch

Negative)Richtige Entsch.

Verteilung der Teststatistik bei Gültigkeit der Nullhypothese

Verteilung der Teststatistik bei Gültigkeit der Alternativhypo-these

Kriterien für die Güte einer Teststatistik

Page 17: Achim Tresch Computational Biology

0

d Schlechte Statistik

Nullhypothese akzeptiert

Nullhypothese abgelehnt

Nullhypothese wahr

Richtige Entsch.Typ I Fehler

(Falsch Positive)

Alternativhypo- these wahr

Typ II Fehler(Falsch

Negative)Richtige Entsch.

Verteilung der Teststatistik bei Gültigkeit der Nullhypothese

Verteilung der Teststatistik bei Gültigkeit der Alternativhypo-these

Kriterien für die Güte einer Teststatistik

Page 18: Achim Tresch Computational Biology

Würfele mit dem 20-seitigen Würfel.

Augenzahl = 20: lehne die Nullhypothese abAugenzahl ≠ 20: lehne die Nullhypothese nicht abDies (unabhängig von der Nullhypothese)ein valider Test auf 5%-Signifikanzniveau!

Bsp: Das Offenbacher Orakel

Page 19: Achim Tresch Computational Biology

Aber:

5 10 15 20

0.0

00

.05

0.1

00

.15

0.2

00

.25

0.3

0

Index

c(0

, 0)

5 10 15 20

0.0

00

.05

0.1

00

.15

0.2

00

.25

0.3

0

Index

c(0

, 0)

Die Verteilung der Teststatistik unter der Null- und der Alternativhypothese ist gleich! Dieser Test kann nicht zwischen den Gruppen diskriminieren!

Verteilung unter

H0

Verteilung unter

H1

95% der Positiven werden nicht erkannt

Bsp: Das Offenbacher Orakel

Page 20: Achim Tresch Computational Biology

-10 -5 0 5 10 15

Blutdrucksenkung [mmHg]

p = 0.08

Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden:

Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert

Der p-Wert

Page 21: Achim Tresch Computational Biology

Der einem Wert t der Teststatistik zugeordnete p-Wert ist die Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert t.

-10 -5 0 5 10 15

Blutdrucksenkung [mmHg]

p = 0.42

Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden:

t

Der p-Wert

Page 22: Achim Tresch Computational Biology

Entscheidungsschwelle d Signifikanzniveau α Beobachtete Teststatistik t p-Wert

-10 -5 0 5 10 15

Blutdrucksenkung [mmHg]

α = 0.05

p ≥ α

Behalte H0 bei (lehne jedoch die Alternativ-hypothese nicht ab).

p < α

Lehne die Nullhypo-these ab, nimm die Alternativhypothese an.

t

p = 0.02

dt

p = 0.83

t ist extremer als d p ist kleiner als α

Der p-Wert

Page 23: Achim Tresch Computational Biology

23

-10 -5 0 5 10 15

Blutdrucksenkung [mmHg]

][

Annahmebereich

Ablehungsbereich

Einseitige Fragestellung

H0: Der Wert der Prüfgröße ist in Gruppe I nicht höher als in Gruppe II

H1: Der Wert der Prüfgröße ist in Gruppe I höher als in Gruppe II

Ein- und zweiseitige Fragestellungen

Page 24: Achim Tresch Computational Biology

24

-10 -5 0 5 10 15

Blutdrucksenkung [mmHg]

][

Annahmebereich

Ablehungsbereich

Zweiseitige Fragestellung

H0: Die Prüfgröße ist in Gruppe I und Gruppe II gleichH1: Die Prüfgröße ist in Gruppe I und in Gruppe II

verschieden

][

Ablehungsbereich

Zweiseitige Fragestellung im Allgemeinen angemessen:Effekte in beide Richtungen werden detektiert.Bei Zulassungsstudien wird zweiseitige Auswertung gefordert!

Ein- und zweiseitige Fragestellungen

Page 25: Achim Tresch Computational Biology

Was muss bei einer Sachaussage im Anschluss an einen statistischen Test beachtet werden?1. Testentscheidung: „signifikant“ bzw. „nicht

signifikant“ mit Signifikanzniveau

2. Was wird verglichen? (Gruppeneinteilung)

3. Was ist die Grundgesamtheit?

4. Was ist die Zielgröße?(ggf. genauere Information, z.B. Zeitangabe)

5. Falls ein signifikanter Unterschied besteht:Interpretation! (Welche Richtung?)

Interpretation eines Testergebnisses

Page 26: Achim Tresch Computational Biology

26

…Gen A

Gen B

Genexpressions-messungen

Welches Gen ist „weniger stark“

exprimiert?

Gruppe 1Gruppe 2

Vergleich der Mittelwerte zweier Gruppen

Spezielle statistische Tests

Page 27: Achim Tresch Computational Biology

27

Gruppe 1Gruppe 2

Punkte) (mean

Fragestellung / Hypothese

Ist die Expression von Gen g in Gruppe 1 niedriger als

die in Gruppe 2?

Daten: Expression von Gen g in verschiedenen Proben (Absolutskala)

Punkte) ( mean

2

1Entscheidung

für “niedriger exprimiert“ wenn

0dd

d

Teststatistik, z.B.Differenz der Gruppenmittel

21 d

Zwei-Gruppen Lagevergleich

Page 28: Achim Tresch Computational Biology

28

Schlechte Idee: Subtrahiere die Gruppenmittelwerte 21 d

2

1

d

2

d

Problem: d ist nicht skaleninvariant

1

)( ds

dt

Lösung:Teile d durch seine

Standardabw.

Daraus entsteht die t-Statistik bzw. der t-Test (für unverbundene Stichproben)

Gruppe 1Gruppe 2

Zwei-Gruppen Lagevergleich

Page 29: Achim Tresch Computational Biology

3823N =

Mütter mit DiabetesGesunde Mütter

Pla

cent

agew

icht

[g]

1400

1200

1000

800

600

400

200

Gruppe 1: n = 23 gesundeMütter

Gruppe 2: n= 38 Mütter mit manifestem Diabetes

Beispiel: t-Test für den Vergleich der Plazentagewichte bei gesunden und diabetischen Müttern

Zielgröße: Plazentagewicht [g]

Zwei-Gruppen Lagevergleich

Page 30: Achim Tresch Computational Biology

Maßzahlen zum Vergleich der beiden Gruppen (Messwerte in Gramm)

Gruppe 1 Gruppe 2

Minimum 375 425

1. Quartil 500 600

Median 600 710

3. Quartil 650 825

Maximum 825 1290

Arithm. Mittelwert 601.7 728.5

Standardabweichung

125.4 183.1

Schiefe g 0.25 0.85

Für beide Gruppen: - 1 < g < +1, also Mittelwerte (noch) sinnvoll

Zwei-Gruppen t-Test

Page 31: Achim Tresch Computational Biology

Hypothesen:

H0: Es gibt keinen (Mittelwerts-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern

H1: Es gibt einen (MW-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern

Gewähltes Signifikanzniveau: α = 5%

Zweiseitiger Test

Zwei-Gruppen t-Test

Page 32: Achim Tresch Computational Biology

32

Voraussetzung: Gaußverteilung in beiden Gruppen

Zeile „Varianzen gleich“: Auch noch gleiche Varianzen (bzw. Standardabweichungen) in beiden Gruppen nötig.Zeile „Varianzen ungleich“ bedeutet nur: Gleiche Varianzen sind nicht erforderlich.Pragmatisch: Immer 2. Zeile verwenden! p = 0.002

Zwei-Gruppen t-Test

Page 33: Achim Tresch Computational Biology

Ergebnis: Mittelwertsdifferenz = (–) 126.7p-Wert = 0.002p = 0.002 = 0.2% < 5% = 0.05 = α

Also signifikanter Unterschied zum Niveau 5%!

Sachaussage: Zum Signifikanzniveau α = 5% besteht ein signifikanter Mittelwerts-Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern. Konkret haben diabetische Mütter höhere Plazentagewichte.Interpretation des p-Werts: Falls zwischen den (mittleren) Plazentagewichten zwischen gesunden und diabetischen Müttern kein Unterschied besteht (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Mittelwertsunterschied von mindestens 126.7 g zu beobachten, unter den gegebenen Umständen 0.2%.

Zwei-Gruppen t-Test

Page 34: Achim Tresch Computational Biology

Untersuche für unverbundene Stichproben: Sind die Werte in Gruppe 1 kleiner als in Gruppe 2 ?

Messgröße

Gruppe 1 18 3 6 9 5

Gruppe 2 15 10 8 7 12

1 2 3 4 5 6 7 8 9 10

3 5 6 7 8 9 10 12 15 18 Originalskal

aRangskala

Rangsumme Gruppe 1: 1+2+3+6+10 = 22

Rangsumme Gruppe 2:4+5+7+8+9 = 33

Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)

Page 35: Achim Tresch Computational Biology

Wähle die Rangsumme von Gruppe 1 als Teststatistik

Rangsummenverteilung für Gruppe 1,

|Gruppe 1| = 5, |Gruppe 2| = 5

Der zur Rangsumme gehörige p-Wert kann per Computer für kleine Gruppenzahlen exakt oder für große Gruppenzahlen näherungsweise berechnet werden:

22

P(W≤22, falls die Gruppen- zugehörigkeiten zufällig sind)

Wilcoxon W

15 20 25 30 35 40= 0.15

Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)

Page 36: Achim Tresch Computational Biology

Beispiel Plazentagewichte

•Der Wilcoxon Test kann einseitig oder zweiseitig durchgeführt werden

•Für größere Fallzahlen (N>20) wird eine Näherung berechnet

Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)

Page 37: Achim Tresch Computational Biology

37

Sind die Daten normalverteilt?

Verbundene Stichproben?

Verbundene Stichproben?

t-Test für verbundene Stichproben

ja nein

t-Test für unverb. Stichproben

Wilcoxon Vorzeichen-test

Wilcoxon Rangsummen-test

ja janein

nein

Zu klärende Frage: Existiert ein Lageunterschied der Merkmalsausprägungen zwischen Gruppe 1 und Gruppe 2?

Testübersicht: Gruppenvergleich eines stetigen Merkmals

Page 38: Achim Tresch Computational Biology

Wahl der Teststatistik: „Exakter Fisher-Test“

Sir Ronald Aylmer Fisher, 1890-1962 Theoretischer Biologe,

Evolutionstheoretiker und Statistiker

Vergleich zweier binärer Merkmale

Page 39: Achim Tresch Computational Biology

Wirkung

WirktWirkt nicht

Medika- menten-

gabe

Verum 65 7

Placebo 44 13

Der exakte Fisher Test soll die Frage beantworten:

Gibt es Unterschiede in der Verteilung █ und █ ?

Unverbundene Stichproben: Exakter Fisher Test

Bsp.: Wirksamkeitsstudie mit unverbundenen Stichproben (jeder Probend erhält nur einen Präparat)

Vergleich zweier binärer Merkmale

Page 40: Achim Tresch Computational Biology

Kopf Zahl

Faire Münze 54 46

Gebogene Münze 82 18

Odds (= Chance): Häufigkeitsverhältnis in einer Gruppe,

Quote einer fairen Wette

Odds (faire Münze) = 54 : 46 = 1.17

Odds (gebogene M.) = 82 : 18 = 4.56

Odds Ratio (Chancenverhältnis)26.0

4.56

1.17

18 / 82

46 / 54 OR

Odds und Odds Ratio

Page 41: Achim Tresch Computational Biology

Bsp: Dickdarmkarzinom

Page 42: Achim Tresch Computational Biology

Interessierende Fragen:

Hat die Impfung einen Einfluss auf das Überleben?

Ist der Einfluss „signifikant“?

4-Jahres-Überleben

Ja Nein

Impfung

Ja (n=32) 30 (94%) 2 (6%)

Nein (n=30) 23 (77%) 7 (23%)

Bsp: Dickdarmkarzinom

Page 43: Achim Tresch Computational Biology

Grundgesamtheit: Alle jetzigen und künftigen Patienten mit Dickdarm-Ca und Metastasen.

Nullhypothese H0: Die Impfung hat keinerlei Effekt auf den Zustand der Patienten. Die Überlebensraten bei der Grundgesamtheit sind mit und ohne Impfung gleich.

Gegenhypothese (Alternativhypothese) H1: Die Überlebensraten bei der Grundgesamtheit sind mit Impfung und ohne Impfung unterschiedlich. (zweiseitige Fragestellung)

Wähle das Signifikanzniveau α (oft gewählt: α = 1%; 0.1%; 5%; 10%)

Genaue Interpretation des Signifikanzniveaus α :Wenn in Wirklichkeit kein Unterschied besteht (also H0 gilt), erhält man mit Wahrscheinlichkeit α eine Signifikanz (=falsch positive Aussage).

Bsp: Dickdarmkarzinom

Page 44: Achim Tresch Computational Biology

Testergebnis nach Durchführung des exakten Fisher-Tests:

p = 0.0766 7.7%

Hat man α = 5% gewählt, so gilt:

Da p > α, wird die Nullhypothese beibehalten.

Sachaussage: Es besteht zum Niveau α = 5% kein signifikanter Effekt der Impfung auf die Überlebensrate nach 4 Jahren.

Folgerung: Wir sind (noch) nicht (hinreichend) davon überzeugt, dass ein Unterschied in den Überlebensraten besteht!

Bsp: Dickdarmkarzinom

Page 45: Achim Tresch Computational Biology

Interpretation des Ergebnisses(Dickdarmkarzinome mit und ohne Impfung)Überlebensrate nach 4 Jahren mit Impfung: 94% (n = 32)Überlebensrate nach 4 Jahren ohne Impfung: 77% (n = 30)

Beobachteter Unterschied in der 4-Jahres-Überlebensrate: 17%exakter Fisher-Test: p = 0.077Falls die Impfung keinerlei Effekt hat (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Unterschied von mindestens 17% zwischen beiden Gruppen zu erhalten, unter den gegebenen Umständen 7.7%.

Bsp: Dickdarmkarzinom

Page 46: Achim Tresch Computational Biology

H0: Es besteht kein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat keinen Einfluss auf das Auftreten von LGE)

H1: Es besteht ein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat einen Einfluss auf das Auftreten von LGE)

Unverb. Stichproben: Chiquadrat-Test (χ2-Test)

Auftreten von LGE

Ja Nein

Tumor-größe

1 10 8

2 20 23

3 19 10

4 32 18

Vergleich zweier kategorialer Merkmale

Page 47: Achim Tresch Computational Biology

Im gegebenen Beispiel erhält man mit SPSS „p = 0.000“

(also: p < 0.001).

Wurde als Signifikanzniveau α = 5% gewählt, so ergibt sich als

Sachaussage: Bei Patienten mit Magenkarzinomen besteht ein zum 5%-Niveau signifikanter Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: „..... Einfluss der Tumorgröße auf das Auftreten von LGE“). Konkret: je größer der Tumor, desto häufiger treten LGE auf.

Unverb. Stichproben: Chiquadrat-Test (χ2-Test)

Vergleich zweier kategorialer Merkmale

Page 48: Achim Tresch Computational Biology

Voraussetzungen des Chiquadrat-Tests

Gesamt-Fallzahl nicht zu klein (etwa n ≥ 60)

Erwartungswerte (erwartete Häufigkeiten) nicht zu klein (alle ≥ 5)

Beachte: Bei zwei binären Merkmalen verwende eine Vierfeldertafel und den exakten Fisher-Test!

Unverb. Stichproben: Chiquadrat-Test (χ2-Test)

Vergleich zweier kategorialer Merkmale

Page 49: Achim Tresch Computational Biology

49

Sind die Daten binär?

Verbundene Stichproben?

Verbundene Stichproben?

McNemar Test(Messen die

beiden Variablen das

Gleiche?)

ja nein

Exakter Fisher Test

(Besteht eine Abhängigkeit?)

(Bowker Symmetrie-

test)

Chiquadrat (χ2) -Test

ja janein

nein

Zu klärende Frage: Gibt es Unterschiede in den Häufigkeitsverteilungen der verschiedenen Gruppen?

Testübersicht: Vergleich zweier kategorialer Variablen

Page 50: Achim Tresch Computational Biology

50

Merkmal Design Deskription numerisch

Deskription graphisch

Test

stetigunverbunde

nMediane, Quartile

2 Boxplots

Wilcoxon-Rangsumm

en-t-Test*

stetig verbundenMedian,

Quartile der Differenz

Differenzen-Boxplot

Wilcoxon-Vorzeichen-,

t-Test*

binärunverbunde

n

Kreuztabelle,Zeilen%, RR, RD, OR

Balken-diagramm

Exakter Fisher-Test

binär verbunden

Kreuztabelle (“Mc-Nemar-Tafel“)

Balken-diagramm

McNemar-Test

kategorial

unverbunden

Kreuztabelle,Zeilen%

(3D Balken-diagramm)

χ2-Test* Bei Normalverteilung

Übersicht: Deskription und statistische Tests (2 Merkmale)

Page 51: Achim Tresch Computational Biology

Die Angabe eines Testergebnisses ohne eine sinnvolle Deskription ist uninformativ.

Oft: Angabe von Konfidenzbereichen wünschenswert.

Als Testergebnis sollte nicht nur „Zum Niveau α signifikant/nicht signifikant“ angegeben werden, sondern der p-Wert (geeignet gerundet), zumindest wenn er kleiner als (etwa) 0.1 ist.

Niemals „p=0“ oder gar „p<0.000“ als Testergebnis angeben!

Beachte

Page 52: Achim Tresch Computational Biology

52

Sehr viele Fälle: Auch kleine Unterschiede werden signifikant

Wenige Fälle: Ein beobachteter Unterschied kann relevant, aber nicht statistisch signifikant sein.

Statistische Signifikanz ≠ Relevanz

Page 53: Achim Tresch Computational Biology

53

Beispiele:

Untersuchung mehrerer Endpunkte (systolischer, diastolischer Blutdruck, Pulsfrequenz)

Vergleich mehrerer Gruppen (z.B. bei 4 Gruppen: 6 Paarvergleiche)

Bei jedem Test tritt eine falsche Signifikanz (= falsch Positives) mit 5% Wahrscheinlichkeit auf (falls α = 5%)

→ Bei 6 Tests steigt die Wahrscheinlichkeit des Auftretens einer falschen Signifikanz bis zu 30%!

Problematik des Multiples Testens

Page 54: Achim Tresch Computational Biology

Lösungsmöglichkeit: Korrektur nach BonferroniFühre jeden der einzelnen Tests zum Niveau α/m („lokales Signifikanzniveau α/m “) durch (m = Anzahl der Tests)Die Wahrscheinlichkeit eines Auftretens einer falschen Signifikanz bei Durchführung aller m Tests beträgt dann höchstens α („multiples/globales Niveau α“) z. B. m = 6

Gewünschtes multiples Niveau: α = 5%

→ lokales Signifikanzniveau: α/m = 5%/6 = 0.83%

Problematik des Multiples Testens

Page 55: Achim Tresch Computational Biology