Survival analysis (Dag 1) - henrikkallberg.com · Survival analysis (Dag 1) •Mål Kunna grundläggande begrepp och koncept inom överlevnadsanalys - Förstå skillnad mellan händelse

Survival analysis (Dag 1)

• Tid till händelse

• Censurering

• Livslängdstabeller

• Överlevnadsfunktionen

• Kaplan-Meier

• Parametrisk skattning

• Jämföra överlevnadskurvor

Henrik Källberg, 2012

Upplägg Dag 1


• Mål

- Kunna grundläggande begrepp och koncept inom

överlevnadsanalys

- Förstå skillnad mellan händelse och censurering

- Utföra enklare beräkningar

- Förstå vad överlevnadsfunktionen beskriver

- Kunna skatta överlevnadssannolikhet genom parametrisk metod med hjälp av

exponentialfördelningen

- Kunna jämföra olika överlevnadskurvor mha.

Logrank-test

Survivalanalysis (studietyper)

• Kohortstudier

• Randomiserade studier, Kliniska prövningar

Alla individer

Randomisering

Behandling

Placebo

Studietid

Oexponerade

Exponerade

Oexp. fall

Exp. fall

Survival analysis (exempel)

Survival Analysis

Tid (t)

Studie slut Studie start

Tid till händelse (Time to event)

Tid till händelse kan vara tid till sjukdom från

studiestart,

Survival analysis - Censurering

• Censurering innebär att man har ofullständig information om

vad som hänt en individ.

• Censurering är icke informativ om orsaken inte har med

händelsen (sjukdom) som man studerar

• Höger censurering: En individ följs upp över en tid utan att

någon händelse inträffar under uppföljningstiden

• Höger censurering kan bero på:

- Att individen avlider på grund av en annan orsak än den som studeras.

- Studien avslutas innan en händelse uppstår

(tex. Sjukdom). Uppföljningstiden är för kort.

- En individ ”hoppar” av studien innan studien avslutas

(loss to follow up)

Survival analysis - Censurering

• Vänstersidig censurering: Innebär att en händelse inträffat

men man vet inte när. Vänstersidig censurering är ovanligare

och är ofta relaterat till att man har en ställtid där individen

inte vet när händelsen inträffade. Tex.

- Insjuknande innan symptomdebut tex. Cancer, HIV

• Viktigt att tänka på eventuell ställtid i samband med

studiedesignen

Start studie

Uppfölj. tid Sjudomsdebut

Symptom Ställtid

Survival Analysis Uppgift

Time (t)

Study end Study start

Time to event

Vilka individer är censurerade?

Survival analysis (Livslängdstabeller)

Ålder vid start vid

Dekaden

Sannolikhet för död

under dekad

Antal levande vid

dekadens början

0 0.0105 100000

10 0.00660 98950

20 0.01458 98297

30 0.01964 96864

40 0.03791 94962

50 0.08286 ????

60 0.19825 83792

70 0.40089 67180

80 ???? 40248

90 0.95709 10837

100 0.99963 465

110 1.0 1

Survival analysis Day 1

Överlevnadsfunktionen, S(t) : Beskriver sannolikheten att inte drabbas av

en händelse före en given tidpunkt (t).

0.5

0.2

0.1

S(t)

Survival analysis

• Utfallsvariabeln är tid till händelse (time to event)

• Denna utfallsvariabel är

oftast inte normalfördelad

• Fördelningsfunktionen för

tid till händelse (time to event)

betecknas f(t)

Survival analysis Day 1

Överlevnadsfunktionen, S(t) : Beskriver sannolikheten att inte drabbas av

en händelse före en given tidpunkt (t).

Fråga:

Vad är

sannolikheten

att inte drabbas

av en händelse

före tidpunkt =

80?

Survival analysis (Överkurs)

• Sambandet mellan fördelningsfunktionen för tiden f(t) och

överlevnadsfunktionen är ser ut på följande sätt:

)(')(eller )(1)()( tStftFdttftSt

Survival analysis (Kaplan Meier)

• Hur beräknar man sannolikheten för överlevnad med hjälp av

överlevnadsfunktionen S(t)?

• Kaplan-Meier

- För att överleva t antal tidpunkter måste man överleva

t-1 tidpunkter och den sista tidpunkten i intervallet.

- Betecknas: S(t)=S(t-1)*P(överleva tidpunkten t)

STATA: Definiera variabler: stset survt, failure(event==1),

sts list (för skattningar), sts graph (för plot av kurva)

sts grap,by(group) (plot uppdelat på grupper)


• Kaplan Meier

- Icke parametrisk metod (vi antar inte att

överlevnadsfunktionen har en speciell form)

• Antaganden:

- Observationerna är oberoende av varandra

- Censureringen är oberoende av händelserna vi studerar t.ex. att sjukdomen som vi studerar inte är

kopplad till att censurering uppkommer

- Att vi vet den ”exakta” tiden till en händelse


Tidpunkt

(t) minuter

Antal

friska vid

t. at

Sjuka

under

interv.

dt

Antal

förlorade

individer

ct

Antal

indiv.

under

risk

nt=at-ct

Risk sjuk

vid t

rt=dt/nt

Frisk vid t

st=1-rt

Kumulat.

Överlev. I

s(t)=s(t-1)

×s(t)

1 21 0 0 0 0/21 21/21 1*21/21

29 21 1 0 21 1/21 1-1/21=

0.95

1*0.95=

0.95

30 20 0 0 20 0/20 1-0/20 =

1

1*0.95

31 20 2 0 20 2/20 =

0.10

1-0.10 =

0.9

0.9*0.95

= 0.857

…

49 18 1 1 18-1 = 17 1/17 =

0.059

1-0.059 =

0.941

0.941*0.8

57 = 0.806

52 17 2 1 16 2/16 =

0.125

1-0.125 =

0.875

0.806*0.8

75 = 0.705


0

0,2

0,4

0,6

0,8

1

1 11 21 31 41 51

s(t)

t


Konfidensintervall för överlevnadsfunktionen

S(t) Standard Error (SE) skattas

med hjälp av följande

formel:

𝑆𝐸 𝑆 𝑡 = 𝑆(𝑡) 𝑑𝑡

𝑎𝑡(𝑎𝑡−𝑑𝑡)

95%

Konfidensintervall

vid tidpunkten

Där dt är antal event

vid tidpunkt t och at är

antalet friska individer

vid t

Denna formel kallas

Greenwoods formel


Uppgift!

• Beräkna 95 procentigt Konfidensintervall

Tidpunkt

(t) minuter

Antal

friska vid

t. at

Sjuka

under

interv.

dt

Antal

förlorade

individer

ct

Antal

indiv.

under

risk

nt=at-ct

Risk sjuk

vid t

rt=dt/nt

Frisk vid t

st=1-rt

Kumulat.

Överlev. I

s(t)=s(t-1)

×st

31 20 2 0 20 2/20 =

0.10

1-0.10 =

0.9

0.9*0.95

= 0.857

𝑆𝐸 𝑆 𝑡 = 𝑆(𝑡) 𝑑𝑡

𝑎𝑡(𝑎𝑡 − 𝑑𝑡)

Survival analysis

• Ibland har man inte

exakta tidpunkter

• Vi har bara

information för

vissa tidsintervall

• Data är grupperat

! !

Tidsintervall

Survival analysis (”life table”)

• Det är ingen större skillnad mellan beräkningarna för

överlevnadsfunktionen för en ”Life-table” jämfört med Kaplan Meier

• Skillnaden består i huvudsak av att man antar att de

censurerade personerna bidrar med information under halva

tidsperioden där de försvinner.

• Antalet individer under risk för en särskild period är antalet

individer i början av perioden minus halva antalet individer

som faller bort (loss to follow up)

• Låt oss titta på exempel

Survival analysis (”life table” uppgift!!)

Intervall

(månader

sedan

start) i

Antal

levande i

början av

i. ai

Döda

under

interv.

di

Antal

förlorade

individer

ci

Antal

indiv.

under

risk

ni=ai-ci/2

Risk att

dö under

i

ri=di/ni

P

överleva

i

si=1-ri

Kumulat.

Överlev. I

s(i)=s(i-1)

×si

0 100 0 0 100 0 1 1

2 100 10 0 100 10/100 =

0.10

1-0.10 =

0.90

0.90

4 90 4 4 90 – 4/2 =

88

4/88 =

0.045

1-0.045 =

0.955

0.90×0.95

5 = 0.8595

6 88 8 0 88 0.0909 0.909 0.7814

8 80 0 10 75 0 1 0.7814

10 75 7 10 ??? ?? ??? ???

12 58 20 0 58 20/58 =

0.345

1-0.345 =

0.655

0.703 ×

0.655 =

0.46

14 38 0 0 38 0 1 0.46

Survival analysis (”life table”)

Intervall

(månader

sedan

start) i

Antal

levande i

början av

i. ai

Döda

under

interv.

di

Antal

förlorade

individer

ci

Antal

indiv.

under

risk

ni=ai-ci/2

Risk att

dö under

i

ri=di/ni

P

överleva

i

si=1-ri

Kumulat.

Överlev. I

s(i)=s(i-1)

×si

0 100 0 0 100 0 1 1

2 100 10 0 100 10/100 =

0.10

1-0.10 =

0.90

0.90

4 90 4 4 90 – 4/2 =

88

4/88 =

0.045

1-0.045 =

0.955

0.90×0.95

5 = 0.8595

6 88 8 0 88 0.0909 0.909 0.7814

8 80 0 10 75 0 1 0.7814

10 75 7 10 75-10/2 =

70

7/70=

0.10

1-0.10 =

0.90

0.90×0.78

14 = 0.703

12 58 20 0 58 20/58 =

0.345

1-0.345 =

0.655

0.703 ×

0.655 =

0.46

14 38 0 0 38 0 1 0.46

Survival analysis (Parametrisk Skattning)

Parametrisk skattning av S(t) • Om vi kan anta en fördelning för tiden

• 𝑻~𝑬𝒙𝒑𝒐𝒏𝒆𝒏𝒕𝒊𝒂𝒍: 𝑺 𝒕 = 𝒆𝒙𝒑 −𝝀𝒕

• Man måste skatta 𝝀 för att kunna skatta S(t)

• Hastigheten 𝝀 skattas med 𝝀 = 𝒅

𝒕

• Vi antar att 𝝀 är konstant över tid.

Survival analysis (Parametrisk Skattning Uppgift)

Antal individer

(a)

Tid (t) Tid*a Antal Händelser

1 29 29 1

2 31 62 2

2 49 98 1

17 52 884 2

Summa …… 1073 6

𝝀 = 𝒅

𝒕= 6

1073≈ 0.0056 → 𝑆 𝑡 = 𝑒−0.0056∗𝑡

𝑆 𝑡 = 52 =?

Uppgift!

Survival analysis (Jämföra kurvor)

• Olika grupper t.ex.

- Behandlade och obehandlade,

- Exponerade och oexponerade

• Logrank test

- Chi-Två

- Wilcoxon-Gehan

Survival analysis (Jämföra kurvor) ex.


Två olika

Kurvor, olika

behandlingar

Logrank Test

• Icke Parametriskt test

• H0: SA(t) = SB(t)

(Överlevnadsfunktionen är

likadan i båda grupperna)

• H1: SA(t) ≠ SB(t)

(Överlevnadsfunktionerna är

olika)

Bakomliggande ide: Beräkna förväntat antal händelser och

jämföra med observerat antal händelser.


• Konstruera följande tabell för alla!!! tidpunkter där händelse(r)

inträffar:

Grupp Antal friska vid t. at Antal händelser

dt Förväntat antal

händelser

(A) At,A dt,A

Et,A=dt*(At,A/At)

(B) At,B dt,B

Et,B=dt*(At,B/At)

Totalt At dt Et= dt

𝑉𝑎𝑟𝑖𝑎𝑛𝑠𝑒𝑛 𝑓ö𝑟 𝑑𝑡,𝐴 = 𝑑𝑡,𝐵 , 𝑉𝑡,𝑘=𝑑𝑡∗𝐴𝑡,𝐴∗𝐴𝑡,𝐵(𝐴𝑡−𝑑𝑡)

𝐴2(𝐴𝑡−1)


Tid Antal

friska vid t. at

Antal

händelser dt

Förväntat antal

händelser

Antal friska

vid t. at

Antal

händelser dt

Förväntat antal

händelser

1 A1,A d1A

E1A=dt*(A1A/At)

A1,B d1B E1B=dt*(A1B/At)

2 A2,A d2,A

E2,A=dt*(A2A/At)

A2,B d2,B E2,B=dt*(A2B/At)

3 A3,A d3,A

E3,A=dt*(A3A/At)

A3,B d3,B E3,B=dt*(A3B/At)

k Ak,A Dk,A EK,A=dt*(AKA/At)

Ak,B Dk,B EK,B=dt*(AKB/At)

Totalt D+,A E+,A D+,B E+,B

Grupp A Behandling Grupp B Obehandlade

Ideen bakom är att jämföra observerat antal händelser

mot förväntat antal om det inte var någon skillnad

dt=dtA+dtB och At =AtA + AtB


• Teststatistika är 𝜒2 –fördelad och beräknas genom:

𝑼𝑳 = (𝒅𝒕,𝑲 − 𝑬𝒕,𝑲𝒌 ), 𝑽𝑳= 𝑽𝒕,𝑲, 𝜒2

𝒌 =𝑼𝟐

𝑽𝑳

• med 1 frihetsgrad (antal grupper-1), vilket innebär att P(𝜒2≥3.84)=0.05 (signifikansnivån)

• Det finns en snabbversion som utgår från:

𝜒2 ≈(𝑫+𝑨−𝑬+𝑨)

𝟐

𝑬+𝑨+(𝑫+𝑩−𝑬+𝑩)

𝟐

𝑬+𝑩

STATA: sts test group, sts test group,wilcoxon

Survival analysis (Jämföra kurvor) Ex.

Här är data från en fiktiv

studie som jämför två

olika behandlingar


Exempel beräkning förväntat antal döda i behandlingsgrupp 2


• I föregående ”slide” visades hur man beräknar förväntat

antal döda för behandling 2.

• Nästa steg är att göra samma sak för behandling 1.

• Beräkna Chi-två värde:

𝜒2 ≈(𝑫+𝟏−𝑬+𝟏)

𝟐

𝑬+𝟏+(𝑫+𝟐−𝑬+𝟐)

𝟐

𝑬+𝟐= (𝟒−𝟕.𝟎𝟖)𝟐

𝟕.𝟎𝟖+(𝟔−𝟐.𝟗𝟐)𝟐

𝟐.𝟗𝟐=4.59 (1 fg)


• Logrank testet är känsligt för ”sena” skillnader mellan

överlevnadskurvorna.

• Om man vet att tidiga skillnader är av särskilt intresse så kan

man med hjälp av Wilcoxon-Gehan test vikta för tidiga

skillnader med hjälp av antal personer under risk vid t.

𝑼𝑳 = 𝑨𝒕,𝒌(𝒅𝒕,𝑲 − 𝑬𝒕,𝑲𝒌 ), 𝑽𝑳= 𝑨𝟐𝒕,𝒌𝑽𝒕,𝑲𝒌

• Val av test bör göras innan man ser data (annars väljer man

det som passar data bäst inte apriori teori)


• Fler grupper!

• Logrank-testet går att generalisera till fler än två grupper.

• Viktigt att tänka på antal frihetsgrader (antal grupper-1).

Survival analysis (Jämföra kurvor) Uppgift

Grupp Obs. Antal

händelser (D)

Förväntade antal

händelser (E)

1 5 13.25

2 7 15.82

3 37 19.93

Totalt 49 49

Ledtråd: 𝜒2 ≈(𝑫+𝑨−𝑬+𝑨)

𝟐

𝑬+𝑨+(𝑫+𝑩−𝑬+𝑩)

𝟐

𝑬+𝑩+????

𝜒2-tabell:

Survival Analysis (Logrank test)

Styrkor

• Inga modellantaganden =>

kan användas på de flesta

data

• Kan användas på

kategoridata.

• Konfidensintervall är

modelloberoende.

Svagheter

• Kan inte användas för att

modellera tiden.

• Ingen möjlighet att testa hur

variabler påverkar

modellen

• Variablers effekt kan bara

undersökas genom att stratifiera (dela upp data)

• Omöjligt att använda

kontinuerliga variabler

Upplägg Dag 2

• Hazard-funktionen

• Proportional Hazard

model (Cox-model)

• Olika variabler

• Statistiska test



• Mål

- Veta hur Hazardfunktionen är relaterad till

överlevnadsfunktionen (S(t))

- Veta hur Cox-regressionsmodellen ser ut

- Förstå ”Proportional Hazard assumption”

- Beräkna Hazard Ratio för olika variabler

- Avgöra om en variabel är ”signifikant” i en Cox- modell

Survival analysis (Hazardfunktionen)

Fördelning tid till händelse, f(t):

t

tFdttftS )(1)()(

Överlevnadsfunktionen S(t):

))(log()(

)()( tS

dt

d

tS

tfth

Hazardfunktionen h(t):


• Hazardfunktionen h(t) beskriver antal händelser per

tidsenhet (“hastighet” för att händelse(r) inträffar)

• Den kumulativa Hazardfunktionen (lättare att plotta

eftersom Hazardfunktionen återger den momentana risken.

ges av: -log(S(t))=H0(T)

• Hazardfunktionen beskriver sannolikhet att sjukdom

(händelse) inträffar strax efter tiden t givet att sjukdom inte

inträffat före t.

• Vi håller oss till det enkla exemplet med att Hazardfunktionen är konstant (exponentiell fördelning). Det

finns dock andra fördelningar där hazardfunktionen ökar

eller minskar över tid (t.ex. Weibullfördelningen)


h(t)=

S(t)=e-t

f(t)=e-t =S’(t) Kom ihåg:

Och:

Kvoten blir då:

)(')( tStf

))(log()(

)()( tS

dt

d

tS

tfth

t

t

e

e

tS

tfth

)(

)()(


• Föregående exempel utgår från att tiden till händelse är

exponentialfördelad (Dag1)

• Låt oss anta att alla individer har konstant ”risk” för att

drabbas av sjukdom och att det som skiljer är en specifik

variabel (t.ex. rökning, kön, ålder)

T ~ exp (λ)

P(T=t) = λe-λt

där λ är en konstant hastighet.

Survival analysis (Cox regression)

• Man behöver inte välja en speciell sannolikhetsfördelning för överlevnadstiden och är därför säker.

• Semi-parametrisk

(Kaplan-Meier är icke-parametrisk; exponential och Weibull är parametriska)

• Man kan använda diskreta och kontinuerliga variabler.

• Lätt att använda tidsberoende variabler (variabler som ändras över tid)


• Vi utvecklar Hazardfunktionen så att den ser ut på följande

sätt:

• Nu består vår Hazardfunktion (h(t,x)) av två delar:

ℎ0 𝑡 och exp 𝛽 ∗ 𝑥 där ℎ0 𝑡 är ”baseline Hazard” och

exp 𝛽 ∗ 𝑥 är en ”konstant” som påverkar

Hazardfunktionen (kan bero på en variabel) jmf. Med

• Överlevnadsfunktionen ser ut på följande sätt:

𝑆 𝑡, 𝑥 = 𝑒−(𝐻0 𝑡 exp 𝛽∗𝑥 ) = [𝑆0(𝑡)]exp(𝛽∗𝑥)

ℎ 𝑡, 𝑥 = ℎ0 𝑡 exp(𝛽 ∗ 𝑥) Obs! (exp(𝛽 ∗ 𝑥) = eβ*x) e = talet 2.72

t

t

e

e

tS

tfth

)(

)()(


• Nu kan vi beräkna Hazard Ratio (HR)

• HR tolkas ofta som en relativ risk (RR) trots att vi inte vet

absolut risk. HR skattar i detta fall en incidens kvot

)(...)(

...

0

...0

,1111

11

11

)(

)(

)(

)(jkikji

jkkj

ikkixxxx

xx

xx

j

iji e

et

et

th

thHR

Hazard för person j (eg en icke rökare)

Hazard för person i (eg en rökare)

Hazard ratio

Obs!! )()( 00 tht


Antaganden

• Proportional Hazard Assumption

- Hazardfunktionerna för respektive grupp är proportionella

gentemot varandra. Det som skiljer dom åt är exp(β*x).

Detta innebär att HR (”RR”) inte beror av tiden

- Risken är multiplikativ

ℎ 𝑡, 𝑥 = ℎ0 𝑡 ∗ exp(𝛽 ∗ 𝑥)


Individ Rökare (1=ja,0=nej) Tid till event Event (1=ja, 0=nej)

1 0 10 0

2 0 10 0

3 1 2 1

4 1 1 1

5 1 4 1

6 0 8 1

7 1 10 0

8 1 6 1

9 0 6 1

Data-exmpel (Dikotom variabel)


smoking

smoking

smoking

smoking

eHR

eet

et

th

thHR

smokingcancerlung

j

ismokingcancerlung

/

)01(

)0(

0

)1(

0/

)(

)(

)(

)(

Detta är Hazard ratio för rökning, lägg märke till att rökning

är i detta fall oberoende av tid.

Kategorisk variabel (Dikotom)

Survival analysis (Cox regression) ex.


Individ Ålder Ålder1

(≥30 år,<40)

Ålder2

(≥ 40 år, <50)

Ålder3

(≥50 år)

Tid till event

1 20 0 0 0 10

2 30 1 0 0 10

3 42 0 1 0 2

4 40 0 1 0 1

5 63 0 0 1 4

6 30 1 0 0 8

7 55 0 0 1 10

8 25 0 0 0 6

9 70 0 0 1 6

Data-exempel (Flera grupper, tex. Ålderskategorier, storlek), Ordinaldata


)1(2

0ålder vs.ålder2/

)1(

)0()0()0(1

0

)0()1()0(1

0

0ålder vs.ålder2 gori,Ålderskate/ 2

32

32

)(

)(

)(

)(

ålder

cancerlung

Ålder

Ålder

j

i

cancerlung

eHR

eet

et

th

thHR ålder

ÅlderÅlder

ÅlderÅlder

Detta är Hazard ratio för ålder 2 (30-40 år) jmf med <30 år

Flera grupper, Ordinal data

STATA: stcox group alder

stcox group alder, nohr (Om du vill ha beta-koefficienter och ej HR)

Survival analysis (Cox regression) Uppgift

• I en studie beträffande risk för lungcancer och rökning

erhölls följande resultat

β = 1.6, SE(β)=0.5

• Skatta den relativa risken och ett 95%-igt konfidensintervall

för att drabbas av lungcancer om man röker

Svar: RR=HR=e1.6*1(rökare=1) = 4.95,

Undre gräns 95%-igt RR= e1.6-1.96*0.5=1.85

Övre gräns 95%-igt RR=e1.6+1.96*0.5=13.2

Kategorisk variabel (Dikotom)


Individ Ålder Tid till event

1 20 10

2 30 10

3 42 2

4 40 1

5 63 4

6 30 8

7 55 10

8 25 6

9 70 6

Kontinuerlig variabel (tex. Ålder, Koncentration av

ämne, temperatur)


)10(

agein increase 10/

)6070(

)60(

0

)70(

0agein increase 10/

)(

)(

)(

)(

age

age

age

age

eHR

eet

et

th

thHR

yearscancerlung

j

iyearscancerlung

Detta är Hazard ratio för tio år åldersökning

Kontinuerlig Variabel


• I en studie beträffande ålder och risk för lungcancer

erhölls följande resultat

β = 0.05, SE(β)=0.05

• Skatta den relativa risken och ett 95%-igt

konfidensintervall för att drabbas av lungcancer från 55

års ålder till 60 års ålder

Svar: RR=HR=e0.05*(60-55) = 1.28

Undre gräns 95%-igt RR= e0.05*(60-55)-1.96*5*0.05 =0.77

Övre gräns 95%-igt RR= e0.05*(60-55)-1.96*5*0.05 = 2.10

Kontinuerlig Variabel


I denna artikel om Cadmium och risk för CVD så har man

kategoriserat en kontinuerlig variabel


• För att avgöra om en variabel (tex. Rökning, Asbest eller

behandling) medför en signifikant ökad eller minskad RR (eg.

Hazard ratio (HR)) så måste den testas.

• En vanlig metod för att testa signifikans kallas Wald test

• Andra vanliga test är Likelihood ratio och Score test


• Walds test ges av följande formel:

• Där är en regressionskoefficient från Cox-modellen

ℎ 𝑡, 𝑥 = ℎ0 𝑡 ∗ exp(𝜷 ∗ 𝑥)

• Och SE(β) är ”standard error” för β

• Z är det standardiserade normalvärdet från

normalfördelningen (Använd normalfördelningstabell)

)ˆ( SE

0ˆ

Z


• Walds test testar om är skiljt från 0. (om är 0 så innebär

det att exp(β=0) är 1 vilket ger en HR (RR) som är 1 (mao. Det

är ingen ökad eller minskad risk för sjukdom för den

variabeln)

H0: β = 0

H1: β ≠ 0


• Beräkna z-värde med hjälp av Walds test med hjälp av

följande uppgifter (Regressionskoefficient för rökning från

lungcancer):

β = 1.6, SE(β)=0.5

Signifikansnivå=0.05 → z(gräns)=1.96

• Avgör om koefficienten är skild från 0.


Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

1.9 0.9713

0.975

3.0

3.1

3.2 0.99931

Exempel Normalfördelningstabell

observera att endast några

sannolikheter ges i tabellen

I detta fall blir z=1.6/0.5 = 3.2 vilket ger ett p-

värde på 1-0.99931 = 0.00069

Slutsats: denna koefficient är mycket

signifikant, det finns en association mellan

rökning och risk för lungcancer


• Utför Walds test för den kontinuerliga variabeln ålder i tidigare

exempel

β = 0.05, SE(β)=0.05

Signifikansnivå=0.05 → z(gräns)=1.96

Avgör om koefficienten är skild från 0. Hur förhåller sig

Walds test till HR och dess 95%-iga konfidensintervall?


Beräkna Z-värde med

hjälp av Walds test för

behandling och ålder.

Tolka resultat.

Upplägg Dag 3

• Fortsättning Cox-modellen

• Flera variabler

• Confounding

• Interaktion

• Test av proportional Hazard

assumption

• ”Ytterliggare modeller”



• Mål

- Veta hur man infogar fler variabler i en cox modell

- Förstå hur man kontrollerar för Confounding

- Interaktion mellan variabler

- Undersöka, testa proportional hazard assumption

- Veta om att det finns ytterligare modeller

Survival analysis (Kort repetition)

• Hazardfunktionen

• ℎ 𝑡, 𝑥 = ℎ0 𝑡 exp(𝛽 ∗ 𝑥) Obs! (exp(𝛽 ∗ 𝑥) = eβ*x) e = talet 2.72

* ℎ0 𝑡 är ”baseline Hazard” och exp 𝛽 ∗ 𝑥 är en ”konstant” som

påverkar Hazardfunktionen (kan bero på en variabel)


)(...)(

...

0

...

0,

1111

11

11

)(

)(

)(

)(jkikji

jkkj

ikkixxxx

xx

xx

j

iji e

et

et

th

thHR

Hazard för person j (eg en icke rökare)

Hazard för person i (eg en rökare)

Hazard ratio

Hazard ratio (HR, ”RR”) Obs!! )()( 00 tht


Walds test (för att avgöra om

variabel är signifikant i modell) :

)ˆ( SE

0ˆ

Z

Survival analysis (Flera variabler)

)10(

agein increase 10/

)6070(

)60()0(

0

)70()0(

0agein increase 10/

)(

)(

)(

)(

age

age

agesmoking

agesmoking

eHR

eet

et

th

thHR

yearscancerlung

j

iyearscancerlung

Från Dag 2:

Nu har vi utökat modellen så att både rökning och

ålder finns med.

Survival analysis (Flera variabler,

confounding)

• Confounding är ett stort problem i observationsbaserade

studier (läs ej randomiserade studier)

• Confounding är när ett samband mellan två variabler kan

förklaras av en tredje variabel.

• Kaffe och risk för lungcancer:

Rökning

Kaffe Lungcancer


confounding)

Ej rökning rökning Rökning + Edu.

Etnic. Emfys.

Alc. Phys.


confounding)

ℎ 𝑡, 𝑥 = ℎ0 𝑡 exp(+𝛽𝐴𝑔𝑒_𝑠𝑡𝑢𝑑𝑦 ∗ 𝑥𝐴𝑔𝑒_𝑠𝑡𝑢𝑑𝑦 + 𝛽𝐵𝑀𝐼1 ∗ 𝑥𝐵𝑀𝐼1 + 𝛽𝐵𝑀𝐼1 ∗ 𝑥𝐵𝑀𝐼1 + 𝛽𝐵𝑀𝐼2∗

𝑥𝐵𝑀𝐼2+𝛽𝐵𝑀𝐼4 ∗ 𝑥𝐵𝑀𝐼4+𝛽𝐵𝑀𝐼5 ∗ 𝑥𝐵𝑀𝐼5 + 𝛽𝑆𝑚𝑜𝑘𝑒 ∗ 𝑥𝑠𝑚𝑜𝑘𝑒)

här är ett exempel på en Cox-modellen för HR‡ i

föregående tabell.


confounding) Uppgift!

• Skriv upp en cox-modell som avser att undersöka risk för

CVD om man röker (fyra kategorier av rökningsklassificering:

aldrig (referensgrupp), Låg (L), Mellan (M) och hög (H)).

• Modellen skall justeras för ålder vid inklusion i studien.

• Tänk också på hur variablerna skulle vara kodade.

Survival analysis (interaktion)

• Interaktion

- Interaktion i statistisk mening innebär att effekten av en

variabel beror på en eller flera andra variabler.

- En Cox-modell med interaktionsterm har följande utseende:

𝒉 𝒕, 𝒙 = 𝒉𝟎 𝒕 𝐞𝐱𝒑(𝜷𝑩𝑴𝑰 ∗ 𝒙𝑩𝑴𝑰 + 𝜷𝑺𝒎𝒐𝒌𝒆 ∗ 𝒙𝒔𝒎𝒐𝒌𝒆 + 𝜷𝑺𝒎𝒐𝒌𝒆∗𝑩𝑴𝑰 ∗ 𝒙𝒔𝒎𝒐𝒌𝒆 ∗ 𝒙𝑩𝑴𝑰)

- Interaktion enligt ovan nämns ofta som multiplikativ

- Interaktion kan också vara additativ



• Hur avgör man om det finns interaktionseffekter?

- Walds test för interaktionskoefficienten!

• Additativ interaktion är en annan historia

H0: βSmoke*BMI = 0

H1: βSmoke*BMI ≠ 0

Survival analysis (interaktion) Uppgift

• Avgör om interaktionskoefficienten är signifikant skild från 0

𝜷𝑮𝒆𝒏𝑯𝑳𝑨=1.7, SE=0.2

𝜷𝑺𝒎𝒐𝒌𝒆 = 0.6, SE=0.15

𝜷𝑺𝒎𝒐𝒌𝒆∗𝑮𝒆𝒏𝑯𝑳𝑨=0.8, SE=0.2

• Beräkna HR om man har den genetiska riskfaktorn (GenHLA)

och är rökare.

HR=exp(1.7*1 + 0.6*1+ 0.8*1) = exp(3.1) = 22.2

Survival analysis (proprotional hazard assumption)

• Ett viktigt antagande vi gör när vi använder cox-regression är

att våra oberoende variabler ej varierar med tiden.

• Till exempel: Vi antar att riskökningen om man är rökare är

konstant över tid.

• Om rökning ej skulle vara konstant över tid så skulle det i

extrema fall innebära att rökning är ”farligt” fram till en viss

tidpunkt. Efter denna tidpunkten så är rökning skyddande mot

sjukdom.


• Plotta överlevnadskurvorna för respektive grupp (exponerade,

oexponerade)

• Residualer

- Martingaler

- Schoenfeld

• Stratifiering, Bra att dela upp analysen för variabeln som

medför ”bekymmer” t.ex. dela upp analysen för icke rökare

respektive rökare


• Plotta överlevnadsfunktionen för de olika

exponeringsgrupperna.

• Korsar kurvorna varandra = problem (ej proprotionell

hazard över tid)


• Vanligt att plotta log(Hazardfunktion) mot log(tid) för att

undersöka om de olika grupperna är parallella

• Jmf med linjär regression.


• Residualer används för att skatta hur bra en modell (Cox

regressionsmodell) passar observerade data

• För Cox-modeller finns ingen direkt motsvarighet till linjär

regression (residual=observerat-skattat värde)

• Två olika typer av residualer

- Martingaler

- Schoenfeld

Metod 2: Residualer


• Martingaler beräknas genom att ta utfallet för en person

(0=censurerad, 1=händelse) minus (-) den kumulativa

hazardfunktionen baserat på cox-modellen) t.ex.

- Exempel 1: En person är censurerad vid 2 månader,

Den beräknade kumulativa hazarden är 20 % (0.2).

Martingalresidualen blir då: 0-0.2 = -0.2

- Exempel 2: En annan person blir sjuk vid 13 månader (en händelse), Den beräknade kumulativa

hazarden är 50 % (0.5). Martingalresidualen blir då: 1-

0.5 = 0.5

Osv. för alla individer

STATA: stcox group var1 var2, mgale(mgaleres)


• Martingaler måste transformeras (göras om) till deviance

residualer

• Deviance-residualer skall ha ett medelvärde runt ”0” och en

standardavvikelse runt ”1” om modellen stämmer

Här är värdet på

residualen plottat (y-axel)

vs. Värdet på en kovariat

(x-axel)


• Bra för att undersöka olika variabler.

• Här får varje individ ett residualvärde för varje variabel (jmf. Med

martingalresidualer)

• Schoenfelds residualer definieras som skillnaden mellan en

persons observerade och förväntade värde för en viss variabel

Schoenfelds residualer


• Exempel (förväntad sannolikhet=skattad sannolikhet från cox-

modell, vid en specifik tidpunkt):

Kvinna 55-år rökare (förväntad sannolikhet =0.1)

Man 45-år icke rökare (förväntad sannolikhet=0.05)

Kvinna 67-år rökare (förväntad sannolikhet=0.2)

Man 58-år rökare (förväntad sannolikhet=0.30)

Man 70-år icke rökare (förväntad sannolikhet=0.20)

I detta fall så råkar den 55-åriga kvinnan ut för sjukdom.

Förväntad ålder: 0.1*55 + 0.05*45 + 0.2*67 + 0.30*58 + 0.20*70=60

• Residual=observerat värde – skattat värde=55-60=-5



• Schoenfelds residualer är i princip oberoende av tid. Detta

medför att om residualerna inte är slumpmässigt fördelade runt

0 så är det ett tecken på att ”proportional hazard assumption”

inte håller.

• STATA: stcox group var1 var2, schoenfeld(schoen*)

scaledsch(scaled*)

• Plot: stphtest, rank plot(group)


Survival analysis Uppgift (proprotional hazard assumption)

Vad är tolkning av denna residualplot?


• Om tiden är viktig i analysen t.ex. att risken varierar över tid.

• Parametriska metoder där tiden modelleras

• Accelerated time failure models (AFT)

• Högre precision, kräver att man specificerar rätt föredelning

Övriga modeller

Documents

Survival analysis (Dag 1) - henrikkallberg.com · Survival analysis (Dag 1) •Mål Kunna grundläggande begrepp och koncept inom överlevnadsanalys - Förstå skillnad mellan händelse