Upload
buithien
View
222
Download
2
Embed Size (px)
Citation preview
Survival analysis (Dag 1)
• Tid till händelse
• Censurering
• Livslängdstabeller
• Överlevnadsfunktionen
• Kaplan-Meier
• Parametrisk skattning
• Jämföra överlevnadskurvor
Henrik Källberg, 2012
Upplägg Dag 1
Survival analysis (Dag 1)
• Mål
- Kunna grundläggande begrepp och koncept inom
överlevnadsanalys
- Förstå skillnad mellan händelse och censurering
- Utföra enklare beräkningar
- Förstå vad överlevnadsfunktionen beskriver
- Kunna skatta överlevnadssannolikhet genom parametrisk metod med hjälp av
exponentialfördelningen
- Kunna jämföra olika överlevnadskurvor mha.
Logrank-test
Survivalanalysis (studietyper)
• Kohortstudier
• Randomiserade studier, Kliniska prövningar
Alla individer
Randomisering
Behandling
Placebo
Studietid
Oexponerade
Exponerade
Oexp. fall
Exp. fall
Survival analysis (exempel)
Survival Analysis
Tid (t)
Studie slut Studie start
Tid till händelse (Time to event)
Tid till händelse kan vara tid till sjukdom från
studiestart,
Survival analysis - Censurering
• Censurering innebär att man har ofullständig information om
vad som hänt en individ.
• Censurering är icke informativ om orsaken inte har med
händelsen (sjukdom) som man studerar
• Höger censurering: En individ följs upp över en tid utan att
någon händelse inträffar under uppföljningstiden
• Höger censurering kan bero på:
- Att individen avlider på grund av en annan orsak än den som studeras.
- Studien avslutas innan en händelse uppstår
(tex. Sjukdom). Uppföljningstiden är för kort.
- En individ ”hoppar” av studien innan studien avslutas
(loss to follow up)
Survival analysis - Censurering
• Vänstersidig censurering: Innebär att en händelse inträffat
men man vet inte när. Vänstersidig censurering är ovanligare
och är ofta relaterat till att man har en ställtid där individen
inte vet när händelsen inträffade. Tex.
- Insjuknande innan symptomdebut tex. Cancer, HIV
• Viktigt att tänka på eventuell ställtid i samband med
studiedesignen
Start studie
Uppfölj. tid Sjudomsdebut
Symptom Ställtid
Survival Analysis Uppgift
Time (t)
Study end Study start
Time to event
Vilka individer är censurerade?
Survival analysis (Livslängdstabeller)
Ålder vid start vid
Dekaden
Sannolikhet för död
under dekad
Antal levande vid
dekadens början
0 0.0105 100000
10 0.00660 98950
20 0.01458 98297
30 0.01964 96864
40 0.03791 94962
50 0.08286 ????
60 0.19825 83792
70 0.40089 67180
80 ???? 40248
90 0.95709 10837
100 0.99963 465
110 1.0 1
Survival analysis Day 1
Överlevnadsfunktionen, S(t) : Beskriver sannolikheten att inte drabbas av
en händelse före en given tidpunkt (t).
0.5
0.2
0.1
S(t)
Survival analysis
• Utfallsvariabeln är tid till händelse (time to event)
• Denna utfallsvariabel är
oftast inte normalfördelad
• Fördelningsfunktionen för
tid till händelse (time to event)
betecknas f(t)
Survival analysis Day 1
Överlevnadsfunktionen, S(t) : Beskriver sannolikheten att inte drabbas av
en händelse före en given tidpunkt (t).
Fråga:
Vad är
sannolikheten
att inte drabbas
av en händelse
före tidpunkt =
80?
Survival analysis (Överkurs)
• Sambandet mellan fördelningsfunktionen för tiden f(t) och
överlevnadsfunktionen är ser ut på följande sätt:
)(')(eller )(1)()( tStftFdttftSt
Survival analysis (Kaplan Meier)
• Hur beräknar man sannolikheten för överlevnad med hjälp av
överlevnadsfunktionen S(t)?
• Kaplan-Meier
- För att överleva t antal tidpunkter måste man överleva
t-1 tidpunkter och den sista tidpunkten i intervallet.
- Betecknas: S(t)=S(t-1)*P(överleva tidpunkten t)
STATA: Definiera variabler: stset survt, failure(event==1),
sts list (för skattningar), sts graph (för plot av kurva)
sts grap,by(group) (plot uppdelat på grupper)
Survival analysis (Kaplan Meier)
• Kaplan Meier
- Icke parametrisk metod (vi antar inte att
överlevnadsfunktionen har en speciell form)
• Antaganden:
- Observationerna är oberoende av varandra
- Censureringen är oberoende av händelserna vi studerar t.ex. att sjukdomen som vi studerar inte är
kopplad till att censurering uppkommer
- Att vi vet den ”exakta” tiden till en händelse
Survival analysis (Kaplan Meier)
Tidpunkt
(t) minuter
Antal
friska vid
t. at
Sjuka
under
interv.
dt
Antal
förlorade
individer
ct
Antal
indiv.
under
risk
nt=at-ct
Risk sjuk
vid t
rt=dt/nt
Frisk vid t
st=1-rt
Kumulat.
Överlev. I
s(t)=s(t-1)
×s(t)
1 21 0 0 0 0/21 21/21 1*21/21
29 21 1 0 21 1/21 1-1/21=
0.95
1*0.95=
0.95
30 20 0 0 20 0/20 1-0/20 =
1
1*0.95
31 20 2 0 20 2/20 =
0.10
1-0.10 =
0.9
0.9*0.95
= 0.857
…
49 18 1 1 18-1 = 17 1/17 =
0.059
1-0.059 =
0.941
0.941*0.8
57 = 0.806
52 17 2 1 16 2/16 =
0.125
1-0.125 =
0.875
0.806*0.8
75 = 0.705
Survival analysis (Kaplan Meier)
0
0,2
0,4
0,6
0,8
1
1 11 21 31 41 51
s(t)
t
Survival analysis (Kaplan Meier)
Konfidensintervall för överlevnadsfunktionen
S(t) Standard Error (SE) skattas
med hjälp av följande
formel:
𝑆𝐸 𝑆 𝑡 = 𝑆(𝑡) 𝑑𝑡
𝑎𝑡(𝑎𝑡−𝑑𝑡)
95%
Konfidensintervall
vid tidpunkten
Där dt är antal event
vid tidpunkt t och at är
antalet friska individer
vid t
Denna formel kallas
Greenwoods formel
Survival analysis (Kaplan Meier)
Uppgift!
• Beräkna 95 procentigt Konfidensintervall
Tidpunkt
(t) minuter
Antal
friska vid
t. at
Sjuka
under
interv.
dt
Antal
förlorade
individer
ct
Antal
indiv.
under
risk
nt=at-ct
Risk sjuk
vid t
rt=dt/nt
Frisk vid t
st=1-rt
Kumulat.
Överlev. I
s(t)=s(t-1)
×st
31 20 2 0 20 2/20 =
0.10
1-0.10 =
0.9
0.9*0.95
= 0.857
𝑆𝐸 𝑆 𝑡 = 𝑆(𝑡) 𝑑𝑡
𝑎𝑡(𝑎𝑡 − 𝑑𝑡)
Survival analysis
• Ibland har man inte
exakta tidpunkter
• Vi har bara
information för
vissa tidsintervall
• Data är grupperat
! !
Tidsintervall
Survival analysis (”life table”)
• Det är ingen större skillnad mellan beräkningarna för
överlevnadsfunktionen för en ”Life-table” jämfört med Kaplan Meier
• Skillnaden består i huvudsak av att man antar att de
censurerade personerna bidrar med information under halva
tidsperioden där de försvinner.
• Antalet individer under risk för en särskild period är antalet
individer i början av perioden minus halva antalet individer
som faller bort (loss to follow up)
• Låt oss titta på exempel
Survival analysis (”life table” uppgift!!)
Intervall
(månader
sedan
start) i
Antal
levande i
början av
i. ai
Döda
under
interv.
di
Antal
förlorade
individer
ci
Antal
indiv.
under
risk
ni=ai-ci/2
Risk att
dö under
i
ri=di/ni
P
överleva
i
si=1-ri
Kumulat.
Överlev. I
s(i)=s(i-1)
×si
0 100 0 0 100 0 1 1
2 100 10 0 100 10/100 =
0.10
1-0.10 =
0.90
0.90
4 90 4 4 90 – 4/2 =
88
4/88 =
0.045
1-0.045 =
0.955
0.90×0.95
5 = 0.8595
6 88 8 0 88 0.0909 0.909 0.7814
8 80 0 10 75 0 1 0.7814
10 75 7 10 ??? ?? ??? ???
12 58 20 0 58 20/58 =
0.345
1-0.345 =
0.655
0.703 ×
0.655 =
0.46
14 38 0 0 38 0 1 0.46
Survival analysis (”life table”)
Intervall
(månader
sedan
start) i
Antal
levande i
början av
i. ai
Döda
under
interv.
di
Antal
förlorade
individer
ci
Antal
indiv.
under
risk
ni=ai-ci/2
Risk att
dö under
i
ri=di/ni
P
överleva
i
si=1-ri
Kumulat.
Överlev. I
s(i)=s(i-1)
×si
0 100 0 0 100 0 1 1
2 100 10 0 100 10/100 =
0.10
1-0.10 =
0.90
0.90
4 90 4 4 90 – 4/2 =
88
4/88 =
0.045
1-0.045 =
0.955
0.90×0.95
5 = 0.8595
6 88 8 0 88 0.0909 0.909 0.7814
8 80 0 10 75 0 1 0.7814
10 75 7 10 75-10/2 =
70
7/70=
0.10
1-0.10 =
0.90
0.90×0.78
14 = 0.703
12 58 20 0 58 20/58 =
0.345
1-0.345 =
0.655
0.703 ×
0.655 =
0.46
14 38 0 0 38 0 1 0.46
Survival analysis (Parametrisk Skattning)
Parametrisk skattning av S(t) • Om vi kan anta en fördelning för tiden
• 𝑻~𝑬𝒙𝒑𝒐𝒏𝒆𝒏𝒕𝒊𝒂𝒍: 𝑺 𝒕 = 𝒆𝒙𝒑 −𝝀𝒕
• Man måste skatta 𝝀 för att kunna skatta S(t)
• Hastigheten 𝝀 skattas med 𝝀 = 𝒅
𝒕
• Vi antar att 𝝀 är konstant över tid.
Survival analysis (Parametrisk Skattning Uppgift)
Antal individer
(a)
Tid (t) Tid*a Antal Händelser
1 29 29 1
2 31 62 2
2 49 98 1
17 52 884 2
Summa …… 1073 6
𝝀 = 𝒅
𝒕= 6
1073≈ 0.0056 → 𝑆 𝑡 = 𝑒−0.0056∗𝑡
𝑆 𝑡 = 52 =?
Uppgift!
Survival analysis (Jämföra kurvor)
• Olika grupper t.ex.
- Behandlade och obehandlade,
- Exponerade och oexponerade
• Logrank test
- Chi-Två
- Wilcoxon-Gehan
Survival analysis (Jämföra kurvor) ex.
Survival analysis (Jämföra kurvor)
Två olika
Kurvor, olika
behandlingar
Logrank Test
• Icke Parametriskt test
• H0: SA(t) = SB(t)
(Överlevnadsfunktionen är
likadan i båda grupperna)
• H1: SA(t) ≠ SB(t)
(Överlevnadsfunktionerna är
olika)
Bakomliggande ide: Beräkna förväntat antal händelser och
jämföra med observerat antal händelser.
Survival analysis (Jämföra kurvor)
• Konstruera följande tabell för alla!!! tidpunkter där händelse(r)
inträffar:
Grupp Antal friska vid t. at Antal händelser
dt Förväntat antal
händelser
(A) At,A dt,A
Et,A=dt*(At,A/At)
(B) At,B dt,B
Et,B=dt*(At,B/At)
Totalt At dt Et= dt
𝑉𝑎𝑟𝑖𝑎𝑛𝑠𝑒𝑛 𝑓ö𝑟 𝑑𝑡,𝐴 = 𝑑𝑡,𝐵 , 𝑉𝑡,𝑘=𝑑𝑡∗𝐴𝑡,𝐴∗𝐴𝑡,𝐵(𝐴𝑡−𝑑𝑡)
𝐴2(𝐴𝑡−1)
Survival analysis (Jämföra kurvor)
Tid Antal
friska vid t. at
Antal
händelser dt
Förväntat antal
händelser
Antal friska
vid t. at
Antal
händelser dt
Förväntat antal
händelser
1 A1,A d1A
E1A=dt*(A1A/At)
A1,B d1B E1B=dt*(A1B/At)
2 A2,A d2,A
E2,A=dt*(A2A/At)
A2,B d2,B E2,B=dt*(A2B/At)
3 A3,A d3,A
E3,A=dt*(A3A/At)
A3,B d3,B E3,B=dt*(A3B/At)
k Ak,A Dk,A EK,A=dt*(AKA/At)
Ak,B Dk,B EK,B=dt*(AKB/At)
Totalt D+,A E+,A D+,B E+,B
Grupp A Behandling Grupp B Obehandlade
Ideen bakom är att jämföra observerat antal händelser
mot förväntat antal om det inte var någon skillnad
dt=dtA+dtB och At =AtA + AtB
Survival analysis (Jämföra kurvor)
• Teststatistika är 𝜒2 –fördelad och beräknas genom:
𝑼𝑳 = (𝒅𝒕,𝑲 − 𝑬𝒕,𝑲𝒌 ), 𝑽𝑳= 𝑽𝒕,𝑲, 𝜒2
𝒌 =𝑼𝟐
𝑽𝑳
• med 1 frihetsgrad (antal grupper-1), vilket innebär att P(𝜒2≥3.84)=0.05 (signifikansnivån)
• Det finns en snabbversion som utgår från:
𝜒2 ≈(𝑫+𝑨−𝑬+𝑨)
𝟐
𝑬+𝑨+(𝑫+𝑩−𝑬+𝑩)
𝟐
𝑬+𝑩
STATA: sts test group, sts test group,wilcoxon
Survival analysis (Jämföra kurvor) Ex.
Här är data från en fiktiv
studie som jämför två
olika behandlingar
Survival analysis (Jämföra kurvor) ex.
Exempel beräkning förväntat antal döda i behandlingsgrupp 2
Survival analysis (Jämföra kurvor) ex.
• I föregående ”slide” visades hur man beräknar förväntat
antal döda för behandling 2.
• Nästa steg är att göra samma sak för behandling 1.
• Beräkna Chi-två värde:
𝜒2 ≈(𝑫+𝟏−𝑬+𝟏)
𝟐
𝑬+𝟏+(𝑫+𝟐−𝑬+𝟐)
𝟐
𝑬+𝟐= (𝟒−𝟕.𝟎𝟖)𝟐
𝟕.𝟎𝟖+(𝟔−𝟐.𝟗𝟐)𝟐
𝟐.𝟗𝟐=4.59 (1 fg)
Survival analysis (Jämföra kurvor)
• Logrank testet är känsligt för ”sena” skillnader mellan
överlevnadskurvorna.
• Om man vet att tidiga skillnader är av särskilt intresse så kan
man med hjälp av Wilcoxon-Gehan test vikta för tidiga
skillnader med hjälp av antal personer under risk vid t.
𝑼𝑳 = 𝑨𝒕,𝒌(𝒅𝒕,𝑲 − 𝑬𝒕,𝑲𝒌 ), 𝑽𝑳= 𝑨𝟐𝒕,𝒌𝑽𝒕,𝑲𝒌
• Val av test bör göras innan man ser data (annars väljer man
det som passar data bäst inte apriori teori)
Survival analysis (Jämföra kurvor)
• Fler grupper!
• Logrank-testet går att generalisera till fler än två grupper.
• Viktigt att tänka på antal frihetsgrader (antal grupper-1).
Survival analysis (Jämföra kurvor) Uppgift
Grupp Obs. Antal
händelser (D)
Förväntade antal
händelser (E)
1 5 13.25
2 7 15.82
3 37 19.93
Totalt 49 49
Ledtråd: 𝜒2 ≈(𝑫+𝑨−𝑬+𝑨)
𝟐
𝑬+𝑨+(𝑫+𝑩−𝑬+𝑩)
𝟐
𝑬+𝑩+????
𝜒2-tabell:
Survival Analysis (Logrank test)
Styrkor
• Inga modellantaganden =>
kan användas på de flesta
data
• Kan användas på
kategoridata.
• Konfidensintervall är
modelloberoende.
Svagheter
• Kan inte användas för att
modellera tiden.
• Ingen möjlighet att testa hur
variabler påverkar
modellen
• Variablers effekt kan bara
undersökas genom att stratifiera (dela upp data)
• Omöjligt att använda
kontinuerliga variabler
Upplägg Dag 2
• Hazard-funktionen
• Proportional Hazard
model (Cox-model)
• Olika variabler
• Statistiska test
Survival analysis (Dag 2)
Survival analysis (Dag 2)
• Mål
- Veta hur Hazardfunktionen är relaterad till
överlevnadsfunktionen (S(t))
- Veta hur Cox-regressionsmodellen ser ut
- Förstå ”Proportional Hazard assumption”
- Beräkna Hazard Ratio för olika variabler
- Avgöra om en variabel är ”signifikant” i en Cox- modell
Survival analysis (Hazardfunktionen)
Fördelning tid till händelse, f(t):
t
tFdttftS )(1)()(
Överlevnadsfunktionen S(t):
))(log()(
)()( tS
dt
d
tS
tfth
Hazardfunktionen h(t):
Survival analysis (Hazardfunktionen)
• Hazardfunktionen h(t) beskriver antal händelser per
tidsenhet (“hastighet” för att händelse(r) inträffar)
• Den kumulativa Hazardfunktionen (lättare att plotta
eftersom Hazardfunktionen återger den momentana risken.
ges av: -log(S(t))=H0(T)
• Hazardfunktionen beskriver sannolikhet att sjukdom
(händelse) inträffar strax efter tiden t givet att sjukdom inte
inträffat före t.
• Vi håller oss till det enkla exemplet med att Hazardfunktionen är konstant (exponentiell fördelning). Det
finns dock andra fördelningar där hazardfunktionen ökar
eller minskar över tid (t.ex. Weibullfördelningen)
Survival analysis (Hazardfunktionen)
h(t)=
S(t)=e-t
f(t)=e-t =S’(t) Kom ihåg:
Och:
Kvoten blir då:
)(')( tStf
))(log()(
)()( tS
dt
d
tS
tfth
t
t
e
e
tS
tfth
)(
)()(
Survival analysis (Hazardfunktionen)
• Föregående exempel utgår från att tiden till händelse är
exponentialfördelad (Dag1)
• Låt oss anta att alla individer har konstant ”risk” för att
drabbas av sjukdom och att det som skiljer är en specifik
variabel (t.ex. rökning, kön, ålder)
T ~ exp (λ)
P(T=t) = λe-λt
där λ är en konstant hastighet.
Survival analysis (Cox regression)
• Man behöver inte välja en speciell sannolikhetsfördelning för överlevnadstiden och är därför säker.
• Semi-parametrisk
(Kaplan-Meier är icke-parametrisk; exponential och Weibull är parametriska)
• Man kan använda diskreta och kontinuerliga variabler.
• Lätt att använda tidsberoende variabler (variabler som ändras över tid)
Survival analysis (Cox regression)
• Vi utvecklar Hazardfunktionen så att den ser ut på följande
sätt:
• Nu består vår Hazardfunktion (h(t,x)) av två delar:
ℎ0 𝑡 och exp 𝛽 ∗ 𝑥 där ℎ0 𝑡 är ”baseline Hazard” och
exp 𝛽 ∗ 𝑥 är en ”konstant” som påverkar
Hazardfunktionen (kan bero på en variabel) jmf. Med
• Överlevnadsfunktionen ser ut på följande sätt:
𝑆 𝑡, 𝑥 = 𝑒−(𝐻0 𝑡 exp 𝛽∗𝑥 ) = [𝑆0(𝑡)]exp(𝛽∗𝑥)
ℎ 𝑡, 𝑥 = ℎ0 𝑡 exp(𝛽 ∗ 𝑥) Obs! (exp(𝛽 ∗ 𝑥) = eβ*x) e = talet 2.72
t
t
e
e
tS
tfth
)(
)()(
Survival analysis (Cox regression)
• Nu kan vi beräkna Hazard Ratio (HR)
• HR tolkas ofta som en relativ risk (RR) trots att vi inte vet
absolut risk. HR skattar i detta fall en incidens kvot
)(...)(
...
0
...0
,1111
11
11
)(
)(
)(
)(jkikji
jkkj
ikkixxxx
xx
xx
j
iji e
et
et
th
thHR
Hazard för person j (eg en icke rökare)
Hazard för person i (eg en rökare)
Hazard ratio
Obs!! )()( 00 tht
Survival analysis (Cox regression)
Antaganden
• Proportional Hazard Assumption
- Hazardfunktionerna för respektive grupp är proportionella
gentemot varandra. Det som skiljer dom åt är exp(β*x).
Detta innebär att HR (”RR”) inte beror av tiden
- Risken är multiplikativ
ℎ 𝑡, 𝑥 = ℎ0 𝑡 ∗ exp(𝛽 ∗ 𝑥)
Survival analysis (Cox regression)
Individ Rökare (1=ja,0=nej) Tid till event Event (1=ja, 0=nej)
1 0 10 0
2 0 10 0
3 1 2 1
4 1 1 1
5 1 4 1
6 0 8 1
7 1 10 0
8 1 6 1
9 0 6 1
Data-exmpel (Dikotom variabel)
Survival analysis (Cox regression)
smoking
smoking
smoking
smoking
eHR
eet
et
th
thHR
smokingcancerlung
j
ismokingcancerlung
/
)01(
)0(
0
)1(
0/
)(
)(
)(
)(
Detta är Hazard ratio för rökning, lägg märke till att rökning
är i detta fall oberoende av tid.
Kategorisk variabel (Dikotom)
Survival analysis (Cox regression) ex.
Survival analysis (Cox regression)
Individ Ålder Ålder1
(≥30 år,<40)
Ålder2
(≥ 40 år, <50)
Ålder3
(≥50 år)
Tid till event
1 20 0 0 0 10
2 30 1 0 0 10
3 42 0 1 0 2
4 40 0 1 0 1
5 63 0 0 1 4
6 30 1 0 0 8
7 55 0 0 1 10
8 25 0 0 0 6
9 70 0 0 1 6
Data-exempel (Flera grupper, tex. Ålderskategorier, storlek), Ordinaldata
Survival analysis (Cox regression)
)1(2
0ålder vs.ålder2/
)1(
)0()0()0(1
0
)0()1()0(1
0
0ålder vs.ålder2 gori,Ålderskate/ 2
32
32
)(
)(
)(
)(
ålder
cancerlung
Ålder
Ålder
j
i
cancerlung
eHR
eet
et
th
thHR ålder
ÅlderÅlder
ÅlderÅlder
Detta är Hazard ratio för ålder 2 (30-40 år) jmf med <30 år
Flera grupper, Ordinal data
STATA: stcox group alder
stcox group alder, nohr (Om du vill ha beta-koefficienter och ej HR)
Survival analysis (Cox regression) Uppgift
• I en studie beträffande risk för lungcancer och rökning
erhölls följande resultat
β = 1.6, SE(β)=0.5
• Skatta den relativa risken och ett 95%-igt konfidensintervall
för att drabbas av lungcancer om man röker
Svar: RR=HR=e1.6*1(rökare=1) = 4.95,
Undre gräns 95%-igt RR= e1.6-1.96*0.5=1.85
Övre gräns 95%-igt RR=e1.6+1.96*0.5=13.2
Kategorisk variabel (Dikotom)
Survival analysis (Cox regression)
Individ Ålder Tid till event
1 20 10
2 30 10
3 42 2
4 40 1
5 63 4
6 30 8
7 55 10
8 25 6
9 70 6
Kontinuerlig variabel (tex. Ålder, Koncentration av
ämne, temperatur)
Survival analysis (Cox regression)
)10(
agein increase 10/
)6070(
)60(
0
)70(
0agein increase 10/
)(
)(
)(
)(
age
age
age
age
eHR
eet
et
th
thHR
yearscancerlung
j
iyearscancerlung
Detta är Hazard ratio för tio år åldersökning
Kontinuerlig Variabel
Survival analysis (Cox regression) Uppgift
• I en studie beträffande ålder och risk för lungcancer
erhölls följande resultat
β = 0.05, SE(β)=0.05
• Skatta den relativa risken och ett 95%-igt
konfidensintervall för att drabbas av lungcancer från 55
års ålder till 60 års ålder
Svar: RR=HR=e0.05*(60-55) = 1.28
Undre gräns 95%-igt RR= e0.05*(60-55)-1.96*5*0.05 =0.77
Övre gräns 95%-igt RR= e0.05*(60-55)-1.96*5*0.05 = 2.10
Kontinuerlig Variabel
Survival analysis (Cox regression) Uppgift
I denna artikel om Cadmium och risk för CVD så har man
kategoriserat en kontinuerlig variabel
Survival analysis (Cox regression)
• För att avgöra om en variabel (tex. Rökning, Asbest eller
behandling) medför en signifikant ökad eller minskad RR (eg.
Hazard ratio (HR)) så måste den testas.
• En vanlig metod för att testa signifikans kallas Wald test
• Andra vanliga test är Likelihood ratio och Score test
Survival analysis (Cox regression)
• Walds test ges av följande formel:
• Där är en regressionskoefficient från Cox-modellen
ℎ 𝑡, 𝑥 = ℎ0 𝑡 ∗ exp(𝜷 ∗ 𝑥)
• Och SE(β) är ”standard error” för β
• Z är det standardiserade normalvärdet från
normalfördelningen (Använd normalfördelningstabell)
)ˆ( SE
0ˆ
Z
Survival analysis (Cox regression)
• Walds test testar om är skiljt från 0. (om är 0 så innebär
det att exp(β=0) är 1 vilket ger en HR (RR) som är 1 (mao. Det
är ingen ökad eller minskad risk för sjukdom för den
variabeln)
H0: β = 0
H1: β ≠ 0
Survival analysis (Cox regression) Uppgift
• Beräkna z-värde med hjälp av Walds test med hjälp av
följande uppgifter (Regressionskoefficient för rökning från
lungcancer):
β = 1.6, SE(β)=0.5
Signifikansnivå=0.05 → z(gräns)=1.96
• Avgör om koefficienten är skild från 0.
Survival analysis (Cox regression) Uppgift
Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
1.9 0.9713
0.975
3.0
3.1
3.2 0.99931
Exempel Normalfördelningstabell
observera att endast några
sannolikheter ges i tabellen
I detta fall blir z=1.6/0.5 = 3.2 vilket ger ett p-
värde på 1-0.99931 = 0.00069
Slutsats: denna koefficient är mycket
signifikant, det finns en association mellan
rökning och risk för lungcancer
Survival analysis (Cox regression) Uppgift
• Utför Walds test för den kontinuerliga variabeln ålder i tidigare
exempel
β = 0.05, SE(β)=0.05
Signifikansnivå=0.05 → z(gräns)=1.96
Avgör om koefficienten är skild från 0. Hur förhåller sig
Walds test till HR och dess 95%-iga konfidensintervall?
Survival analysis (Cox regression) Uppgift
Beräkna Z-värde med
hjälp av Walds test för
behandling och ålder.
Tolka resultat.
Upplägg Dag 3
• Fortsättning Cox-modellen
• Flera variabler
• Confounding
• Interaktion
• Test av proportional Hazard
assumption
• ”Ytterliggare modeller”
Survival analysis (Dag 3)
Survival analysis (Dag 3)
• Mål
- Veta hur man infogar fler variabler i en cox modell
- Förstå hur man kontrollerar för Confounding
- Interaktion mellan variabler
- Undersöka, testa proportional hazard assumption
- Veta om att det finns ytterligare modeller
Survival analysis (Kort repetition)
• Hazardfunktionen
• ℎ 𝑡, 𝑥 = ℎ0 𝑡 exp(𝛽 ∗ 𝑥) Obs! (exp(𝛽 ∗ 𝑥) = eβ*x) e = talet 2.72
* ℎ0 𝑡 är ”baseline Hazard” och exp 𝛽 ∗ 𝑥 är en ”konstant” som
påverkar Hazardfunktionen (kan bero på en variabel)
Survival analysis (Kort repetition)
)(...)(
...
0
...
0,
1111
11
11
)(
)(
)(
)(jkikji
jkkj
ikkixxxx
xx
xx
j
iji e
et
et
th
thHR
Hazard för person j (eg en icke rökare)
Hazard för person i (eg en rökare)
Hazard ratio
Hazard ratio (HR, ”RR”) Obs!! )()( 00 tht
Survival analysis (Kort repetition)
Walds test (för att avgöra om
variabel är signifikant i modell) :
)ˆ( SE
0ˆ
Z
Survival analysis (Flera variabler)
)10(
agein increase 10/
)6070(
)60()0(
0
)70()0(
0agein increase 10/
)(
)(
)(
)(
age
age
agesmoking
agesmoking
eHR
eet
et
th
thHR
yearscancerlung
j
iyearscancerlung
Från Dag 2:
Nu har vi utökat modellen så att både rökning och
ålder finns med.
Survival analysis (Flera variabler,
confounding)
• Confounding är ett stort problem i observationsbaserade
studier (läs ej randomiserade studier)
• Confounding är när ett samband mellan två variabler kan
förklaras av en tredje variabel.
• Kaffe och risk för lungcancer:
Rökning
Kaffe Lungcancer
Survival analysis (Flera variabler,
confounding)
Ej rökning rökning Rökning + Edu.
Etnic. Emfys.
Alc. Phys.
Survival analysis (Flera variabler,
confounding)
ℎ 𝑡, 𝑥 = ℎ0 𝑡 exp(+𝛽𝐴𝑔𝑒_𝑠𝑡𝑢𝑑𝑦 ∗ 𝑥𝐴𝑔𝑒_𝑠𝑡𝑢𝑑𝑦 + 𝛽𝐵𝑀𝐼1 ∗ 𝑥𝐵𝑀𝐼1 + 𝛽𝐵𝑀𝐼1 ∗ 𝑥𝐵𝑀𝐼1 + 𝛽𝐵𝑀𝐼2∗
𝑥𝐵𝑀𝐼2+𝛽𝐵𝑀𝐼4 ∗ 𝑥𝐵𝑀𝐼4+𝛽𝐵𝑀𝐼5 ∗ 𝑥𝐵𝑀𝐼5 + 𝛽𝑆𝑚𝑜𝑘𝑒 ∗ 𝑥𝑠𝑚𝑜𝑘𝑒)
här är ett exempel på en Cox-modellen för HR‡ i
föregående tabell.
Survival analysis (Flera variabler,
confounding) Uppgift!
• Skriv upp en cox-modell som avser att undersöka risk för
CVD om man röker (fyra kategorier av rökningsklassificering:
aldrig (referensgrupp), Låg (L), Mellan (M) och hög (H)).
• Modellen skall justeras för ålder vid inklusion i studien.
• Tänk också på hur variablerna skulle vara kodade.
Survival analysis (interaktion)
• Interaktion
- Interaktion i statistisk mening innebär att effekten av en
variabel beror på en eller flera andra variabler.
- En Cox-modell med interaktionsterm har följande utseende:
𝒉 𝒕, 𝒙 = 𝒉𝟎 𝒕 𝐞𝐱𝒑(𝜷𝑩𝑴𝑰 ∗ 𝒙𝑩𝑴𝑰 + 𝜷𝑺𝒎𝒐𝒌𝒆 ∗ 𝒙𝒔𝒎𝒐𝒌𝒆 + 𝜷𝑺𝒎𝒐𝒌𝒆∗𝑩𝑴𝑰 ∗ 𝒙𝒔𝒎𝒐𝒌𝒆 ∗ 𝒙𝑩𝑴𝑰)
- Interaktion enligt ovan nämns ofta som multiplikativ
- Interaktion kan också vara additativ
Survival analysis (interaktion)
Survival analysis (interaktion)
• Hur avgör man om det finns interaktionseffekter?
- Walds test för interaktionskoefficienten!
• Additativ interaktion är en annan historia
H0: βSmoke*BMI = 0
H1: βSmoke*BMI ≠ 0
Survival analysis (interaktion) Uppgift
• Avgör om interaktionskoefficienten är signifikant skild från 0
𝜷𝑮𝒆𝒏𝑯𝑳𝑨=1.7, SE=0.2
𝜷𝑺𝒎𝒐𝒌𝒆 = 0.6, SE=0.15
𝜷𝑺𝒎𝒐𝒌𝒆∗𝑮𝒆𝒏𝑯𝑳𝑨=0.8, SE=0.2
• Beräkna HR om man har den genetiska riskfaktorn (GenHLA)
och är rökare.
HR=exp(1.7*1 + 0.6*1+ 0.8*1) = exp(3.1) = 22.2
Survival analysis (proprotional hazard assumption)
• Ett viktigt antagande vi gör när vi använder cox-regression är
att våra oberoende variabler ej varierar med tiden.
• Till exempel: Vi antar att riskökningen om man är rökare är
konstant över tid.
• Om rökning ej skulle vara konstant över tid så skulle det i
extrema fall innebära att rökning är ”farligt” fram till en viss
tidpunkt. Efter denna tidpunkten så är rökning skyddande mot
sjukdom.
Survival analysis (proprotional hazard assumption)
• Plotta överlevnadskurvorna för respektive grupp (exponerade,
oexponerade)
• Residualer
- Martingaler
- Schoenfeld
• Stratifiering, Bra att dela upp analysen för variabeln som
medför ”bekymmer” t.ex. dela upp analysen för icke rökare
respektive rökare
Survival analysis (proprotional hazard assumption)
• Plotta överlevnadsfunktionen för de olika
exponeringsgrupperna.
• Korsar kurvorna varandra = problem (ej proprotionell
hazard över tid)
Survival analysis (proprotional hazard assumption)
• Vanligt att plotta log(Hazardfunktion) mot log(tid) för att
undersöka om de olika grupperna är parallella
• Jmf med linjär regression.
Survival analysis (proprotional hazard assumption)
• Residualer används för att skatta hur bra en modell (Cox
regressionsmodell) passar observerade data
• För Cox-modeller finns ingen direkt motsvarighet till linjär
regression (residual=observerat-skattat värde)
• Två olika typer av residualer
- Martingaler
- Schoenfeld
Metod 2: Residualer
Survival analysis (proprotional hazard assumption)
• Martingaler beräknas genom att ta utfallet för en person
(0=censurerad, 1=händelse) minus (-) den kumulativa
hazardfunktionen baserat på cox-modellen) t.ex.
- Exempel 1: En person är censurerad vid 2 månader,
Den beräknade kumulativa hazarden är 20 % (0.2).
Martingalresidualen blir då: 0-0.2 = -0.2
- Exempel 2: En annan person blir sjuk vid 13 månader (en händelse), Den beräknade kumulativa
hazarden är 50 % (0.5). Martingalresidualen blir då: 1-
0.5 = 0.5
Osv. för alla individer
STATA: stcox group var1 var2, mgale(mgaleres)
Survival analysis (proprotional hazard assumption)
• Martingaler måste transformeras (göras om) till deviance
residualer
• Deviance-residualer skall ha ett medelvärde runt ”0” och en
standardavvikelse runt ”1” om modellen stämmer
Här är värdet på
residualen plottat (y-axel)
vs. Värdet på en kovariat
(x-axel)
Survival analysis (proprotional hazard assumption)
• Bra för att undersöka olika variabler.
• Här får varje individ ett residualvärde för varje variabel (jmf. Med
martingalresidualer)
• Schoenfelds residualer definieras som skillnaden mellan en
persons observerade och förväntade värde för en viss variabel
Schoenfelds residualer
Survival analysis (proprotional hazard assumption)
• Exempel (förväntad sannolikhet=skattad sannolikhet från cox-
modell, vid en specifik tidpunkt):
Kvinna 55-år rökare (förväntad sannolikhet =0.1)
Man 45-år icke rökare (förväntad sannolikhet=0.05)
Kvinna 67-år rökare (förväntad sannolikhet=0.2)
Man 58-år rökare (förväntad sannolikhet=0.30)
Man 70-år icke rökare (förväntad sannolikhet=0.20)
I detta fall så råkar den 55-åriga kvinnan ut för sjukdom.
Förväntad ålder: 0.1*55 + 0.05*45 + 0.2*67 + 0.30*58 + 0.20*70=60
• Residual=observerat värde – skattat värde=55-60=-5
Schoenfelds residualer
Survival analysis (proprotional hazard assumption)
• Schoenfelds residualer är i princip oberoende av tid. Detta
medför att om residualerna inte är slumpmässigt fördelade runt
0 så är det ett tecken på att ”proportional hazard assumption”
inte håller.
• STATA: stcox group var1 var2, schoenfeld(schoen*)
scaledsch(scaled*)
• Plot: stphtest, rank plot(group)
Schoenfelds residualer
Survival analysis Uppgift (proprotional hazard assumption)
Vad är tolkning av denna residualplot?
Survival analysis (proprotional hazard assumption)
• Om tiden är viktig i analysen t.ex. att risken varierar över tid.
• Parametriska metoder där tiden modelleras
• Accelerated time failure models (AFT)
• Högre precision, kräver att man specificerar rätt föredelning
Övriga modeller