Upload
sol
View
62
Download
10
Embed Size (px)
DESCRIPTION
Analýza prežívania, Kaplan-Meierove krivky a Coxova regresia. Iveta Waczulíková Peter Slezák. Analýza prežívania ( survival analysis ). Študuje rozdelenie doby (času) medzi dvoma udalosťami (v živote pacienta) - PowerPoint PPT Presentation
Citation preview
Analýza prežívania, Kaplan-Meierove krivky
a Coxova regresia
Iveta Waczulíková
Peter Slezák
Analýza prežívania (survival analysis)
• Študuje rozdelenie doby (času) medzi dvoma udalosťami (v živote pacienta)
• Vstupná udalosť: narodenie, čas diagnostikovania, začiatok liečby, expozícia rizikovému faktoru...
• Koncová udalosť: úmrtie, vyliečenie, relaps, prepustenie z nemocnice...
• Doba prežitia (survival time) je doba medzi oboma udalosťami, napr: – čas do úmrtia– čas do prepuknutia ochorenia / relapsu– dĺžka hospitalizácie– čas do vyliečenia ochorenia...
Formát dát – Pr.1aDáta časov a možných prognostických faktorov
vybraných 7 pacientov s AMV mozguvstup: stereotaktická rádiochirurgia
výstup: obliterácia ~ úspech
sledovanie/m obliterácia/m status embolizácia objem AVM T dávka/Gy77 77 ÚSPECH NIE 5,4 1830 18 ÚSPECH ÁNO 21,8 1672 CENZOR NIE 2,9 1730 6 ÚSPECH NIE 1,5 1960 48 ÚSPECH NIE 12,1 1842 CENZOR ÁNO 2,5 2012 EXITUS NIE 7,5 18
Analytik pracuje so „zaslepenou“ databázou
Kódovanie pre „status“ v programe StatsDirect:
* Cenzurovanie = 0 pre nekompletné dáta Cenzurovanie = 1 pre kompletné dáta (udalosť)
Príklad dát pacientov
1
2
3
4
5
6
7
1990 1995 2000 2005 6/2008
Zo zdravotných záznamov pacientov
Pac
ien
t
AVM trvásledovaná udalosť úspech (vyliečenie)iná ako sledovaná udalosť (úmrtie...)
? audi
t
?
?
Obdobie štúdie 1990-2008, v tomto období výber pacientovsplňujúcich vstupné kritériá pre zákrok a ich ďalšie sledovanie
1
2
3
4
5
6
7
0 5 10 15
Časové dáta
Pac
ien
t
?
AVM trváúspechúmrtie...
Roky od zákroku
Príklad dát pacientov
cenzurovanie
cenzurovanie
chýbajúci údaj
(cenzurovanie)
Údaje do databázy – počiatok času sledovania je vstupná udalosť(napr. tu zákrok)
• sprava– pozorovaný čas prežitia je
kratší než skutočný– štúdia končí pred
nastatím udalosti
• zľava• intervalové
Typy cenzurovania
Typy cenzurovania
• sprava• zľava
– Čas do relapsu
– Čas do udalosti je kratší (alebo rovný) než čas pozorovaný t < 3 (t ≤ tobs)
• intervalové
zákrok
0
rekurencia
3 mes.vyšetrenie
t
• sprava• zľava • intervalové
– Čas do relapsu
– 3 < t < 6
zákrok
0
bez ochorenia
3 mes.1.vyšetrenie
t
rekurencia
6 mes.2. vyšetrenie
Typy cenzurovania
Funkcia prežívania (survival function)
Funkcia prežívania S(t) je pravdepodobnosť prežitia T dlhšieho, než je čas t.
S(t) = P(T>t)
kde T je čas prežitia.
Ŝ(t)= počet pacientov, ktorí prežili dlhšie než t celkový počet pacientov v štúdii
Čas prežitia je nezávislý na procese cenzurovania (je možné overiť).
Cenzurovaný pacient je reprezentatívny pre skupinu pacientov v riziku (at risk) v čase cenzurovania – má tie isté vyhliadky na prežitie, ako pacienti, ktorí ostali v sledovaní (nie je možné testovať, predpokladáme).
Vyhliadky na prežitie sú rovnaké pre pacientov s včasným aj neskorým zaradením do sledovania (je možné overiť).
Ak je najdlhšie pozorovanie necenzurované (teda ak udalosť NASTALA), odhad S je v tomto čase rovný NULE.
Predpoklady odhadu funkcie prežívania
Odhady funkcie prežívania
• Kaplan-Meierov odhad - krivku prežitia odhadujeme v každom časovom okamihu, v ktorom nastala aspoň jedna udalosť a je konštantná v celom intervale, až po nasledujúci čas výskytu udalosti
- je najpoužívanejší- Life tables
K-M estimator
Survival Plot (PL estimates)
0 50 100 150 2000,00
0,25
0,50
0,75
1,00
Survivor
Times
• nekonštantná šírka jednotlivých časových intervalov
Funkcia hazardu
Funkciu hazardu môžeme chápať ako pravdepodobnosť OKAMŽITÉHO hazardu/udalosti v čase t za predpokladu, že subjekt prežil do času t. V tomto zmysle je funkcia hazardu h(t) mierou rizika.
Obvykle je do tabuľky a/alebo grafu vynesený hazard kumulovaný do času t, tzv. kumulatívna funkcia hazardu.
H(t) = -ln (S(t))
Pr.2: Časy prežitia štyroch pacientov sú: 10, 20, 35 a 40 mes. Odhad funkcie prežívania:
0
0,2
0,4
0,6
0,8
1
0 10 20 30 40 50
Month
% S
urv
ivin
g
0
0,2
0,4
0,6
0,8
1
0 10 20 30 40 50
Month
% S
urv
ivin
gPr.3: Časy prežitia štyroch pacientov sú: 10, 15+, 35 a 40 mes. Odhad funkcie prežívania:
+ je cenzurovaný údaj
Výstup k Pr.2 a Pr.3:
Pr. 2: Kaplan-Meier survival estimatesTime At risk Dead Censored S SE(S) H SE(H)10 4 1 0 0,75 0,217 0,288 0,28915 3 0 1 0,75 0,217 0,288 0,28935 2 1 0 0,375 0,286 0,981 0,76440 1 1 0 0 * infinity *
Median survival time = 35•Andersen 95% CI for median survival time = 5,061056 to 64,938944•Brookmeyer-Crowley 95% CI for median survival time = 10 to 35Mean survival time (95% CI) = 30,625 (15,982804 to 45,267196)
Pr. 1: Kaplan-Meier survival estimatesTime At risk Dead Censored S SE(S) H SE(H)10 4 1 0 0,75 0,217 0,288 0,28920 3 1 0 0,5 0,25 0,693 0,535 2 1 0 0,25 0,217 1,386 0,86640 1 1 0 0 * infinity *
Median survival time = 20•Andersen 95% CI for median survival time = -4,49955 to 44,49955•Brookmeyer-Crowley 95% CI for median survival time = 10 to 35Mean survival time (95% CI) = 26,25 (12,7567 to 39,7433)
H = -ln (S)
Survival Plot (PL estimates)
0 50 100 150 2000,00
0,25
0,50
0,75
1,00
Survivor
Times
Median survival time = 79 monthsAndersen 95% CI = 37,79 to 120,21 ! Brookmeyer-Crowley 95% CI = 42 to 169
Nespoľahlivý odhad v druhej časti krivky Dôvod – málo „events“ (krúžky), veľa cenzurovaných dát (čiarky)
Pr.4
Survival Plot (PL estimates)
0 50 100 1500,00
0,25
0,50
0,75
1,00
Survivor
Times
Median survival time = 22 monthsAndersen 95% CI = 16,11 to 27,89 Brookmeyer-Crowley 95% CI = 15 to 26
Dostatočne spoľahlivý odhad v tejto časti krivky
Pr.5
Pr.6: Dve rozdielne krivky prežitia
Tieto dve krivky majú rovnaké % 5-ročného prežitia, ich interpretácia je však podstatne rozdielna. Výber
preferovaného terapeutického prístupu bude posudzovaný subjektívne.
Pr.7: Dve rozdielne krivky prežitia
Tieto dve krivky nemajú v žiadnom čase rovnaké % prežitia, ich interpretácia sa líši len vo veľkosti. Voľba
preferovaného terapeutického prístupu bude jednoduchá.
Porovnanie kriviek prežívaniaTestovanie významnosti
• Logrank test• Nulová hypotéza: riziko úmrtia (udalosti) je
rovnaké pre všetky skupiny. P < 0,05 indikuje rozdiel medzi (najčastejšie dvoma) krivkami prežívania
• Prentice modified Wilcoxon test je citlivejší, ak je pomer hazardu (HR) vyšší pre včasné fázy času prežitia. Inak:
• Peto's log-rank test • Trend test (varianta logrank testu pre viac ako tri
krivky).
Pr.8a: Čas prežitia 30 pacientov s akútnou myeloidnou leukémiou
(AML)
Dva možné prognostické faktory:
1.Vek = 1 ak Age of the patient 50 Vek = 0 ak Age of the patient < 50 2. Celularita = 1 ak cellularity of marrow
clot section is 100% Celularita = 0 ostatné
Pr.8b: Kaplan-Meierov odhad funkcie prežitia a porovnanie age specific survival curves
Signifikantný rozdiel
podskupiny
Pr.8c: Kaplan-Meierov odhad funkcie prežitia a porovnanie kriviek podľa celularity
Nesignifikantný rozdiel
Bivariačná vs. multivariačná analýza
• K-M estimator – bivariačná analýza• Multivariačná analýza – ako súvisí doba
prežívania s viacerými premennými súčasne (spojitými – napr. vek; kategoriálnymi – pohlavie (dummy variables)
• Multivariačná analýza → Coxov model proporcionálneho rizika (Coxova regresia)
Coxov model proporcionálneho rizika
(typ multivariačnej analýzy)
• umožňuje vyšetriť, ako súvisí doba prežitia T s potenciálnymi prognostickými faktormi (často pri súčasnej adjustácii na tzv. confounders, viď ďalej) Faktory môžu byť kategorické alebo spojité premenné.
• Vychádza z predpokladu pomerného hazardu, teda že podiel funkcií hazardu ľubovoľných dvoch subjektov/skupín je v čase konštantný a závisí teda len na hodnotách nezávislých premenných (prediktorov/rizikových/prognostických faktorov, covariates...) Xi. Ak prognostické faktory nie sú fixné (stále v čase), ako napr. biochemické merania, klesajúci efekt lieku, faktory životného štýlu apod. treba použiť rozšírený Coxov regresný model pre časovo závislé premenné.
• Ak sú predpoklady splnené, dáva Coxov model lepšie odhady prežitia a hazardu, ako Kaplan-Meierova funkcia.
Bivariačná vs. multivariačná analýzaTypy faktorov
A simple statistical mediation model
Confounder - zavádzajúci, mätúci, zahmlievajúci faktor
• typ súbežne pôsobiaceho faktora• premenná, ktorá je asociovaná s rizikovým faktorom
a je nezávislým rizikovým faktorom pre meraný výsledný efekt (koncový ukazovateľ - outcome)
Rizikový
faktor
Efekt
Confounder
• V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora
(často ho ponechávame v modeli, aj keď „nevyjde“ signifikantný)
diabetes
CHD
hypertenzia
Faktor potlačujúci efekt (suppressor)
• Typ súbežne pôsobiaceho faktora• V bivariačnej analýze nezistíme vzťah medzi
expozíciou (napr. rizikovým faktorom) a následkom. Po adjustácii na supresor sa vplyv expozície prejaví.
• Majú predpovedaciu silu bez priamej biologickej súvislosti/mechanizmu s následkom (ochorením)• Socioekonomické, demografické faktory
Zástupný faktor (surrogate, proxy factor)
Faktor modifikujúci účinok (mediating variable, modifier)
• Vzťah expozície/rizikového faktora k výslednému efektu je rôzny pre rôzne úrovne modifikujúceho faktora
• Nemôže byť považovaný za „confounder“
Faktor v príčinnej postupnosti (intervening variable/factor)
• Nachádza sa v príčinnej postupnosti od sledovaného rizikového faktora k výslednému efektu
• Štatisticky neodlíšiteľný od „confoundera“• Pri zisťovaní vplyvu rizikového faktora nemôžeme model
adjustovať na intervenujúcu premennú, pretože by sme tým potlačili alebo úplne odstránili vplyv sledovaného rizikového faktora
Vzájomne korelované faktory(tzv. problém multikolinearity)
Časovo-závislé faktorypri analýzach prežívania je dôležité odlíšiť fixné faktory a faktory meniace sa v čase sledovania ako napr. fyziologické a biochemické charakteristiky, tumor grade, peritumoral vascular invasion, klesajúci efekt lieku, faktory životného štýlu (napr. kumulovaná expozícia pri fajčení)...
Rizikový
faktor
Efekt
Faktor(y) korelujúce s vybraným rizikovým f.
Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale zväčšujú štandardné chyby prediktorov. Pr: LDL a HDL resp. TChol, morfometrické údaje navzájom, vyskytujú sa aj v situácii, ak je druhý faktor len matematický prepočet alebo je to kombinované skóre zahŕňajúce prediktor, ktoré je už v modeli použitý. Obvykle stačí použiť jeden (najdôležitejší/najvýznamnejší).
Cox’s proportional hazards model (Cox regression)
• Vychádza z predpokladu pomerného rizika (proporcionálny hazard) t.j. podiel funkcií hazardu medzi skupinami je v čase konštantný.
• Hazard – riziko úmrtia (alebo výskytu vyšetrovanej udalosti)
• Analógia k viacnásobnej regresii
nnXXn ethXXth ...
0111).(),...,|(
Základný hazard
(baseline hazard)
Nezávislé (vysvetľujúce)
premenné
Regresné koeficienty (parametre)
Cox's (proportional hazards) regression model
• Najčastejší regresný model v analýze prežívania• Lineárny model pre logaritmus pomeru rizík
Výhody:• Nie je potrebné špecifikovať počiatočné riziko• Možnosť testovania vplyvu viacerých
nezávislých premenných (prognostických faktorov) na danú udalosť sledovanú v čase.
2211
)(
)(
0
1 ZBZBeth
th
Predpoklady použitia Coxovho regresného modelu
• pre overenie proporcionality hazardu využívame fakt, že zodpovedajúce kumulatívne riziká, -ln(S(t)), musia byť tiež proporcionálne
• Graficky splnenie predpokladu proporcionality môžeme overiť pomocou transformácie odhadov funkcie prežitia. Ak je predpoklad splnený, potom grafy závislostí -ln(-ln(S(t))) na ln(t) by pre jednotlivé úrovne nezávislej premennej X mali odpovedať približne paralelným priamkam (viď graf na konci – Pr.1d).
• Musia byť overené pre všetky nezávislé premenné Xi
v modeli
Čo znamenajú regresné koeficienty (βj)?
• Ak sa hodnota jednej premennej zmení o jednotku a súčasne hodnoty ostatných premenných ostanú nezmenené, potom je hodnota relatívneho rizika:
• Príslušný koeficient β je teda prirodzený logaritmus pomeru rizík ln(HR) (hazard ratio), keď sa hodnota danej premennej X zväčší o 1 jednotku.• HR interpretujeme podobne ako RR (risk ratio)
HReeeth
eth XXX
X
)1(
...)1(0
...0
)(
)(
Interpretácia regresných koeficientov
• Odhadnutý pomer hazardu (pomer rizík) väčší než 1 znamená, že nezávislý prediktor je spojený so zvýšeným hazardom (rizikom) nastatia študovanej udalosti (podľa definovanej udalosti „riziko“ môže byť pozitívne – vyliečenie).
• Odhadnutý pomer hazardu menší než 1 znamená, že nezávislý prediktor je spojený so zníženým hazardom nastatia študovanej udalosti.
• Odhadnutý pomer hazardu 1, t.j. ak 95%CI zahŕňa jednotku, znamená to, že nezávislý prediktor neovplyvňuje hazard.
• Hodnota nezávislej premennej X sa u dvoch pacientov alebo skupín líši o jednotku:
beXth
Xth
)|(
)1|(
• Ak by X bolo pohlavie x = 0 (muži), x = 1 (ženy) a odhad parametra β: b = 0,34, potom platí, že eb = 1,40 = HR. To znamená, že u žien je v každom okamihu riziko sledovanej udalosti o 40% vyššie ako u mužov.
• Poznámka: treba vždy vzťahovať na použité kódovanie kategorických premenných a mierku danej premennej (napr. vek môže byť v rokoch alebo dekádach)!
Interpretácia regresných koeficientov
Príklad výstupnej tabuľky
Komentár je v poznámkach
Na hranici významnostiInterval spoľahlivosti
zahŕňa jednotku
Vek je významný prognostický faktor
HR
Analýza regresného modeluTestovanie významnosti
• Waldov test
• Test pomeru vierohodností (Likelihood ratio test)
(druhý je preferovaný, ale často sú rozdiely medzi nimi malé)
Pripomenutie: Pr.8a: Čas prežitia 30 pacientov s akútnou myeloidnou
leukémiou (AML)
Dva možné prognostické faktory (schématicky):
1.Vek = 1 ak Age of the patient 50 Vek = 0 ak Age of the patient < 50 2. Celularita = 1 ak cellularity of marrow
clot section is 100% Celularita = 0 ostatné
Pr.8c: Comparing the survival curves by Age Groups after Adjusting Cellularity
Vyšší vek je významný rizikový faktor!
Celularita nevplýva významne na prežívanie (95%CI zahŕňa jednotku – tu však údaj chýba. Nemal by )
Pr.8d: Comparing the survival curves by Cellularity Groups after Adjusting Age
Výstup analýzy hazardu je TEN ISTÝ!Líši sa len grafická stratifikácia
Analýza dát z Pr.1a:
Krivky odhadov proporcie neúspešnej liečby pacientov s AMV mozgu po zákroku „stereotaktická rádiochirurgia“ s ohľadom na prognostický faktor „predchádzajúca embolizácia“.Počet pacientov: 56, max. dĺžka sledovania: 6 rokov výstup: obliterácia AVM ~ úspech
Dôležitá poznámka! tu sa ako koncová udalosť nesledovalo úmrtie (death), ale vyliečenie. Preto sa označenia „ Survival function S“ a „Survival probability/rate“ vzťahujú na „Pravdepodobnosť nevyliečenia“. Obdobne kumulatívny hazard H tu nie je „riziko úmrtia“, ale „šanca vyliečenia“!
Pr.1b: príklad overenia charakteristík zvolených podskupín („embolizovaní“ a „neembolizovaní“)
Počiatočný objem AVM
0 5 10 15 20 25
Embolizácia_Nie
Embolizácia_Áno
min -[ lower quartile - median - upper quartile ]- max
Počiatočný objem sa v podskupinách líšil, aj keď významne nesúvisel s koncovým efektom (vyliečenie). Napriek tomu je adjustácia doporučená.
0 2 4 60,00
0,25
0,50
0,75
1,00Survival Probability (individual)
Time (years)
Embolizácia NIE
Embolizácia ÁNO
Pr.1c: Coxov model pre „Pravdepodobnosť nevyliečenia“ (analógia k „survival
probability“) po adjustácii na objem AVM
Pr.1d: Overenie proporcionality rizika (t.j. „šancí“) v podskupinách
0,0 0,5 1,0 1,5 2,0-1
0
1
2-log(-log(Survival))
log(Time)
Embolizácia NIE
Embolizácia ÁNO
Referencie
1. Collett: Modelling Survival Data in Medical Research. Chapman & Hall/CRC, 2003.
2. Zvárová J., Malý M. a kol.: Statistické metody v epidemiologii I a II. Praha, Karolinum, 2003.
3. Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001.
4. Motulsky H.J., Christopoulos A.: Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003
5. Kleinbaum D.G., Klein M.: Survival Analysis; Logistic Regression
Ďakujeme za pozornosť