Analýza prežívania, Kaplan-Meierove krivky a Coxova regresia

Preview:

DESCRIPTION

Analýza prežívania, Kaplan-Meierove krivky a Coxova regresia. Iveta Waczulíková Peter Slezák. Analýza prežívania ( survival analysis ). Študuje rozdelenie doby (času) medzi dvoma udalosťami (v živote pacienta) - PowerPoint PPT Presentation

Citation preview

Analýza prežívania, Kaplan-Meierove krivky

a Coxova regresia

Iveta Waczulíková

Peter Slezák

Analýza prežívania (survival analysis)

• Študuje rozdelenie doby (času) medzi dvoma udalosťami (v živote pacienta)

• Vstupná udalosť: narodenie, čas diagnostikovania, začiatok liečby, expozícia rizikovému faktoru...

• Koncová udalosť: úmrtie, vyliečenie, relaps, prepustenie z nemocnice...

• Doba prežitia (survival time) je doba medzi oboma udalosťami, napr: – čas do úmrtia– čas do prepuknutia ochorenia / relapsu– dĺžka hospitalizácie– čas do vyliečenia ochorenia...

Formát dát – Pr.1aDáta časov a možných prognostických faktorov

vybraných 7 pacientov s AMV mozguvstup: stereotaktická rádiochirurgia

výstup: obliterácia ~ úspech

sledovanie/m obliterácia/m status embolizácia objem AVM T dávka/Gy77 77 ÚSPECH NIE 5,4 1830 18 ÚSPECH ÁNO 21,8 1672 CENZOR NIE 2,9 1730 6 ÚSPECH NIE 1,5 1960 48 ÚSPECH NIE 12,1 1842 CENZOR ÁNO 2,5 2012 EXITUS NIE 7,5 18

Analytik pracuje so „zaslepenou“ databázou

Kódovanie pre „status“ v programe StatsDirect:

* Cenzurovanie = 0 pre nekompletné dáta Cenzurovanie = 1 pre kompletné dáta (udalosť)

Príklad dát pacientov

1

2

3

4

5

6

7

1990 1995 2000 2005 6/2008

Zo zdravotných záznamov pacientov

Pac

ien

t

AVM trvásledovaná udalosť úspech (vyliečenie)iná ako sledovaná udalosť (úmrtie...)

? audi

t

?

?

Obdobie štúdie 1990-2008, v tomto období výber pacientovsplňujúcich vstupné kritériá pre zákrok a ich ďalšie sledovanie

1

2

3

4

5

6

7

0 5 10 15

Časové dáta

Pac

ien

t

?

AVM trváúspechúmrtie...

Roky od zákroku

Príklad dát pacientov

cenzurovanie

cenzurovanie

chýbajúci údaj

(cenzurovanie)

Údaje do databázy – počiatok času sledovania je vstupná udalosť(napr. tu zákrok)

• sprava– pozorovaný čas prežitia je

kratší než skutočný– štúdia končí pred

nastatím udalosti

• zľava• intervalové

Typy cenzurovania

Typy cenzurovania

• sprava• zľava

– Čas do relapsu

– Čas do udalosti je kratší (alebo rovný) než čas pozorovaný t < 3 (t ≤ tobs)

• intervalové

zákrok

0

rekurencia

3 mes.vyšetrenie

t

• sprava• zľava • intervalové

– Čas do relapsu

– 3 < t < 6

zákrok

0

bez ochorenia

3 mes.1.vyšetrenie

t

rekurencia

6 mes.2. vyšetrenie

Typy cenzurovania

Funkcia prežívania (survival function)

Funkcia prežívania S(t) je pravdepodobnosť prežitia T dlhšieho, než je čas t.

S(t) = P(T>t)

kde T je čas prežitia.

Ŝ(t)= počet pacientov, ktorí prežili dlhšie než t celkový počet pacientov v štúdii

Čas prežitia je nezávislý na procese cenzurovania (je možné overiť).

Cenzurovaný pacient je reprezentatívny pre skupinu pacientov v riziku (at risk) v čase cenzurovania – má tie isté vyhliadky na prežitie, ako pacienti, ktorí ostali v sledovaní (nie je možné testovať, predpokladáme).

Vyhliadky na prežitie sú rovnaké pre pacientov s včasným aj neskorým zaradením do sledovania (je možné overiť).

Ak je najdlhšie pozorovanie necenzurované (teda ak udalosť NASTALA), odhad S je v tomto čase rovný NULE.

Predpoklady odhadu funkcie prežívania

Odhady funkcie prežívania

• Kaplan-Meierov odhad - krivku prežitia odhadujeme v každom časovom okamihu, v ktorom nastala aspoň jedna udalosť a je konštantná v celom intervale, až po nasledujúci čas výskytu udalosti

- je najpoužívanejší- Life tables

K-M estimator

Survival Plot (PL estimates)

0 50 100 150 2000,00

0,25

0,50

0,75

1,00

Survivor

Times

• nekonštantná šírka jednotlivých časových intervalov

Funkcia hazardu

Funkciu hazardu môžeme chápať ako pravdepodobnosť OKAMŽITÉHO hazardu/udalosti v čase t za predpokladu, že subjekt prežil do času t. V tomto zmysle je funkcia hazardu h(t) mierou rizika.

Obvykle je do tabuľky a/alebo grafu vynesený hazard kumulovaný do času t, tzv. kumulatívna funkcia hazardu.

H(t) = -ln (S(t))

Pr.2: Časy prežitia štyroch pacientov sú: 10, 20, 35 a 40 mes. Odhad funkcie prežívania:

0

0,2

0,4

0,6

0,8

1

0 10 20 30 40 50

Month

% S

urv

ivin

g

0

0,2

0,4

0,6

0,8

1

0 10 20 30 40 50

Month

% S

urv

ivin

gPr.3: Časy prežitia štyroch pacientov sú: 10, 15+, 35 a 40 mes. Odhad funkcie prežívania:

+ je cenzurovaný údaj

Výstup k Pr.2 a Pr.3:

Pr. 2: Kaplan-Meier survival estimatesTime At risk Dead Censored S SE(S) H SE(H)10 4 1 0 0,75 0,217 0,288 0,28915 3 0 1 0,75 0,217 0,288 0,28935 2 1 0 0,375 0,286 0,981 0,76440 1 1 0 0 * infinity *

Median survival time = 35•Andersen 95% CI for median survival time = 5,061056 to 64,938944•Brookmeyer-Crowley 95% CI for median survival time = 10 to 35Mean survival time (95% CI) = 30,625 (15,982804 to 45,267196)

Pr. 1: Kaplan-Meier survival estimatesTime At risk Dead Censored S SE(S) H SE(H)10 4 1 0 0,75 0,217 0,288 0,28920 3 1 0 0,5 0,25 0,693 0,535 2 1 0 0,25 0,217 1,386 0,86640 1 1 0 0 * infinity *

Median survival time = 20•Andersen 95% CI for median survival time = -4,49955 to 44,49955•Brookmeyer-Crowley 95% CI for median survival time = 10 to 35Mean survival time (95% CI) = 26,25 (12,7567 to 39,7433)

H = -ln (S)

Survival Plot (PL estimates)

0 50 100 150 2000,00

0,25

0,50

0,75

1,00

Survivor

Times

Median survival time = 79 monthsAndersen 95% CI = 37,79 to 120,21 ! Brookmeyer-Crowley 95% CI = 42 to 169

Nespoľahlivý odhad v druhej časti krivky Dôvod – málo „events“ (krúžky), veľa cenzurovaných dát (čiarky)

Pr.4

Survival Plot (PL estimates)

0 50 100 1500,00

0,25

0,50

0,75

1,00

Survivor

Times

Median survival time = 22 monthsAndersen 95% CI = 16,11 to 27,89 Brookmeyer-Crowley 95% CI = 15 to 26

Dostatočne spoľahlivý odhad v tejto časti krivky

Pr.5

Pr.6: Dve rozdielne krivky prežitia

Tieto dve krivky majú rovnaké % 5-ročného prežitia, ich interpretácia je však podstatne rozdielna. Výber

preferovaného terapeutického prístupu bude posudzovaný subjektívne.

Pr.7: Dve rozdielne krivky prežitia

Tieto dve krivky nemajú v žiadnom čase rovnaké % prežitia, ich interpretácia sa líši len vo veľkosti. Voľba

preferovaného terapeutického prístupu bude jednoduchá.

Porovnanie kriviek prežívaniaTestovanie významnosti

• Logrank test• Nulová hypotéza: riziko úmrtia (udalosti) je

rovnaké pre všetky skupiny. P < 0,05 indikuje rozdiel medzi (najčastejšie dvoma) krivkami prežívania

• Prentice modified Wilcoxon test je citlivejší, ak je pomer hazardu (HR) vyšší pre včasné fázy času prežitia. Inak:

• Peto's log-rank test • Trend test (varianta logrank testu pre viac ako tri

krivky).

Pr.8a: Čas prežitia 30 pacientov s akútnou myeloidnou leukémiou

(AML)

Dva možné prognostické faktory:

1.Vek = 1 ak Age of the patient 50 Vek = 0 ak Age of the patient < 50 2. Celularita = 1 ak cellularity of marrow

clot section is 100% Celularita = 0 ostatné

Pr.8b: Kaplan-Meierov odhad funkcie prežitia a porovnanie age specific survival curves

Signifikantný rozdiel

podskupiny

Pr.8c: Kaplan-Meierov odhad funkcie prežitia a porovnanie kriviek podľa celularity

Nesignifikantný rozdiel

Bivariačná vs. multivariačná analýza

• K-M estimator – bivariačná analýza• Multivariačná analýza – ako súvisí doba

prežívania s viacerými premennými súčasne (spojitými – napr. vek; kategoriálnymi – pohlavie (dummy variables)

• Multivariačná analýza → Coxov model proporcionálneho rizika (Coxova regresia)

Coxov model proporcionálneho rizika

(typ multivariačnej analýzy)

• umožňuje vyšetriť, ako súvisí doba prežitia T s potenciálnymi prognostickými faktormi (často pri súčasnej adjustácii na tzv. confounders, viď ďalej) Faktory môžu byť kategorické alebo spojité premenné.

• Vychádza z predpokladu pomerného hazardu, teda že podiel funkcií hazardu ľubovoľných dvoch subjektov/skupín je v čase konštantný a závisí teda len na hodnotách nezávislých premenných (prediktorov/rizikových/prognostických faktorov, covariates...) Xi. Ak prognostické faktory nie sú fixné (stále v čase), ako napr. biochemické merania, klesajúci efekt lieku, faktory životného štýlu apod. treba použiť rozšírený Coxov regresný model pre časovo závislé premenné.

• Ak sú predpoklady splnené, dáva Coxov model lepšie odhady prežitia a hazardu, ako Kaplan-Meierova funkcia.

Bivariačná vs. multivariačná analýzaTypy faktorov

A simple statistical mediation model

Confounder - zavádzajúci, mätúci, zahmlievajúci faktor

• typ súbežne pôsobiaceho faktora• premenná, ktorá je asociovaná s rizikovým faktorom

a je nezávislým rizikovým faktorom pre meraný výsledný efekt (koncový ukazovateľ - outcome)

Rizikový

faktor

Efekt

Confounder

• V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora

(často ho ponechávame v modeli, aj keď „nevyjde“ signifikantný)

diabetes

CHD

hypertenzia

Faktor potlačujúci efekt (suppressor)

• Typ súbežne pôsobiaceho faktora• V bivariačnej analýze nezistíme vzťah medzi

expozíciou (napr. rizikovým faktorom) a následkom. Po adjustácii na supresor sa vplyv expozície prejaví.

• Majú predpovedaciu silu bez priamej biologickej súvislosti/mechanizmu s následkom (ochorením)• Socioekonomické, demografické faktory

Zástupný faktor (surrogate, proxy factor)

Faktor modifikujúci účinok (mediating variable, modifier)

• Vzťah expozície/rizikového faktora k výslednému efektu je rôzny pre rôzne úrovne modifikujúceho faktora

• Nemôže byť považovaný za „confounder“

Faktor v príčinnej postupnosti (intervening variable/factor)

• Nachádza sa v príčinnej postupnosti od sledovaného rizikového faktora k výslednému efektu

• Štatisticky neodlíšiteľný od „confoundera“• Pri zisťovaní vplyvu rizikového faktora nemôžeme model

adjustovať na intervenujúcu premennú, pretože by sme tým potlačili alebo úplne odstránili vplyv sledovaného rizikového faktora

Vzájomne korelované faktory(tzv. problém multikolinearity)

Časovo-závislé faktorypri analýzach prežívania je dôležité odlíšiť fixné faktory a faktory meniace sa v čase sledovania ako napr. fyziologické a biochemické charakteristiky, tumor grade, peritumoral vascular invasion, klesajúci efekt lieku, faktory životného štýlu (napr. kumulovaná expozícia pri fajčení)...

Rizikový

faktor

Efekt

Faktor(y) korelujúce s vybraným rizikovým f.

Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale zväčšujú štandardné chyby prediktorov. Pr: LDL a HDL resp. TChol, morfometrické údaje navzájom, vyskytujú sa aj v situácii, ak je druhý faktor len matematický prepočet alebo je to kombinované skóre zahŕňajúce prediktor, ktoré je už v modeli použitý. Obvykle stačí použiť jeden (najdôležitejší/najvýznamnejší).

Cox’s proportional hazards model (Cox regression)

• Vychádza z predpokladu pomerného rizika (proporcionálny hazard) t.j. podiel funkcií hazardu medzi skupinami je v čase konštantný.

• Hazard – riziko úmrtia (alebo výskytu vyšetrovanej udalosti)

• Analógia k viacnásobnej regresii

nnXXn ethXXth ...

0111).(),...,|(

Základný hazard

(baseline hazard)

Nezávislé (vysvetľujúce)

premenné

Regresné koeficienty (parametre)

Cox's (proportional hazards) regression model

• Najčastejší regresný model v analýze prežívania• Lineárny model pre logaritmus pomeru rizík

Výhody:• Nie je potrebné špecifikovať počiatočné riziko• Možnosť testovania vplyvu viacerých

nezávislých premenných (prognostických faktorov) na danú udalosť sledovanú v čase.

2211

)(

)(

0

1 ZBZBeth

th

Predpoklady použitia Coxovho regresného modelu

• pre overenie proporcionality hazardu využívame fakt, že zodpovedajúce kumulatívne riziká, -ln(S(t)), musia byť tiež proporcionálne

• Graficky splnenie predpokladu proporcionality môžeme overiť pomocou transformácie odhadov funkcie prežitia. Ak je predpoklad splnený, potom grafy závislostí -ln(-ln(S(t))) na ln(t) by pre jednotlivé úrovne nezávislej premennej X mali odpovedať približne paralelným priamkam (viď graf na konci – Pr.1d).

• Musia byť overené pre všetky nezávislé premenné Xi

v modeli

Čo znamenajú regresné koeficienty (βj)?

• Ak sa hodnota jednej premennej zmení o jednotku a súčasne hodnoty ostatných premenných ostanú nezmenené, potom je hodnota relatívneho rizika:

• Príslušný koeficient β je teda prirodzený logaritmus pomeru rizík ln(HR) (hazard ratio), keď sa hodnota danej premennej X zväčší o 1 jednotku.• HR interpretujeme podobne ako RR (risk ratio)

HReeeth

eth XXX

X

)1(

...)1(0

...0

)(

)(

Interpretácia regresných koeficientov

• Odhadnutý pomer hazardu (pomer rizík) väčší než 1 znamená, že nezávislý prediktor je spojený so zvýšeným hazardom (rizikom) nastatia študovanej udalosti (podľa definovanej udalosti „riziko“ môže byť pozitívne – vyliečenie).

• Odhadnutý pomer hazardu menší než 1 znamená, že nezávislý prediktor je spojený so zníženým hazardom nastatia študovanej udalosti.

• Odhadnutý pomer hazardu 1, t.j. ak 95%CI zahŕňa jednotku, znamená to, že nezávislý prediktor neovplyvňuje hazard.

• Hodnota nezávislej premennej X sa u dvoch pacientov alebo skupín líši o jednotku:

beXth

Xth

)|(

)1|(

• Ak by X bolo pohlavie x = 0 (muži), x = 1 (ženy) a odhad parametra β: b = 0,34, potom platí, že eb = 1,40 = HR. To znamená, že u žien je v každom okamihu riziko sledovanej udalosti o 40% vyššie ako u mužov.

• Poznámka: treba vždy vzťahovať na použité kódovanie kategorických premenných a mierku danej premennej (napr. vek môže byť v rokoch alebo dekádach)!

Interpretácia regresných koeficientov

Príklad výstupnej tabuľky

Komentár je v poznámkach

Na hranici významnostiInterval spoľahlivosti

zahŕňa jednotku

Vek je významný prognostický faktor

HR

Analýza regresného modeluTestovanie významnosti

• Waldov test

• Test pomeru vierohodností (Likelihood ratio test)

(druhý je preferovaný, ale často sú rozdiely medzi nimi malé)

Pripomenutie: Pr.8a: Čas prežitia 30 pacientov s akútnou myeloidnou

leukémiou (AML)

Dva možné prognostické faktory (schématicky):

1.Vek = 1 ak Age of the patient 50 Vek = 0 ak Age of the patient < 50 2. Celularita = 1 ak cellularity of marrow

clot section is 100% Celularita = 0 ostatné

Pr.8c: Comparing the survival curves by Age Groups after Adjusting Cellularity

Vyšší vek je významný rizikový faktor!

Celularita nevplýva významne na prežívanie (95%CI zahŕňa jednotku – tu však údaj chýba. Nemal by )

Pr.8d: Comparing the survival curves by Cellularity Groups after Adjusting Age

Výstup analýzy hazardu je TEN ISTÝ!Líši sa len grafická stratifikácia

Analýza dát z Pr.1a:

Krivky odhadov proporcie neúspešnej liečby pacientov s AMV mozgu po zákroku „stereotaktická rádiochirurgia“ s ohľadom na prognostický faktor „predchádzajúca embolizácia“.Počet pacientov: 56, max. dĺžka sledovania: 6 rokov výstup: obliterácia AVM ~ úspech

Dôležitá poznámka! tu sa ako koncová udalosť nesledovalo úmrtie (death), ale vyliečenie. Preto sa označenia „ Survival function S“ a „Survival probability/rate“ vzťahujú na „Pravdepodobnosť nevyliečenia“. Obdobne kumulatívny hazard H tu nie je „riziko úmrtia“, ale „šanca vyliečenia“!

Pr.1b: príklad overenia charakteristík zvolených podskupín („embolizovaní“ a „neembolizovaní“)

Počiatočný objem AVM

0 5 10 15 20 25

Embolizácia_Nie

Embolizácia_Áno

min -[ lower quartile - median - upper quartile ]- max

Počiatočný objem sa v podskupinách líšil, aj keď významne nesúvisel s koncovým efektom (vyliečenie). Napriek tomu je adjustácia doporučená.

0 2 4 60,00

0,25

0,50

0,75

1,00Survival Probability (individual)

Time (years)

Embolizácia NIE

Embolizácia ÁNO

Pr.1c: Coxov model pre „Pravdepodobnosť nevyliečenia“ (analógia k „survival

probability“) po adjustácii na objem AVM

Pr.1d: Overenie proporcionality rizika (t.j. „šancí“) v podskupinách

0,0 0,5 1,0 1,5 2,0-1

0

1

2-log(-log(Survival))

log(Time)

Embolizácia NIE

Embolizácia ÁNO

Referencie

1. Collett: Modelling Survival Data in Medical Research. Chapman & Hall/CRC, 2003.

2. Zvárová J., Malý M. a kol.: Statistické metody v epidemiologii I a II. Praha, Karolinum, 2003.

3. Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001.

4. Motulsky H.J., Christopoulos A.: Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003

5. Kleinbaum D.G., Klein M.: Survival Analysis; Logistic Regression

Ďakujeme za pozornosť

Recommended