83
DIKTAT KULIAH ANALISIS DATA SURVIVAL Disusun oleh: Dr. Danardono, MPH. PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA Februari 2012

Survival 2011b

Embed Size (px)

DESCRIPTION

pengantar survival

Citation preview

Page 1: Survival 2011b

DIKTAT KULIAH

ANALISIS DATA SURVIVAL

Disusun oleh:Dr. Danardono, MPH.

PROGRAM STUDI STATISTIKAJURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAMUNIVERSITAS GADJAH MADA

Februari 2012

Page 2: Survival 2011b

Daftar Isi

Daftar Isi iii

Daftar Gambar iv

Daftar Tabel v

Kata Pengantar v

1 Pendahuluan 11.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Data dan Variabel Random Survival . . . . . . . . . . . . . . . . 11.3 Data tersensor dan terpotong . . . . . . . . . . . . . . . . . . . . 31.4 Latihan Bab 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Fungsi dan Kuantitas Dasar 102.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 102.2 Fungsi Survival dan Hazard . . . . . . . . . . . . . . . . . . . . . 102.3 Hubungan antar Fungsi . . . . . . . . . . . . . . . . . . . . . . . 132.4 Survival Diskrit . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.5 Latihan Bab 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Metode Parametrik 193.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Beberapa distribusi parametrik . . . . . . . . . . . . . . . . . . . 19

3.2.1 Distribusi Eksponensial . . . . . . . . . . . . . . . . . . 193.2.2 Distribusi Weibull . . . . . . . . . . . . . . . . . . . . . 223.2.3 Distribusi Gamma . . . . . . . . . . . . . . . . . . . . . 223.2.4 Distribusi Log-normal . . . . . . . . . . . . . . . . . . . 253.2.5 Distribusi Gompertz-Makeham . . . . . . . . . . . . . . . 273.2.6 Distribusi Log-logistik . . . . . . . . . . . . . . . . . . . 28

3.3 Estimasi parameter . . . . . . . . . . . . . . . . . . . . . . . . . 28

ii

Page 3: Survival 2011b

Daftar Isi iii

3.4 Latihan Bab 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 Metode Non-parametrik dan Uji-LogRank 354.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 354.2 Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3 Nelson-Aalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.4 Membandingkan Dua Fungsi Survival . . . . . . . . . . . . . . . 414.5 Latihan Bab 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5 Model Regresi Parametrik 455.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 455.2 Variabel Independen dalam Model . . . . . . . . . . . . . . . . . 455.3 Model Regresi Parametrik . . . . . . . . . . . . . . . . . . . . . 465.4 Model Non-Parametrik dan Semi-Parametrik . . . . . . . . . . .505.5 Model AFT log-linear . . . . . . . . . . . . . . . . . . . . . . . . 505.6 Model Regresi Eksponensial . . . . . . . . . . . . . . . . . . . . 525.7 Model Regresi Weibull . . . . . . . . . . . . . . . . . . . . . . . 535.8 Model Regresi Log-normal . . . . . . . . . . . . . . . . . . . . . 545.9 Model Regresi Log-logistik . . . . . . . . . . . . . . . . . . . . . 555.10 Identifikasi Model . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.10.1 Menggunakan Probability-Plot . . . . . . . . . . . . . . . 565.10.2 Menggunakan Hazard-Plot . . . . . . . . . . . . . . . . . 57

5.11 Latihan Bab 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6 Regresi Cox 606.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 606.2 Model dan Asumsi . . . . . . . . . . . . . . . . . . . . . . . . . 606.3 Estimasi parameter . . . . . . . . . . . . . . . . . . . . . . . . . 626.4 TiesdalamPartial Likelihood . . . . . . . . . . . . . . . . . . . . 676.5 Interpretasi Parameter . . . . . . . . . . . . . . . . . . . . . . . . 676.6 Stratifikasi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 686.7 Inferensi Parameter Regresi Cox . . . . . . . . . . . . . . . . . . 686.8 Latihan Bab 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Page 4: Survival 2011b

Daftar Gambar

1.1 Representasi data survival . . . . . . . . . . . . . . . . . . . . . . 21.2 Alternatif representasi data survival . . . . . . . . . . . . . .. . 31.3 Data tersensor (censored) dan terpotong (truncated) . . . . . . . . 5

2.1 Fungsi Survival . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Fungsi Hazard . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1 Kurva survival dua model eksponensial yang berbeda . . . .. . . 213.2 Kurva hazard dua model eksponensial yang berbeda . . . . . .. . 213.3 Kurva survival untuk beberapa model Weibull . . . . . . . . . .. 233.4 Kurva hazard untuk beberapa model Weibull . . . . . . . . . . . .233.5 Kurva hazard untuk beberapa model Gamma . . . . . . . . . . . . 243.6 Kurva hazard untuk beberapa model Gamma . . . . . . . . . . . . 253.7 Kurva hazard untuk beberapa model lognormal . . . . . . . . . .263.8 Kurva hazard untuk beberapa model lognormal . . . . . . . . . .263.9 Nilai MLE dan log-likelihood pada Contoh 3.5. . . . . . . . . . .33

4.1 Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen . . 374.2 Grafik estimasi Kaplan-Meier Contoh 4.1 . . . . . . . . . . . . . 384.3 Grafik estimasi Nelson-Aalen Contoh 4.2 . . . . . . . . . . . . . 404.4 Plot Kaplan-Meier untuk terapi dan placebo . . . . . . . . . . .. 40

5.1 Plot Fungsi Survival AFT Eksponensial . . . . . . . . . . . . . . 485.2 Plot Fungsi Hazard AFT Eksponensial . . . . . . . . . . . . . . . 48

6.1 Kurva hazard untuk dua grup atau individu yang berbeda . .. . . 616.2 Baseline hazard dan kurva hazard untuk dua grup yang berbeda . 636.3 Ilustrasi untuk Partial Likelihood Data Tabel 6.6 . . . . .. . . . . 646.4 Fungsi Partial Likelihood (6.7) . . . . . . . . . . . . . . . . . . . 656.5 Plot estimasi kurva survival Model (6.24) . . . . . . . . . . . .. 72

iv

Page 5: Survival 2011b

Daftar Tabel

1.1 Relapse pasien leukemia . . . . . . . . . . . . . . . . . . . . . . 61.2 Lama waktu sampai rusaknya komponen elektrik . . . . . . . . .61.3 Deskripsi variabel studi tentang penyapihan . . . . . . . . .. . . 71.4 Lama kambuh pasien leukemia dan tes AG . . . . . . . . . . . . . 8

4.1 Tabel Estimasi Kaplan-Meier Contoh 4.1 . . . . . . . . . . . . . . 374.2 Tabel estimasi Nelson-Aalen untukH(t) danS(t) Contoh 4.2 . . 394.3 Estimasi Kaplan-Meier untuk Kelompok Placebo . . . . . . . .. 414.4 Penghitungan untuk Uji log-rank . . . . . . . . . . . . . . . . . . 43

5.1 DistribusiT danǫ dalam AFT log-linear . . . . . . . . . . . . . . 515.2 Estimasi Parameter Model (5.18) . . . . . . . . . . . . . . . . . . 525.3 Estimasi Parameter Model (5.24) . . . . . . . . . . . . . . . . . . 545.4 Identifikasi Distribusi . . . . . . . . . . . . . . . . . . . . . . . . 565.5 Data Soal 5.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.6 Data Soal 5.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.1 Contoh data survival untuk ilustrasi Partial Likelihood. . . . . . 636.2 Uji Likelihood Ratio Model (6.21) . . . . . . . . . . . . . . . . . 706.3 Uji Likelihood Ratio Model (6.23) . . . . . . . . . . . . . . . . . 716.4 Estimasi parameterβ Model (6.23) . . . . . . . . . . . . . . . . . 71

v

Page 6: Survival 2011b

Kata Pengantar

MatakuliahAnalisis Data Survival (2 sks) merupakan matakuliah wajib minatuntuk minat Biostatistika dan minat Aktuaria pada program studi Statistika Ju-rusan Matematika FMIPA UGM. Matakuliah ini dapat diambil setelah mahasiswamengetahui dan memahami dasar serta teknik metode statistik secara umum danmampu melakukan analisis statistik dengan beberapa metodetertentu.

Matakuliah ini merupakan gabungan dua matakuliah pada kurikulum 2006yang isinya dipandang beririsan cukup banyak yaituPengantar Uji Hidup danPengantar Analisis Antar Kejadian. Pengantar Uji Hidup lebih menekankanaspek inferensi univariat dan pembandingan kelompok populasi data lama hidup(survival) dengan pendekatan parametrik. Pengantar Analisis Antar Kejadian le-bih menekankan aspek lebih umum dari data survival, dengan pendekatan para-metrik dan semi parametrik untuk data univariat maupun model-model regresi.

Dalam kurikulum 2011, kedua matakuliah tersebut digabung dan berubah na-ma menjadi Analisis Data Survival, dengan alasan nama ini lebih populer digu-nakan dalam silabus kuliah yang mengarah ke Biostatistika maupun Aktuaria. Se-lain itu, materi dalam matakuliah ini disesuaikan dengan kompetensi yang ingindicapai pada kedua minat tersebut. Baik minat Biostatistika dan Aktuaria me-mandang event atau kejadian seperti misalnya kematian, kesakitan, kecelakaan,bencana, dst., sebagai hal penting yang menjadi perhatian.Pemodelan dan tek-nik analisis data untuk variabel semacam itu, yang secara umum dinamakandatasurvival (data durasi,time-to-eventdata), adalah tema sentral matakuliah ini.

Terkait pengembangannya, untuk minat Biostatistika, pemodelan faktor resi-ko data survival akan lebih menjadi perhatian. Sedangkan untuk minat Aktuaria,model survival akan menjadi dasar dalam penyusunan tabel mortalitas, tabel mor-biditas serta penghitungan aktuaria terkait penentuan premi. Selain itu, dalamkuliah ini juga tidak menutup kemungkinan memberi contoh fenomena lain ter-kait data survival, seperti misalnya data dalam bidang ilmurekayasa, sosial danekonomi.

Kuliah Analisis Data Survival disertai dengan kuliah Praktikum Analisis DataSurvival (1 sks) yang diharapkan dapat lebih menambah pemahaman dan kom-

vi

Page 7: Survival 2011b

vii

petensi terutama dalam aspek praktis dan komputasinya. Beberapa contoh danlatihan soal dalam diktat ini diharapkan dapat dicoba dalamkuliah Praktikum.

Diktat ini disusun berdasarkan catatan, tayangan kuliah serta referensi tentangAnalisis Data Survival. Sebagai edisi pertama Diktat tentang Analisis Data Su-rvival, tentu masih banyak kekurangan dan kesalahan dalam diktat ini. Untuk itusaran dan kritik dari pembaca dan pengguna sangat diharapkan.

Akhir kata penulis mengucapkan terima kasih kepada segala pihak yang te-lah mendukung penulisan diktat ini, terutama kepada Jurusan Matematika FMIPAUGM yang telah memberi hibah penulisan diktat ini.

Penulis,

Dr. Danardono, MPH.

Page 8: Survival 2011b

1Pendahuluan

1.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Menjelaskan pengertian data survival atau data antar kejadian (time-to-eventdata) beserta contohnya

2. Menjelaskan pengertian data tersensor dan terpotong beserta contohnya

3. Menjelaskan tujuan dan arah analisis data survival

4. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitandengan Tu-juan umum pembelajaran, metode dan proses pembelajaran, penilaian dansumber referensi

5. Mengidentifikasi kuliah lain yang terkait dengan analisis data survival

1.2 Data dan Variabel Random Survival

Data survival adalah lama waktu sampai suatu peristiwa terjadi ataudata antarkejadian (time-to-event data). Dalam beberapa bidang ilmu digunakan istilah du-rasi (durational data) misalnya di bidang ekonomi. Di bidang ilmu perekayasaansering disebut data waktu kerusakan (failure time data). Dalam ilmu sosial digu-nakan istilahevent history data. Istilah data survival sendiri banyak digunakandalam bidang ilmu kesehatan, epidemiologi, demografi dan aktuaria.

Untuk memperoleh data survival, diperlukan tiga komponen yang harus terde-finisikan dengan jelas terkait fenomena yang menjadi perhatian, yaitu:

1. Definisievent/peristiwa yang menjadi perhatian;

1

Page 9: Survival 2011b

1.2. Data dan Variabel Random Survival 2

waktu0 t

origin event

Gambar 1.1: Representasi data survival

2. Titik asal (origin) yang digunakan untuk mengukur lama waktu sampai su-atueventterjadi;

3. Unit pengukuran yang digunakan

Contoh 1.1Misalkan fenomena yang menjadi perhatian adalah mortalitas. Dalam contoh inievent di-definisikan sebagai saat meninggalnya seseorang, apabila ditentukan sebagaiorigin ada-lah saat kelahiran, maka data survival nya adalah usia kematian, misalnya dalam satuantahun.

Tidak selalueventyang menjadi perhatian adalah sesuatu yangterminate, ya-itu event yang hanya sekali saja terjadi dan berhenti, seperti misalnya kematian.Eventjuga dapat berupa status (state) yang lebih umum, seperti misalnya statussakit, status pekerjaan, dst.

Contoh 1.2Misalkan data survival yang menjadi perhatian adalah lama waktu mulai terapi pertamakali diberikan kepada penderita leukemia sampai kambuh kembali, dalam satuan minggu.Dalam contoh inieventdapat berulang (kambuh) dan bukan sesuatu yang berhenti danhanya sekali terjadi.

Data survival sering diilustrasikan seperti gambar batang”korek api” (Gam-bar 1.1) dengan bulatan hitam adalaheventdan garis lurus horizontal adalah lamawaktu sampai terjadinyaevent. Apabila event dipandang sebagai status (state)yang berubah menurut waktu, dan kadang melibatkan lebih dari satu status, ma-ka dapat digunakan representasi data survival seperti padaGambar 1.2. Dalampengembangannya data survival dapat memuat informasi lebih dari satu status,sehingga gambaran status yang berbeda terhadap berubahnyawaktu dapat ditun-jukkan dari sumbuY yang nilainya berbeda, atau dari jenis garis horizontalnya,misalnya garis biasa, garis tebal, dan seterusnya.

Data survival merupakan realisasi dari suatu variabel random survival, yaitusuatu variabel random non-negatif,T , yang menjadi dasar pembentukan model

Page 10: Survival 2011b

1.3. Data tersensor dan terpotong 3

(a) Nilai pada ordinat sebagai representasi status

0 twaktu

1

2

(b) Jenis garis sebagai representasi status

0 twaktu

Gambar 1.2: Alternatif representasi data survival

dan metode dalam analisis data survival. Untuk menuliskan suatu nilaiT terten-tu digunakan lambangt. MisalkanT adalah lama waktu sampai seorang pasienleukemia kambuh kembali (Contoh 1.2), maka pernyataan ”lamawaktu kambuhkembali lebih dari 5 minggu” dapat dituliskan sebagaiT > 5. Dalam Bab 2 akandibahas lebih lanjut beberapa macam fungsi terkait variabel randomT ini.

1.3 Data tersensor dan terpotong

Salah satu masalah yang sering muncul dalam analisis data survival adalah adanyapengamatan yang tidak lengkap, yang secara umum dapat dikelompokkan menja-di data tersensor (censored) dan data terpotong (truncated).

Definisi 1.1Suatu data atau observasi dikatakantersensor kanan (right-censored) pada ti-tik k apabila nilai observasi yang digunakan adalaht, jika t ≤ k; atau k jikat > k. Apabila k ditentukan (fixed), maka observasi dikatakan tersensorTipeI; sedangkan bila banyaknya observasir yang ditentukan sedemikian sehinggat(1) ≤ t(2) ≤ . . . ≤ t(r), maka observasi tersensorTipe II.

Contoh 1.3Data tersensor kanan: Suatu eksperimen menggunakan tikus percobaan dilakukan un-tuk mengetahui seberapa lama tikus dapat hidup setelah pemberian suatu zatyang dapatmengakibatkan kanker.

• Tipe I: Jika saat tersensornya ditentukan lebih dahulu

Page 11: Survival 2011b

1.3. Data tersensor dan terpotong 4

• Tipe II: Jika saat tersensornya ditentukan setelah tercapai persentase atau banyaksampel tertentu yang telah mendapatkanevent.

Definisi 1.2Suatu data atau observasi dikatakanterpotong kiri (left-truncated) pada titikkapabila data hanya menggunakan nilai observasit ≥ k.

Contoh 1.4Data terpotong kiri : Suatu studi tentang morbiditas dan mortalitas pegawai pada su-atu institusi dilakukan ketika pegawai telah berusia 40 tahun ke atas. Apabilaseo-rang pegawai telah meninggal sebelum berusia 40, dia tidak masuk dalam sampel (left-truncated).

Definisi 1.3Suatu data atau observasi dikatakantersensor kiri (left-censored) pada titik kapabila nilai observasi yang digunakan adalaht, jika t ≥ k; atauk jika t < k.

Contoh 1.5Data tersensor kiri: Data seperti ini biasanya terjadi pada pengumpulan data yang di-lakukan secara retrospektif atau melihat informasi ke belakang. Suatu studi dilakukanuntuk mengetahui faktor-faktor yang mempengaruhi usia pertama kali merokok. Apabilaresponden ingat usia saat dia pertama kali merokok, dikatakan observasi yang dipero-leh adalah lengkap. Bila responden tidak ingat kapan dia mulai merokok, tapi hanyaingat mulai merokok sebelum usia tertentu, maka dikatakan observasi tersebut tersensorkiri.

Definisi 1.4Suatu data atau observasi dikatakanterpotong kanan (right-truncated) pada titikk apabila data hanya menggunakan nilai observasit ≤ k.

Contoh 1.6Data terpotong kanan: Data ini juga biasa terjadi pada pengumpulan data retrospek-tif. Suatu studi tentang AIDS dilakukan secara retrospektif. Yang menjadiperhatianadalah durasi mulai infeksi HIV sampai terdiagnosis AIDS. Hanya individu yang telahterdiagnosis AIDS sebelum mulai studi saja yang akan masuk dalam studi. Individuyang belum terdiagnosis AIDS tidak masuk dalam studi adalah sampel yang terpotongkanan.

Pada Gambar 1.3 dapat dilihat perbedaan keempat jenis data tidak lengkap se-perti yang telah dijelaskan di muka. Pada Gambar tersebut, bagian yang diarsiradalah periode pada saat mana observasi tidak lengkap (unobserved). Observasi

Page 12: Survival 2011b

1.3. Data tersensor dan terpotong 5

terpotong-kiri

tersensor-kiri

tersensor-kanan

terpotong-kanan

t (waktu) t (waktu)

Gambar 1.3: Data tersensor (censored) dan terpotong (truncated)

tersensor kanan sering dikatakantersensor dari atas, karena bagian yang tersen-sor adalah bagian paling kini secara kronologis (atas). Demikian juga observasiyang terpotong kanan sering disebutterpotong dari atas. Sebaliknya Observasitersensor kiri dan terpotong kiri sering disebuttersensor dari bawahdanterpo-tong dari bawah, karena bagian yang tersensor atau terpotong adalah pada bagianawal (bawah).

Penyensoran (censoring) pada suatu pengamatan akan berakibat ketidakleng-kapan informasi lama-waktu atau durasi pada data yang diperoleh. Sedangkan Pe-motongan (truncation) akan berakibat pada terambil atau tidaknya suatu subyeksebagai sampel, selain ketidaklengkapan informasi pada durasi. Sebagai contoh,data lama hidup tikus Contoh 1.3. Apabila penelitian dihentikan pada suatu waktu(sensor Tipe I), maka informasi yang tidak lengkap hanya terjadi pada tikus-tikusyang masih hidup. Namun pada Contoh 1.4, pegawai yang meninggal sebelumberusia 40 tahun akan tidak terambil sebagai sampel. Dengankata lain, observasiyang terpotong (meninggal sebelum usia 40) mempengaruhi keterambilan subyeksebagai sampel. Akibat yang sama terjadi pula untuk tersensor kanan dan terpo-tong kanan.

Berikut adalah beberapa contoh data survival yang diperolehdari permasalah-an aplikasi yang berbeda, yaitu dalam bidang ilmu kesehatan, ilmu perekayasaandan ilmu sosial.

Contoh 1.7Diperoleh data dari studi tentang pasien leukemia (Cox and Oakes, 1984)seperti padaTabel 1.1. Eventyang perhatian dalam studi ini adalahrelapse(kekambuhan kembali)dari 42 pasien leukemia anak-anak yang pada awal studi telah dianggapsembuh (re-mission). Pasien mendapatkan perawatan berupa 6-MP (6-mercaptopurine) dan place-bo.

Page 13: Survival 2011b

1.3. Data tersensor dan terpotong 6

Tabel 1.1: Relapse pasien leukemia

Perawatan lama waktu (bulan) sampai kambuh6-MP : 6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 11+, 17+, 19+,

20+, 25+, 32+, 32+, 34+, 35+Placebo: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22,

23tanda + menunjukkan data tersensor kanan

Tabel 1.2: Lama waktu sampai rusaknya komponen elektrik

voltase (kV) lama waktu (menit) sampai rusak26 5,79; 1579,52; 2323,728 68,85; 426,07; 110,29; 108,29; 1067,630 17,05; 22,66; 21,02; 175,88; 139,07; 144,12; 20,46;

43,40; 194,90; 47,30; 7,7432 0,40; 82,85; 9,88; 89,29; 215,10; 2,75; 0,79; 15,93;

3,91; 0,27; 0,69; 100,58; 27,80; 13,95; 53,2434 0,96; 4,15; 0,19; 0,78; 8,01; 31,75; 7,35; 6,50; 8,27;

33,91; 32,52; 3,16; 4,85; 2,78; 4,67; 1,31; 12,06; 36,71;72,89

36 1,97; 0,59; 2,58; 1,69; 2,71; 25,50; 0,35; 0,99; 3,99;3,67; 2,07; 0,96; 5,35; 2,90; 13,77

38 0,47; 0,73; 1,40; 0,74; 0,39; 1,13; 0,09; 2,38

Contoh 1.8Suatu percobaan dilakukan untuk meneliti pengaruh voltase terhadap kerusakan suatualat elektrik (Lawless, 2003). Diperoleh data seperti pada Tabel 1.2. Dalam penelitianini semua sampel diamati sampai semuanya rusak, tidak ada censoring dalamdata ini.Terlihat bahwa semakin tinggi voltase, lama sampai suatu komponen rusak semakin cepat.Voltase normal untuk komponen ini adalah 20kV.

Contoh 1.9Suatu studi di Amerika dilakukan untuk mengetahui faktor-faktor yang mempengaruhilama menyusui, atau saat penyapihan (weaning) (Klein and Moeschberger, 2003). Dari927 bayi yang disusui oleh ibunya, beberapa pertanyaan diajukan seperti pada Tabel 1.3.

Data untuk contoh ini dapat dikopi saat praktikum.

Page 14: Survival 2011b

1.4. Latihan Bab 1 7

Tabel 1.3: Deskripsi variabel studi tentang penyapihan

Variabel Deskripsi kodeduration Lama menyusui (minggu)delta Indikator penyapihan 1=disapih

0=belumrace Ras dari ibu 1=kulit putih

2=kulit hitam3=lainnya

poverty Ibu dikategorikan miskin 1=ya, 0=tidaksmoke Ibu adalah perokok saat melahirkan 1=ya, 0=tidakalcohol Ibu adalah peminum saat melahirkan 1=ya, 0=tidakagemth Usia ibu saat melahiran (tahun)ybirth Tahun kelahiranyschool Tingkat (lama) pendidikan (tahun)pc3mth Pemeriksaan kehamilan setelah bulan ketiga 1=ya, 0=tidak

1.4 Latihan Bab 1

1.1. Berikan contoh data survival dari fenomena yang menarikperhatian sauda-ra, minimal dua contoh! Definisikanorigin (titik asal),eventyang menjadiperhatian dan unit waktu yang digunakan. Kemudian tambahkan variabellain yang mungkin menjadi perhatian.

1.2. Apa tujuan utama dari analisis data survival?

1.3. Sebutkan matakuliah dalam program studi Statistika yang terkait dengananalisis data survival!

1.4. Pencatatan peristiwa demografis di kelurahan atau kecamatan (vital statis-tics) berupa kelahiran, kematian dan pindah masuk maupun keluardaerahpada dasarnya adalah data survival. Sebutkan titik asal,eventdan unit wak-tu yang mungkin menjadi perhatian dalam konteks ini! Apakahada ke-mungkinan observasi tidak lengkap (tersensor, terpotong)dalam pencatatanperistiwa demografis tersebut?

1.5. Eksperimensurvival/sacrificeadalah suatu cara penelitian untuk mengeta-hui apakah suatu zat tertentu atau karsinogen tertentu mempercepat terjadi-nya tumor pada binatang percobaan. Dalam eksperimen seperti ini, setiapbinatang percobaan diberi dosis suatu karsinogen tertentudan dilihat adatidaknya tumor pada saat meninggal dengan otopsi. Apabila kita tertarik

Page 15: Survival 2011b

1.4. Latihan Bab 1 8

Tabel 1.4: Lama kambuh pasien leukemia dan tes AG

AG positive AG negativeID WBC waktu ID WBC waktu1 0.0230 65 18 0.044 562 0.0075 156 19 0.030 653 0.0430 100 20 0.040 174 0.0260 134 21 0.015 75 0.0600 16 22 0.090 166 0.1050 108 23 0.053 227 0.1000 121 24 0.100 38 0.1700 4 25 0.190 49 0.0540 39 26 0.270 2

10 0.0700 143 27 0.280 311 0.0940 56 28 0.310 812 0.3200 26 29 0.260 413 0.3500 22 30 0.210 314 1.0000 1 31 0.790 3015 1.0000 1 32 1.000 416 0.5200 5 33 1.000 4317 1.0000 65ID adalah nomor identitas pasien

pada lama waktu sejak diberi karsinogen sampai terkena tumor, permasa-lahan data tidak lengkap apa saja yang mungkin terjadi?

1.6. Tanpa menggunakan metode yang nanti akan dipelajari dalam analisis datasurvival, lakukan analisis data untuk Contoh 1.7 dan Contoh 1.8! (Misalnyadengan ANOVA atau Regresi). Kesimpulan apa yang dari analisis data yangsaudara lakukan?

1.7. Mengapa data yang tersensor dalam data survival tidak seharusnya dibuang?Jelaskan!

1.8. Berikan masing-masing satu contoh permasalahan atau fenomena yang da-pat dipandang sebagai data survival dan kemungkinan terdapat observasitidak lengkap sebagai berikut: (1) tersensor-kanan; (2) terpotong-kiri; (3)tersensor-kiri; (4) terpotong-kanan!

1.9. Tabel 1.4 adalah data lama hidup 33 pasien leukemia (dalam minggu), ba-nyaknya sel darah putih (WBC, dalam satuan 100.000 sel); dan hasil teskarakteristik morfologis darah putih (AGpositiveatau AGnegative).

Page 16: Survival 2011b

1.4. Latihan Bab 1 9

(a) Bila observasi tersensor-kanan pada titik4 minggu, tuliskan pasienmana saja (ID-nya) yang teramati (observed)

(b) Bila observasi terpotong-kanan pada titik4 minggu, tuliskan pasienmana saja (ID-nya) yang teramati (observed)

(c) Bila pasien terambil sebagai sampel hanya untuk yang kambuh setelah12 minggu, jenis data tidak lengkap apa terjadi situasi ini?Tuliskanpasien mana saja (ID-nya) yang teramati (observed)

(d) Bila penelitian menghendaki pasien adalah yang belum kambuh pa-da titik 5 minggu saja, dan penelitian berakhir 60 minggu kemudian,pasien mana saja yang terambil sebagai sampel dan bagaimanastatuskambuh tidaknya pasien pada akhir penelitian?

Page 17: Survival 2011b

2Fungsi dan Kuantitas Dasar

2.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

2.1. Menjelaskan fungsi survival, hazard, hazard kumulatif dan hubungannyadiantara mereka dan dengan fungsi probabilitas dan fungsi distribusi

2.2. Menjelaskan beberapa contoh model survival

2.3. Menginterpretasikan fungsi survival, hazard, hazardkumulatif dalam suatukonteks aplikasi tertentu

2.4. Memberi contoh dan menjelaskan perluasan fungsi survival untuk keperlu-an aplikasi tertentu

2.2 Fungsi Survival dan Hazard

Seperti yang telah dikemukakan pada Bab 1, dasar dari model dan metode dalamanalisis data survival adalah variabel random survivalT . Untuk mendeskripsikansuatu variabel random dalam bentuk eksplisit yang berupa model matematika,digunakan fungsi variabel random tersebut, misalnya berupa fungsi distribusi danfungsi probabilitas. Dalam analisis data survival, fungsivariabel random yangmenjadi perhatian adalah fungsi survival dan fungsi hazard.

Fungsi survival adalah probabilitas satu individu hidup (survive) lebih lamadaripadat

S(t) = P (T > t). (2.1)

FungsiS(t) merupakan fungsi adalah fungsinon-increasingterhadap waktut de-ngan sifatS(0) = 1 danlimt→∞ S(t) = 0.

10

Page 18: Survival 2011b

2.2. Fungsi Survival dan Hazard 11

0.0 0.5 1.0 1.5 2.0 2.5

0.0

0.2

0.4

0.6

0.8

1.0

t

S(t

)

Gambar 2.1: Fungsi Survival

Contoh fungsi survival dapat dilihat pada Gambar 2.1. Fungsisurvival dapatdiinterpretasikan sebagai proporsi individu yang hidup dari sekelompokcohort(angkatan). Pada awal lahirnya cohort tersebut proporsi yang hidup besar (men-dekati satu). Seiring waktu berjalan proporsi yang hidup dari cohort tersebut akanberkurang sampai akhirnya semua meninggal (proporsi mendekati nol).

Contoh 2.1MisalkanT adalah lama waktu sampai seorang pasien leukemia kambuh kembali (Con-toh 1.2) dalam satuan minggu, makaS(5) = P (T > 5) dapat diinterpretasikan sebagaiprobabilitas lama waktu kambuh kembali lebih dari 5 minggu. Kalau tidak kambuh di-pandang sebagai ”survive”, maka peluang survival nya adalahS(5).

Fungsi variabel random lain yang cukup penting adalahfungsi hazard yangdidefinisikan sebagai

h(t) = lim∆t→0

P (t ≤ T < t+∆t | T ≥ t)

∆t(2.2)

yang dapat diinterpretasikan sebagai tingkat (rate) terjadinya suatuevent. Seba-gai contoh, fungsi hazard dapat dilihat pada Gambar 2.2. Fungsi hazard yang

Page 19: Survival 2011b

2.2. Fungsi Survival dan Hazard 12

0.0 0.5 1.0 1.5 2.0

01

23

45

t

h(t)

Gambar 2.2: Fungsi Hazard

berbentuk U seperti ini biasanya menunjukkan resiko kematian pada makhluk hi-dup secara biologis. Pada usia muda, tingkat atau resiko kematian tinggi. Resikoberkurang setelah dewasa, namun kembali bertambah setelahmendekati usia tua.

Ada banyak bentuk fungsi hazard yang merujuk pada suatu distribusi tertentu.Fungsi hazard bukan probabilitas, sehingga dimungkinkan nilainya lebih dari satu.Batasan yang dikenakan pada fungsi hazard hanyalahh(t) ≥ 0.

Integral dari fungsi hazardh(t) adalahfungsi hazard kumulatif

H(t) =

∫ t

0

h(x)dx (2.3)

yang hubungan fungsionalnya denganS(t) cukup penting sebagai dasar dalampemodelan data survival.

FungsiS(t), h(t), H(t) dan f(t) merupakan fungsi yang bergantung padawaktut. Kadang diperlukan fungsi yang hasilnya berupa nilai waktut dengan di-berikan probabilitas atau kuantitas yang lain. Misalnya dalam penghitungan medi-an. Median adalah nilai tengah, yaitu jikat0,5 adalah median, makaS(t0,5) = 0,5.Secara umum diperlukan fungsi yang dapat digunakan mencarimedian atau titikwaktu yang lain dengan diberikan probabilitas yang dinamakan fungsi kuantil.

Fungsi kuantil adalah

tp = S−1(p), 0 < p < 1 (2.4)

Page 20: Survival 2011b

2.3. Hubungan antar Fungsi 13

atau

tp = F−1(p), 0 < p < 1 (2.5)

Nilai tp sering disebut sebagai kuantil ke-p, jadi median adalah kuantil ke-12.

Kuantitas lain yang penting adalah mean dan variansiT , yaitu

E(T ) =

∫ ∞

0

S(t)dt (2.6)

dan

var(T ) = 2

∫ ∞

0

tS(t)dt− E(T )2 (2.7)

2.3 Hubungan antar Fungsi

Fungsi survivalS(t) dapat diturunkan dari distribusi kumulatifF (t) sebagai beri-kut:

S(t) = 1− F (t) (2.8)

Sedangkan fungsi hazardh(t) dapat dituliskan sebagai

h(t) =f(t)

S(t), (2.9)

dengan menggunakan definisi probabilitas bersyarat,

P (t ≤ T < t+∆t | T ≥ t) = P (t ≤ T < t+∆t)/P (T ≥ t)

= P (t ≤ T < t+∆t)/S(t), (2.10)

Menurut definisi fungsi densitaslim∆t→0 P (t ≤ T < t + ∆t)/∆ adalahf(t),sehingga dapat diperoleh (2.9).

Untuk distribusi kontinu

h(t) = −S′(t)

S(t)

= −d log S(t)dt

, (2.11)

KarenaS(0) = 1,

S(t) = exp

(

−∫ t

0

h(u)du

)

= exp(−H(t)), (2.12)

Page 21: Survival 2011b

2.3. Hubungan antar Fungsi 14

atauH(t) = − log(S(t)). Dari sini dapat diperoleh pula hubungan antara fungsidensitas, hazard dan hazard kumulatif sebagai berikut

f(t) = h(t) exp[−H(t)] (2.13)

Karena fungsi survival harus memenuhiS(t) = exp(−H(t)), dapat disim-pulkanH(t) <∞ untukt > 0, danlimt→∞H(t) = ∞.

Dengan mengetahui hubungan antar fungsi variabel random survival, apabilasatu jenis fungsi diketahui, fungsi yang lain dapat diketahui pula.

Contoh 2.2Diketahui fungsi hazard konstanh(t) = λ. Carilah bentuk fungsi survival, fungsi densitasdan fungsi hazard kumulatif distribusi ini.Jawab:Diketahui,h(t) = λ. Menggunakan hubunganH(t) =

∫ t0 h(x)dx dapat dicari

H(t) =

∫ t

0λdx = [λx]t0

= λt.

Kemudian menggunakan hubunganS(t) = exp(−H(t)), danf(t) = h(t)S(t) dapatdicari

S(t) = exp(−H(t)) = exp(−λt)dan

f(t) = λ exp(−λt).Distribusi ini dikenal sebagai distribusi eksponensial, yaitu distribusi dengan fungsi haza-rd konstan. Bersama dengan distribusi-distribusi yang lain, distribusi eksponensial akandipelajari lebih jauh pada Bab 3.

Dalam pemodelan survival, fungsi hazard mempunyai kelebihan dibandingk-an fungsi survival maupun fungsi densitas, terutama terkait kondisi bersyarat ka-rena observasi yang terpotong. Misalkan untuk terpotong-kiri, peluang seorangindividu survive dengan diketahui dia masih survive sampaiwaktuk adalah

S(t | T > k) = P (T > t | T > k), t > k

=S(t)

S(k).

Demikian pula untuk fungsi densitas, kondisional terhadapsurvival sampai waktuk, adalahf(t)/S(k). Namun tidak demikian dengan fungsi hazard, karena fungsihazard menurut definisi fungsi hazard (2.10) sudah bersyarat T > k, sehinggafungsi hazard tetaph(t) dan tidak terpengaruh observasi terpotong. Kenyataanini bermanfaat dalam pemodelan survival, sehingga banyak model survival yangdikembangkan dari fungsi hazard, misalnya model regresi proportional hazard.

Page 22: Survival 2011b

2.4. Survival Diskrit 15

2.4 Survival Diskrit

Bila T merupakan suatu variabel random diskret dengan nilaix1 < x2 < . . .dengan fungsi probabilitas

f(xi) = P (T = xi), i = 1, 2, . . . (2.14)

fungsi survivalnya adalah

S(t) =∑

j|xj>t

f(xj) (2.15)

= f(xj) + f(xj+1) + . . . (2.16)

yang merupakan fungsi kontinu dari kiri (left-continuous) dan fungsi tangga yangtak-naik (non-increasing step function) denganS(0) = 1 danS(∞) = 0

Fungsi hazard padaxj didefinisikan sebagai probabilitas kondisional subyekmendapatkaneventpada saatxj dengan diberikan subyek belum mendapatkaneventtepat sebelumxj

h(xj) = P (T = xj | T ≥ xj)

=f(xj)

S(xj)j = 1, 2, . . .

Karenaf(xj) = S(xj)− S(xj+1),

h(xj) =f(xj)

S(xj)

=S(xj)− S(xj+1)

S(xj)

= 1− S(xj+1)

S(xj)(2.17)

sehingga

S(t) =∏

j|xj<t

(1− h(xj)) . (2.18)

Fungsi hazard kumulatif untukT diskrit adalah

H(t) =∑

j|xj<t

log(1− hj) (2.19)

sehingga hubunganS(t) denganH(t) seperti persamaan (2.12) masih berlaku.Satu alternatif untuk fungsi hazard kumulatif adalahH(t) =

j|xj<thj, yang

nilainya didekati oleh (2.19) untukhj cukup kecil.

Page 23: Survival 2011b

2.5. Latihan Bab 2 16

Contoh 2.3Variabel random survival diskritT mempunyai fungsi probabilitas

f(t) = P (t = k) =1

3, k = 1, 2, 3

Fungsi survivalnya adalah

S(t) =∑

j|xj>t

f(xj)

=

1 jika 0 ≤ t < 1,

2/3 jika 1 ≤ t < 2,

1/3 jika 2 ≤ t < 3,

0 jika t ≥ 3.

UntukT diskrit,S(t) berupa fungsi tangga yang tak-naik. Fungsi hazardT adalah

h(xj) =f(xj)

S(xj)

=

1/3 untukj = 1

1/2 untukj = 2

1 untukj = 3

0 yang lain.

Untuk variabel random survival diskrit, fungsi hazard akan bernilai nol, kecuali pada titik-titik di manaeventdapat terjadi.

2.5 Latihan Bab 2

2.1. Distribusi survival didefinisikan sebagaiS(t) = 0,10(100 − t)1/2 pada do-main0 ≤ t ≤ 100, tentukan nilaif(36) danh(50)!

2.2. Jika diketahuiS(t) = 0,2(25 − t)1/2 pada domain0 ≤ t ≤ 25, tentukannilai hazard kumulatifH(16)!

2.3. Diketahui fungsi hazardh(t) = a + bt, a > 0 danb > 0, tentukan nilaiS(t)!

2.4. Tunjukkan mengapaS(t) dari fungsi hazardh(t) = e−rt, r > 0 bukanmerupakan fungsi survival:

2.5. Untuk variabel random durasi (interval antar kejadian) kontinuT , denganfungsi survivalS(t):

Page 24: Survival 2011b

2.5. Latihan Bab 2 17

(a) Tunjukkan bahwaE(T ) =∫∞

0S(t)dt

(b) Tunjukkan bahwaE(T ) = r(0) (soal no. 2(a)), dengan

r(t) = E(T − t | T ≥ t)

yang sering disebut sebagaiexpected residual lifeataumean residuallife pada saatt

2.6. Suatu variabel random survival kontinuT diketahui mempunyaiexpectedresidual life(Lihat soal no. 2.5)r(t) = t+ 10.

(a) Carilah meanT

(b) Carilahh(t)

(c) CarilahS(t)

2.7. DiketahuiT berdistribusi Uniform

f(t) =

{

1/θ untuk0 ≤ t ≤ θ

0 t yang lain

(a) Hitung fungsi survivalS(t)

(b) Hitung fungsi hazardh(t)

(c) Hitung fungsiexpected (mean) residual-lifer(t)

2.8. Buktikan persamaan (2.6) dan (2.7), jika diberikanE(T ) =∫∞

−∞tf(t)dt

dan var(T ) = E(T 2)− E(T )2.

2.9. Diketahui fungsi survivalS(t) = exp(−tλ), carilah fungsi densitas danfungsi hazardnya!

2.10. Tunjukkan bahwa jika fungsi hazard suatu variabel random survival adalah

κρ(ρt)κ−1 exp [(ρt)κ]

fungsi survivalnya adalah

exp {− [exp((ρt)κ)− 1]}

2.11. Tunjukkan bahwa untuk variabel random survival diskret

S(t) =∏

j|xj<t

(1− h(xj))

Page 25: Survival 2011b

2.5. Latihan Bab 2 18

2.12. DiketahuiT adalah variabel random diskrit berdistribusi Geometrik

f(t) = π(1− π)t−1, t = 1, 2, . . .

(a) Carilah fungsi survivalT

(b) Carilah fungsi HazardT

2.13. Diketahui distribusi Poisson dengan fungsi probabilitas

P (T = k) = e−λλk

k!, k = 0, 1, . . . .

Tunjukkan fungsi hazard-nya naik monoton.

2.14. Suatu model yang digunakan dalam Tabel Mortalitas adalah modelpiece-wise constant hazard rate. Dalam model ini waktu dibagi dalamk interval[τj−1, τj), j = 1, 2, . . . , k denganτk = ∞. Fungsi hazard dalam intervalke-j berupa konstanλj, atau

h(t) =

λ1 0 ≤ t < τ1

λ2 τ1 ≤ t < τ2...

λk−1 τk−2 ≤ t < τk−1

λk t ≥ τk−1

Carilah fungsi survival model ini!

Page 26: Survival 2011b

3Metode Parametrik

3.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

3.1. Menyebutkan beberapa model distribusi parametrik variabel random survi-val

3.2. Menyebutkan dan menjelaskan aplikasi atau fenomena data survival yangmengikuti distribusi parametrik tertentu

3.3. Melakukan estimasi parameter model distribusi variabel random survival

3.4. Menggunakan model distribusi variabel random survival

3.5. Mengidentifikasi distribusi yang sesuai jika diberikan suatu set data survival

3.2 Beberapa distribusi parametrik

3.2.1 Distribusi Eksponensial

Distribusi eksponensial mempunyai sifat ”pelupa” (lack of memory) yang berartibahwa probabilitassurviveke depan tidak terpengaruh oleh kondisisurviveseka-rang. Hal ini ditunjukkan oleh fungsi hazard nya yang berupakonstan, yaitu

h(t) = λ (3.1)

Hazard yang konstan ini sebenarnya tidak cukup realistis untuk memodelkan fe-nomena terkait data survival. Namun model dengan distribusi Eksponensial ini

19

Page 27: Survival 2011b

3.2. Beberapa distribusi parametrik 20

dipandang cukup baik dan sederhana sebelum melihat model lain yang mungkinlebih baik namun mungkin juga lebih rumit.

Model dengan reparameterisasiθ = 1/λ kadang sering juga digunakan. Per-bedaannya adalah dalam interpretasi terkait fungsi hazardnya. Untukeventsepertikerusakan atau kematian,λ diinterpretasikan sebagai tingkat resiko (hazard rate)dengan satuan kerusakan per satu satuan waktu, sedangkanθ = 1/λ adalah lamawaktu sampai satu kerusakan.

Dengan terlebih dahulu mencari fungsi hazard kumulatifnyayaitu H(t) =λt, fungsi survival dapat dicari melalui hubungan antaraH(t) danS(t), sebagaiberikut

S(t) = exp(−λt) (3.2)

Fungsi densitas distribusi eksponensial dengan parameterλ > 0 dapat diru-muskan darih(t) danS(t) di muka, yaitu

f(t) = h(t)s(t)

= λ exp(−λt) (3.3)

Distribusi eksponensial mempunyai mean1/λ, variansi 1/λ2 dan median(1/λ) log(2). Sebagai contoh kurva survival untuk eksponensial dapat dilihat pa-da Gambar 3.1. Gambar fungsi hazard yang bersesuaian denganfungsi survivalGambar 3.1 adalah seperti pada Gambar 3.2.

Contoh 3.1Pada label lampu pijar proyektor LCD tertulis lama hidup lampu pijar adalah 2000 jampemakaian. Kita asumsikan lama hidup lampu pijar berdistribusi eksponensial.

a) Apabila 2000 jam tersebut kita interpretasikan sebagai median lama hidup,hitungberapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian?

b) Apabila 2000 jam tersebut kita interpretasikan sebagai mean lama hidup, hitungberapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian?

Jawab:

a) Median distribusi eksponensial1λ log(2) = 2000, sehingga dapat dihitungλ =log(2)/2000 = 0,000347 kerusakan per jam. Probabilitas masih hidup setelah2500 jam pemakaian,S(2500) = exp(−0,000347× 2500) = 0,420

b) Mean distribusi eksponensial1/λ = 2000, jadi λ = 0,0005 kerusakan per jam.Probabilitas masih hidup setelah 2500 jam pemakaian,S(2500) = exp(−0,0005×2500) = 0,287

Page 28: Survival 2011b

3.2. Beberapa distribusi parametrik 21

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

t

S(t

)

λ = 0.1

λ = 0.3

Gambar 3.1: Kurva survival untuk model eksponensial dengandua nilaiλ yangberbeda

0 10 20 30 40

0.0

0.1

0.2

0.3

0.4

0.5

0.6

t

h(t)

λ = 0.1

λ = 0.3

Gambar 3.2: Kurva hazard untuk model eksponensial dengan dua nilai λ yangberbeda

Page 29: Survival 2011b

3.2. Beberapa distribusi parametrik 22

3.2.2 Distribusi Weibull

Distribusi Weibull merupakan perluasan dari distribusi eksponensial yang padaawalnya digunakan untuk meneliti kekerasan atau ketahanansuatu material. Dis-tribusi Weibull dengan parameter bentuk (shape parameter) α > 0 dan parameterskala (scale parameter)λ > 0 mempunyai fungsi hazard yang bergantung waktusebagai berikut

h(t) = αλ(λt)α−1 (3.4)

Fungsi survival dan fungsi densitas Weibull adalah

S(t) = exp(−(λt)α) (3.5)

f(t) = αλ(λt)α−1 exp(−(λt)α) (3.6)

Untuk kasusα = 1 distribusi Weibull sama dengan eksponensial dengan parame-terλ. Mean dan variansi distribusi ini berturut-turut

Γ(1 + 1/α)

λ

dan

1

λ2

[

Γ

(

1 +2

α

)

− Γ2

(

1 +1

α

)]

Kurva survival dan kurva hazard untuk model Weibull dapat dilihat pada Gam-bar 3.3 dan 3.4. Distribusi Weibull banyak digunakan dalam bidang reliabilitasdan studi mortalitas.

3.2.3 Distribusi Gamma

Distribusi Gamma mempunyai parameterβ, λ > 0, dengan meanE(t) = β/λdan koefisien variasi1/

√β. Parameterλ−1 sering disebut parameter skala (scale)

danβ adalah indeks atau parameter bentuk (shape) Fungsi densitas, hazard dansurvivalnya adalah sebagai berikut

f(t) =λ(λt)β−1 exp(−λt)

Γ(β)(3.7)

h(t) = f(x)/S(x) (3.8)

Page 30: Survival 2011b

3.2. Beberapa distribusi parametrik 23

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

t

S(t

)

α = 0.1

α = 1α = 2α = 4

Gambar 3.3: Kurva survival untuk model Weibull dengan beberapa nilaiα yangberbeda dan satu nilaiλ tertentu

0 1 2 3 4

01

23

4

t

h(t)

α = 0.1

α = 1

α = 2

α = 4

Gambar 3.4: Kurva hazard untuk model Weibull dengan beberapa nilai α yangberbeda dan satu nilaiλ tertentu

Page 31: Survival 2011b

3.2. Beberapa distribusi parametrik 24

0.0

0.5

1.0

1.5

2.0

t

h(t)

0 1 2 3 4

β = 0.4

β = 2

β = 4

Gambar 3.5: Kurva fungsi hazard untuk model Gamma dengan beberapa nilaiβyang berbeda danλ = 1

S(t) = 1− I(λt, β) = 1− 1

Γ(β)

∫ λt

0

uβ−1e−udu (3.9)

Secara praktis penggunaan fungsi Gamma agak terbatas karena bentuk ekspli-sit fungsi survivalnya yang rumit memuat integral fungsi Gamma tidak-lengkap.Fungsi Gamma denganβ = 1 adalah sama dengan distribusi Eksponensial(λ).

Distribusi Gamma dengan parameterλ = 1 dikenal dengan Gamma satu pa-rameterβ dan mempunyai fungsi densitas sebagai berikut

f(t) =tβ−1 exp(−t)

Γ(β)(3.10)

JikaT berdistribusi Gamma (3.7), makaλT akan berdistribusi Gamma satu pa-rameterβ. Kemudian bilaY berdistribusi Gamma satu parameterβ, maka2Yberdistribusiχ2 (Chi kuadrat) dengan derajat bebas2k.

Gambar fungsi densitas dan fungsi hazard untukλ = 1 dan berbagai nilaiβdapat dilihat pada Gambar 3.5 dan Gambar 3.6.

Seperti halnya distribusi Weibull, distribusi Gamma diawali dari permasalahandalam bidang perekayasaan (engineering) dan ketahanan material. Aplikasinyakemudian ke bidang yang lain seperti industri dan model mortalitas.

Page 32: Survival 2011b

3.2. Beberapa distribusi parametrik 25

0.0

0.2

0.4

0.6

t

f(t)

0 1 2 3 4

β = 0.4

β = 2

β = 4

Gambar 3.6: Kurva fungsi densitas untuk model Gamma dengan beberapa nilaiβ yang berbeda danλ = 1

3.2.4 Distribusi Log-normal

Variabel random survivalT berdistribusi log-normal apabila transformasi variabellog(T ) berdistribusi normal. Distribusi log-normal dengan paramaterσ > 0, t ≥0) mempunyai fungsi densitas, hazard dan survival sebagai berikut

f(t) =1

tσ√2π

exp

[

− 1

2σ2(log(t)− µ)2

]

(3.11)

h(t) = f(x)/S(x) (3.12)

S(t) = 1− Φ

(

log(t)− µ

σ

)

(3.13)

denganΦ(x) adalah fungsi distribusi kumulatif Normal Standar.Distribusi log-normal mempunyai meanE(t) = exp(µ + σ2/2) dan variansi

[exp(σ2)− 1] [exp(2µ+ σ2)], bukanµ danσ seperti dalam distribusi normal.Gambar fungsi densitas dan fungsi hazard untukµ = 0 dan berbagai nilaiσ

dapat dilihat pada Gambar 3.7 dan Gambar 3.8.

Page 33: Survival 2011b

3.2. Beberapa distribusi parametrik 26

01

23

45

t

h(t)

0 1 2 3 4

σ = 0.25

σ = 0.5

σ = 1.5

Gambar 3.7: Kurva fungsi hazard untuk model lognormal dengan beberapa nilaiσ yang berbeda danµ = 0

0.0

0.5

1.0

1.5

2.0

t

f(t)

0 1 2 3

σ = 0.25

σ = 0.5

σ = 1.5

Gambar 3.8: Kurva fungsi densitas untuk model lognormal dengan beberapa nilaiσ yang berbeda danµ = 0

Page 34: Survival 2011b

3.2. Beberapa distribusi parametrik 27

Contoh 3.2Carilah median lognormal, bila diketahui fungsi survival seperti (3.13).Jawab:Bila med adalah median, maka

S(med) = 1− Φ

(

log(med)− µ

σ

)

= 1/2

atau

Φ

(

log(med)− µ

σ

)

= 1/2

Kuantil ke-1/2 normal standar adalah 0, sehingga

log(med)− µ

σ= 0

log(med) = µ

med = exp(µ)

3.2.5 Distribusi Gompertz-Makeham

Distribusi ini awalnya digunakan untuk memodelkan survival pada manusia danbanyak digunakan pada permasalahan demografi dan aktuaria.Secara empiris mo-del motalitas pada manusia umumnya mempunyai bentuklog hazard yang linearterhadap usia, atau

h(t) = exp(A+ Bt) (3.14)

yang kemudian di-reparameterisasi menjadi

h(t) = ρ1eρ2t. (3.15)

Model hazard ini dikenal sebagai model Gompertz. Makeham kemudian me-nyarankan ada penambahan konstanρ0 yang berbeda menurut usia pada mo-del Gompertz untuk memodelkan mortalitas, sehingga model hazardnya menjadiGompertz-Makeham

h(t) = ρ0 + ρ1eρ2t. (3.16)

Parameterρ0 > 0 dan ρ1 > 0 dikenal sebagai parameter bentuk (shape) dan−∞ < ρ2 <∞ sebagai parameter skala (scale).

Fungsi survival distribusi Gompertz-Makeham dapat diturunkan melalui fung-si hazard dan kemudian fungsi hazard kumulatifnya, dan diperoleh

S(t) = exp

{

−ρ0t−ρ1ρ2

(eρ2t − 1)

}

(3.17)

Fungsi densitas Gompertz-Makeham dapat dituliskan secaraeksplisit darih(t)S(t). Dalam aplikasinya model ini lebih menggunakan fungsi hazard dansurvivalnya.

Page 35: Survival 2011b

3.3. Estimasi parameter 28

3.2.6 Distribusi Log-logistik

Seperti halnya log-normal, nama log-logistik diberikan karenalog(T ) berdistri-busi logistik. Distribusi logistik sendiri mempunyai fungsi densitas

f(y) =exp[(y − µ)/σ]

σ(1 + exp[(y − µ)/σ])2(3.18)

dengan−∞ < y < ∞ adalah variabel random logistik dengan parameter−∞ <µ <∞ dan−∞ < σ <∞.

Fungsi Survival distribusi log-logistik adalah

S(t) =1

1 + (λt)α(3.19)

Fungsi hazard distribusi ini dapat diturunkan mulai dari fungsi kumulatif hazard-nya

H(t) = − log[S(t)]

= log((1 + (λt)α) (3.20)

kemudian diperoleh

h(t) = dH(t)/dt

=λα(λt)α−1

1 + (λt)α. (3.21)

Fungsi densitas log-logistik

f(t) = S(t)h(t)

=λα(λt)α−1

1 + (λt)α1

1 + (λt)α(3.22)

=λα(λt)α−1

[1 + (λt)α]2(3.23)

Distribusi ini memiliki S(t), h(t) dan f(t) yang eksplisit relatif sederhanadibandingkan dengan, misalnya, log-normal.

3.3 Estimasi parameter

Estimasi parameter suatu model survival parametrik dapat dilakukan dengan me-tode Estimasi Kebolehjadian Maksimum (Maximum Likelihood Estimation).

Page 36: Survival 2011b

3.3. Estimasi parameter 29

Definisi 3.1Fungsi kebolehjadian (likelihood function) adalah fungsi dari parameter yang di-bentuk melalui probabilitas bersama dengan diberikan realisasi atau data yangberasal dari variabel random survivalT . Apabilaf(t; θ) adalah fungsi proba-bilitas bersama, dengant adalah realisasi dariT , maka fungsi dari parameterθyang didefinisikan sebagai

L(θ | t) = f(t; θ)

dinamakan fungsi kebolehjadian.

Untuk data survival yang diasumsikan independen dan identik serta lengkap,apabila adat1, t2, . . . , tn observasi, fungsi kebolehjadian-nya adalah

L(θ | t) =n∏

i=1

f(ti; θ) (3.24)

Untuk data survival yang tidak lengkap, baik karena tersensor maupun terpotong,fungsi kebolehjadian ditentukan sebagaimana berikut ini.

Data survival dengan kemungkinan tersensor kanan dapat direpresentasikansebagai pasangan nilai observasi survival dengan status tersensornya yaitu(ti, δi),i = 1, 2, . . . , n dengan

δi =

{

0 jika i tersensor

1 jika i mendapatkan kejadian (event)(3.25)

Dengan asumsi masing-masing(Ti, δi) independen satu dengan yang lain,fungsi likelihood untuk data tersensor kanan adalah:

L(θ) ∝n∏

i=1

f(ti;θ)δiS(ti;θ)

1−δi (3.26)

denganθ = (θ1, . . . , θp) adalahp parameter yang akan diestimasi;f(ti;θ) adalahfungsi densitas untuki yang mendapatkan kejadian danS(ti;θ) adalah fungsisurvival untuki yang tidak mendapatkan kejadian.

Fungsi log-likelihood untuk data tersensor kanan dari fungsi kebolehjadian(3.26) adalah

ℓ(θ) ∝n∑

i=1

(δi) log(f(ti;θ)) +n∑

i=1

(1− δi) log(S(ti;θ)) (3.27)

Untuk data yang mungkin memuat observasi lengkap, tersensor-kanan padatitik waktu R dan terpotong-kiri pada titik waktuL, fungsi probabilitas maupun

Page 37: Survival 2011b

3.3. Estimasi parameter 30

fungsi survival pembentuk (3.26) kondisional terhadap probabilitas survive sam-pai keL, karena untuk observasi yang terpotong-kiri hanya terjadibila t ≥ L(Lihat Definisi 1.2, Bab 1) Untuk data yang tersensor-kanan tipe I, variabel indi-katorδ ditentukan sebagai berikut

δi =

{

0 jika ti > R

1 jika ti ≤ R(3.28)

atau ditulis dengan fungsi indikator,δi = I(ti ≤ R).Fungsi kebolehjadian-nya adalah

L(θ) ∝n∏

i=1

(

f(ti;θ)

S(L)

)δi (S(ti;θ)

S(L)

)1−δi

(3.29)

Dengan cara yang sama fungsi kebolehjadian untuk observasiyang merupak-an kombinasi dari terpotong-kiri, tersensor-kanan, terpotong-kanan, tersensor-kiridan observasi yang lengkap dapat disusun.

Untuk mendapatkan estimasi dariθ dapat digunakan metode kebolehjadianmaksimum (MLE: Maximum Likelihood Estimation).

Definisi 3.2Estimasi kebolehjadian Maksimumθ, ditulis θ adalah(θ1, . . . , θp) yang memak-simumkanL(θ):

Ł(θ) = maxθ

L(θ) (3.30)

Pengerjaan terkait derivatif lebih mudah dilakukan padalog(L(θ)) atau log-likehood, dinotasikan denganℓ(θ), dibandingkan padaL(θ). Karena fungsilogmerupakan fungsi yang naik tegas (strictly increasing), makaθ yang memaksi-mumkanℓ(θ) juga memaksimumkanL(θ), sehingga estimasi kebolehjadian mak-simum dapat diperoleh dari

ℓ(θ) = maxθ

ℓ(θ) (3.31)

Untuk mendapatkan MLEθ perlu dihitung terlebih dahulu titik kritis dariℓ(θ)melalui penyelesaian

∂ℓ(θ)

∂θj= 0, j = 1, 2, . . . , p (3.32)

Apabila dapat diperoleh penyelesaian dari (3.32), perlu diperiksa apakahθ me-mang memaksimalkanℓ(θ).

Untuk permasalahan yang tidak dapat diselesaikan secara analitis, metode nu-merik seperti misalnya metode Newton-Rhapson dapat digunakan untuk mencariθ.

Page 38: Survival 2011b

3.3. Estimasi parameter 31

Contoh 3.3Carilah estimator untuk parameterλ pada model survival eksponensial yang datanya dapatterkena sensor-kanan.Jawab:Fungsi kebolehjadian untuk parameterλ dengan diketahui data berdistribusi eksponensialadalah:

L(λ) =n∏

i=1

(λ exp(−λti))δi (exp(−λti))1−δi

=n∏

i=1

λδi exp(−λti)

sehingga fungsi log-likelihood nya adalah

ℓ(λ) = log λn∑

i=1

δi − λn∑

i=1

ti

Untuk data yang tersensor kanan,∑n

i=1 δi = k, dengank adalah banyaknya data yanglengkap. Untuk data survival yang lengkapk = n

Kemudian dicari titik kritisℓ(λ) melalui∂ℓ(λ)/∂λ = 0,

∂ℓ(λ)

∂λ=

∂ (k log λ− λ∑n

i=1 ti)

∂λ

=k

λ−

n∑

i=1

ti.

Penyelesaian dari

k

λ−

n∑

i=1

ti = 0

adalah

λ =k

∑ni=1 ti

.

yang merupakan MLE dariλ

Pada contoh 3.3 telah diperoleh estimator titik dari parameterλ, bila diberikandata survival berdistribusi eksponensial. Inferensi lebih lanjut dapat dilakukandengan menghitung interval konfidensi100(1− α)% berdasarkan statistik2kλ/λyang berdistribusi chi-square dengan derajad bebas2k. Rumus ini berlaku baikuntuk data lengkap maupun data yang memuat observasi tersensor-kanan.

Page 39: Survival 2011b

3.3. Estimasi parameter 32

Contoh 3.4Diketahui waktu remisi (minggu) dari 21 pasien leukemia akut sebagai berikut: 1, 1, 2, 2,3, 4, 4, 5, 5, 6, 8, 8, 9,10, 10, 12, 14, 16, 20, 24, 34Hitung interval konfidensi 95% untukλ dari data di atas, dengan asumsi data berdistribusieksponensial.Jawab: Dihitung terlebih dahulu estimasiλ. Karena data di atas lengkap,k = n

λ =n

∑ni=1 ti

=21

198= 0,1060606

Interval konfidensi 95% untukλ

λχ22n,α/2

2n< λ <

λχ22n,1−α/2

2n0, 106× 25, 999

42< λ <

0, 106× 62, 777

420, 066 < λ < 0, 156

Contoh 3.5Dalam suatu penelitian 10 tikus percobaan terpapar (exposed) ke suatu jenis penyakitkanker. Setelah 5 tikus mati percobaan dihentikan diperoleh data lama hidup tikus sbb:4, 5, 8, 9, 10, 10+, 10+, 10+, 10+, 10+. (tanda + menunjukkan tersensor-kanan). Hitunginterval konfidensi 95% untukλ, bila diasumsikan data berdistribusi eksponensial.Jawab:Estimasi untukλ dalam hal ini adalah untuk data tersensor-kanan,

λ =k

∑ni=1 ti

=5

86= 0,05814

Nilai estimasi ini menghasilkan nilai log-likelihoodℓ(0,05814) = −19,22455. Gam-bar fungsi log=likehood ini dapat dilihat pada Gambar 3.9. Garis tegak putus-putus me-nunjukkan nilai MLE dan log-likelihood maksimalnya.

Interval konfidensi 95% untukλ

λχ22k,α/2

2k< λ <

λχ22k,1−α/2

2k0,05814× 3,246973

10< λ <

0,05814× 20,48318

100,0189 < λ < 0,1191

Page 40: Survival 2011b

3.4. Latihan Bab 3 33

0.00 0.05 0.10 0.15 0.20 0.25 0.30

−32

−30

−28

−26

−24

−22

−20

λ

log−

likel

ihoo

d

Gambar 3.9: Nilai MLE dan log-likelihood pada Contoh 3.5.

3.4 Latihan Bab 3

3.1. Tahan hidup suatu jenis lampu pijar diketahui berdistribusi eksponensialdengan hazard 0,001 kerusakan per jam penggunaan

(a) Hitung mean tahan hidup lampu pijar tersebut!

(b) Hitung median tahan hidup lampu pijar tersebut!

(c) Berapa probabilitas lampu pijar tersebut masih hidup setelah 2.000jam penggunaan?

3.2. Lama (dalam satuan hari) berkembangnya tumor pada populasi tikus per-cobaan yang terpapar (exposed) oleh suatu zat penyebab kanker diketahuiberdistribusi Weibull denganα = 2 danλ =0,001

(a) Hitung probabilitas seekor tikus yang telah terpapar belum terkena tu-mor pada hari ke 30

(b) Hitung mean lama hari sampai terkena tumor (Γ(0,5) =√π)

(c) Hitung hazard rate pada hari ke 30

(d) Hitung median lama hari sampai terkena tumor

3.3. Distribusi Eksponensial dua parameter, biasa digunakan dalam permasalah-an garansi, mempunyai densitas

f(t) =

{

λ exp(−λ(t−G)) t ≥ G

0 t < G

Page 41: Survival 2011b

3.4. Latihan Bab 3 34

denganG adalah waktu garansi.

(a) Carilah fungsi Survival dan fungsi hazard nya

(b) Carilah mean dan median nya

3.4. Lihat kembali pada matakuliah Pengantar Statistika Matematika. Tunjuk-kanlah bahwa bilaλ = n/

ti denganti berdistribusi eksponensial danindependen, maka statistik2nλ/λ akan berdistribusi chi-square dengan de-rajad bebas2n!

3.5. Diketahui data antar kejadian sebagai berikut:3, 4, 4, 8, 8+, 9+, 10, 12+, 18,dengan ”+” menunjukkan data tersensor kanan.

(a) Dengan menganggap data berdistribusi eksponensial dengan fungsihazardh(t) = λ, estimasilah parameterλ

(b) Gambarlah fungsi Survival dengan menggunakan hasil estimasiλ

(c) Hitungmedian survival time-nya

3.6. Merujuk pada Soal 1.4, Bab 1:

(a) Dengan mengasumsikan lama hidup berdistribusi eksponensial, hi-tunglah estimasi fungsi hazard dari masing-masing kelompok yaituAG positive(notasikan denganh1(t)) dan AGnegative(notasikan de-nganh2(t));

(b) Buatlah sket grafik fungsi survival untuk AGpositivemaupun AGne-gativepada satu gambar dengan skala yang sama. Interpretasikan ha-silnya.

3.7. Carilah median distribusi Gompertz!

3.8. Tunjukkanlah, apabilaT berdistribusi Weibull, makaY = log(T ) yangterpotong-kiri padaT > 0 akan berdistribusi Gompertz!

3.9. Carilah median dan mean distribusi log-logistik!

Page 42: Survival 2011b

4Metode Non-parametrik dan

Uji-LogRank

4.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

4.1. Menjelaskan perbedaan metode non-parametrik dan parametrik dalam ana-lisis data survival

4.2. Melakukan estimasi Kaplan-Meier untuk fungsi survival dan menjelaskanteori yang mendasarinya

4.3. Melakukan estimasi Nelson-Aalen untuk fungsi hazard kumulatif dan men-jelaskan teori yang mendasarinya

4.4. Menggunakan Kaplan-Meier dan Nelson-Aalen dalam analisis data survival

4.5. Menjelaskan perlunya pembandingan fungsi survival dalam analisis datasurvival

4.6. Melakukan dan menggunakan metode log-rank test dan teori yang menda-sarinya

4.2 Kaplan-Meier

Untuk mengestimasiS(t) dapat digunakan estimator Kaplan-Meier atau seringjuga disebut sebagaiProduct-Limit estimatorsebagai berikut:

S(t) =

{

1 jika t < t1∏

ti≤t(1− di

Yi) jika ti ≤ t

(4.1)

35

Page 43: Survival 2011b

4.2. Kaplan-Meier 36

dimanadi adalah banyaknyaeventdanYi adalah banyaknya individu yang beresi-ko (number at risk) Estimator Kaplan-Meier merupakan fungsi tangga yang turunpada saat adaevent.

Dasar pemikiran sstimator Kaplan-Meier dapat dijelaskan seperti pada Gam-bar 4.1. Misalkaneventyang menjadi perhatian adalah meninggal (M), denganorigin mulai dari waktu 0 dan diperoleh waktu kronologis terjadinyaeventpadat1, t2 dant3. Pada saatt1, peluang meninggal dengan diketahui kondisi pada saatwaktu 0 adalahπ1, dan peluang hidup (H) atausurviveadalah1−π1. Pada saatt2,peluang meninggal dengan diketahui kondisi pada saatt1 adalahπ2, dan peluangmeninggal1 − π2. Demikian pula denganπ3 dan1 − π3. Probabilitas mening-gal π1, π2, danπ3 dapat dipandang sebagai probabilitas binomial namun denganprobabilitas sukses yang berubah-ubah menurut waktu.

Peluangsurvivesampai waktut3 adalah

(1− π1)(1− π2)(1− π3),

yaitu produk dari masing-masing peluang bersyarat mulai dari 0 sampai dengant3.

Estimator Kaplan-Meier adalah non-parametrik dalam artian tidak mengasum-sikan banyaknya parameter yang berhingga. Banyaknya parameter atau kuantitasyang akan diestimasi dalam Kaplan-Meier adalah sebanyak titik waktu di manaeventterjadi.

Untuk mengestimasiπi; i = 1, 2, . . . dapat digunakan proporsi meninggal de-ngan diberikan banyaknya yang masih hidup pada saat sebelumterjadinyaevent,seperti halnya estimator untuk peluang sukses pada binomial. Apabila di adalahbanyaknya yang meninggal pada saatti danYi adalah banyaknya yang masih hi-dup, tepat sebelum saatti, maka estimator untukπi adalahdi/Yi dan estimatoruntuk 1 − πi adalah1 − di/Yi. Estimasi untuksurvivesampai waktuk tertentumenjadi

(1− d1/Y1)(1− d2/Y2)(1− d3/Y3) . . . (1− dk/Yk)

dan apabilatk ≤ t, dengant ≥ adalah bilangan kontinu, maka estimasi untuksurvivesampait ini dapat ditulis seperti estimator Kaplan-Meier (4.1).

Untuk melakukan inferensi tentangS(t) menggunakanS(t) Kaplan-Meier,perlu dihitung terlebih dahulustandard erroratau variansi dariS(t). Variansi dariestimator KMS(t) sering disebut sebagaiGreenwood’s formula

var[S(t)] = S(t)2∑

ti≤t

diYi(Yi − di)

(4.2)

atau dapat digunakan rumus berikut sebagai alternatif

var[S(t)] = S(t)2[1− S(t)]

Y (t)(4.3)

Page 44: Survival 2011b

4.2. Kaplan-Meier 37

waktu0 t1 t2 t3

M: meninggal

H: hidupπ1

1− π1

M

H

π2

1− π2

M

H

π3

1− π3

M

H

Gambar 4.1: Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen

Tabel 4.1: Tabel Estimasi Kaplan-Meier Contoh 4.1

t Y d S(t) se[S(t)]6 21 3 1− 3/21 = 0,857 0,8572 3

(21)(18)= 0,0764

7 17 1 (1− 1/17)× 0,857 = 0,807 0,8072 . . . = 0,086910 15 1 (1− 1/15)× 0,807 = 0,753 0,7532 . . . = 0,096313 12 1 (1− 1/12)× 0,753 = 0,690 0,6902 . . . = 0,106816 11 1 (1− 1/11)× 0,690 = 0,627 0,6272 . . . = 0,114122 7 1 (1− 1/7)× 0,627 = 0,538 0,5382 . . . = 0,128223 6 1 (1− 1/6)× 0,538 = 0,448 0,4482 . . . = 0,1346

Interval konfidensi 95% dapat disusun dengan menggunakan pendekatan normalS(t)± 1,96× se[S(t)].

Contoh 4.1Diperoleh data dari studi tentang pasien leukemia seperti pada Contoh 1.7,Bab 1. BuatlahEstimasi Kaplan-Meier untuk perawatan 6-MP saja.Jawab:Pertama, data waktu diurutkan dan dihitung frekuensi banyaknya individu yang beresiko(belum mendapatkanevent) serta banyaknya event pada waktu tersebut. EstimasiS(t)kemudian dapat dihitung menggunakan persamaan (4.1) dan var[S(t)] dengan persamaan(4.2). Hasilnya dapat dilihat pada Tabel 4.1. Plot untuk estimasi Kaplan-Meier yang ber-upa fungsi tangga dapat dibuat seperti Gambar 4.2. Seperti terlihat pada Gambar, tanggaakan turun ketika terjadieventsaja. Garis pendek tegak pada grafik menunjukkan ob-

Page 45: Survival 2011b

4.3. Nelson-Aalen 38

0 5 10 15 20 25 30 35

0.0

0.2

0.4

0.6

0.8

1.0

waktu

Est

imas

i S(t

) K

M

Gambar 4.2: Grafik estimasi Kaplan-Meier Contoh 4.1

servasi yang tersensor-kanan. Paket program statistika standar biasanya dapat digunakanuntuk mengestimasi KM dan grafiknya.

4.3 Nelson-Aalen

Estimator Nelson-Aalen digunakan untuk mengestimasi fungsi hazard kumulatif,didefinisikan sebagai berikut:

H(t) =

{

0 jika t < t1∑

ti≤tdiYi

jika ti ≤ t(4.4)

dengan variansi

Var(H(t)) =∑

ti≤t

diY 2i

(4.5)

Interval konfidensi 95% dapat disusun dengan menggunakan pendekatan normalH(t)± 1,96× se[H(t)].

Prinsip konstruksi estimator Nelson-Aalen sama seperti halnya Kaplan-Meier(lihat Gambar 4.1). Estimator ini merupakan estimator non-parametrik yang

Page 46: Survival 2011b

4.3. Nelson-Aalen 39

Tabel 4.2: Tabel estimasi Nelson-Aalen untukH(t) danS(t) Contoh 4.2

t Y d H(t) S(t) = exp(−H(t))6 21 3 3/21 = 0,143 0,8677 17 1 1/17 + 0,143 = 0,202 0,817

10 15 1 1/15 + 0,202 = 0,269 0,76413 12 1 1/12 + 0,269 = 0,352 0,70316 11 1 1/11 + 0,352 = 0,443 0,64222 7 1 1/7 + 0,443 = 0,586 0,55723 6 1 1/6 + 0,586 = 0,753 0,471

mengestimasi kuantitasi yang tidak diketahui pada saat terjadinyaevent. Dalamhal ini kuantitas yang tidak diketahui adalah peluang bersyarat dengan kondisisebelumeventterjadi atau hazard nya. Apabila estimasi hazard ini dijumlahkansampai waktutk ≤ t tertentu, maka kuantitas ini adalah estimasi hazard kumulatifyang dirumuskan sebagai estimator Nelson-Aalen 4.4.

Estimasi Nelson-Aalen dapat digunakan untuk mengestimasiS(t) denganmenggunakan hubunganH(t) denganS(t), yaituS(t) = exp(−H(t)).

Contoh 4.2Menggunakan data yang sama seperti Contoh 4.1 untuk perawatan 6-MP saja (data Con-toh 1.7, Bab 1), hitung Estimasi fungsi hazard kumulatif menggunakan Nelson-Aalen danestimasi fungsi survivalnya.Jawab:Disusun tabel seperti pada Tabel Kaplan-Meier contoh 4.1. Gunakan persamaan (4.4)untuk menghitungH(t). Hasilnya adalah seperti pada Tabel 4.2. Plot untuk estimasiNelson-Aalen dapat dilihat pada Gambar 4.3.

Dapat dibandingkan nilai estimasi survival yang diperoleh dengan Nelson-Aalen se-lalu lebih besar dari nilai estimasi yang diperoleh dari Kaplan-Meier (Lihat Latihan Soal4.2).

Estimasi Kaplan-Meier maupun Nelson-Aalen dapat juga digunakan untukmembandingkan dua atau lebih kurva survival, sehingga secara deskriptif dapatdilihat dan disimpulkan kurva mana yang lebihsurvivedibandingkan yang lain.

Contoh 4.3Hitunglah estimasi Kaplan-Meier untuk data leukemia Contoh 1.7, Bab 1, untuk kelom-pok placebo. Kemudian gambarlah pada tempat yang sama dengan kelompok 6-MP yangsudah dikerjakan pada Contoh 4.1.Jawab:Estimasi Kaplan-Meier untuk kelompok placebo adalah seperti pada Tabel4.3.

Page 47: Survival 2011b

4.3. Nelson-Aalen 40

0 5 10 15 20 25 30 35

0.0

0.2

0.4

0.6

waktu

estim

asi H

(t)

Gambar 4.3: Grafik estimasi Nelson-Aalen Contoh 4.2

0 5 10 15 20 25 30 35

0.0

0.2

0.4

0.6

0.8

1.0

waktu

estim

asi S

(t)

6−MP

placebo

Gambar 4.4: Plot Estimasi Kaplan-Meier untuk terapi dan placebo datatersensor kanan.

Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat padaGambar

Page 48: Survival 2011b

4.4. Membandingkan Dua Fungsi Survival 41

Tabel 4.3: Estimasi Kaplan-Meier untuk Kelompok Placebo

t Y d S(t)1 21 2 0,90482 19 2 0,80953 17 1 0,76194 16 2 0,66675 14 2 0,57148 12 4 0,3810

11 8 2 0,285712 6 2 0,190515 4 1 0,142917 3 1 0,095222 2 1 0,047623 1 1 0,0000

4.4. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih tinggidibandingkan grup placebo.

Dalam Contoh 4.3, perbandingan hanya dilakukan secara deskriptif menggu-nakan grafik estimasi Kaplan-Meier fungsiS(t). Pengambilan kesimpulan atauinferensi statistik dapat pula dilakukan untuk membandingkan kurvaS(t) sepertiyang akan dibahas pada bagian berikut.

4.4 Membandingkan Dua Fungsi Survival

Seperti halnya permasalahan inferensi statistik yang sudah dikenal, misalnya in-ferensi mean dua populasi dalam kuliah Metode Statistika, diperlukan proseduruji yang dapat menyatakan apakah dua fungsi survival berbeda. Untuk uji duamean, dapat digunakan misalnyat-test atauZ-test. Sedangkan untuk mengujiatau membandingkan dua kurva survival atau lebih untuk datayang tidak tersen-sor dapat digunakan beberapa Metode Non-parametrik seperti metodeWilcoxon,Mann-WhitneydanSign testdapat digunakan. Sedangkan untuk data tersensorprosedur yang dapat digunakan diantaranya:Gehan’s generalized Wilcoxon test,the Cox-Mantel test, the logrank test,Peto and Peto’s generalized Wilcoxon test,Cox’s F-test, Gehan’s generalized Wilcoxon test, the Cox-Mantel test, the logranktest (1972), Peto and Peto’s generalized Wilcoxon test, danCox’s F-test. Satumetode yang akan dibahas dalam bagian ini adalahUji Logrank .

Hipotesis nol untuk uji ini adalahH0 : S1(t) = S2(t) dengan hipotesis alter-

Page 49: Survival 2011b

4.5. Latihan Bab 4 42

natif

H1 : S1(t) > S2(t)

H1 : S1(t) < S2(t)

H1 : S1(t) 6= S2(t)

Uji Logrank didasarkan pada banyaknyaobserveddanexpectedevent pada setiapevent-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistikpengujinya adalah:

W =(O1 − E1)

2

E1

+(O2 − E2)

2

E2

(4.6)

denganW ∼ χ2(df = 1). H0 ditolak dengan tingkat signifikasniα bila W >χ2(1− α, df = 1).

Contoh 4.4Merujuk ke Contoh 4.3, akan diuji apakah fungsi survival grup terapi berbeda dengangrup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 4.4 untuk digunakan dalampenghitungan 4.6. Ekspektasie1 dane2 diperoleh dengan cara mengalikan probabilitaskematian pada tiap-tiap grup (Y1/(Y1 + Y2) danY2/(Y1 + Y2) ) dikalikan total kejadian(d1 + d2), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian padabaris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup.Diperoleh statistik

W =(O1 − E1)

2

E1+

(O2 − E2)2

E2

=(9− 19, 26)2

19, 26+

(21− 10, 74)2

10, 74= 15,267

yang jauh lebih besar dari nilai daerah kritik3,8414 atau mempunyaip-value yang cukupkecil. jadi dapat disimpulkanH0 ditolak atau dua kurva survival tersebut berbeda.

4.5 Latihan Bab 4

4.1. Merujuk data soal Latihan Bab 3 no. 5

(a) Hitung estimasi fungsi survival menggunakan Kaplan-Meier

(b) Gambarlah estimasi Kaplan Meier di atas grafik fungsi survival eks-ponensial yang dibuat pada soal Latihan Bab 3 no. 5

(c) Hitunglah median survival time menggunakan Kaplan-Meier

Page 50: Survival 2011b

4.5. Latihan Bab 4 43

Tabel 4.4: Penghitungan untuk Uji log-rank

t d1 d2 Y1 Y2 e1 e21 0 2 21 21 (21/42)× 2 (21/42)× 22 0 2 21 19 (21/40)× 2 (19/40)× 23 0 1 21 17 (21/38)× 1 (17/38)× 14 0 2 21 16 (21/37)× 2 (16/37)× 25 0 2 21 14 (21/35)× 2 (14/35)× 26 3 0 21 12 (21/33)× 3 (12/33)× 37 1 0 17 12 (17/29)× 1 (12/29)× 18 0 4 16 12 (16/28)× 4 (12/28)× 4

10 1 0 15 8 (15/23)× 1 (8/23)× 111 0 2 13 8 (13/21)× 2 (8/21)× 212 0 2 12 6 (12/18)× 2 (6/18)× 213 1 0 12 4 (12/16)× 1 (4/16)× 115 0 1 11 4 (11/15)× 1 (4/15)× 116 1 0 11 3 (11/14)× 1 (3/14)× 117 0 1 10 3 (10/13)× 1 (3/13)× 122 1 1 7 2 (7/9)× 2 (2/9)× 223 1 1 6 1 (6/7)× 2 (1/7)× 2

Total 9 21 19,26 10,74

4.2. Estimasi fungsi survival dapat diperoleh dari estimator Nelson-Aalen ber-dasarkan hubungan antaraS(t) denganH(t). Apabila estimasiS(t) meng-gunakan estimator Nelson-Aalen dinotasikan sebagaiSNA(t), dan esti-masi S(t) Kaplan-Meier dinotasikan sebagaiSKM(t), tunjukkan bahwaSKM(t) ≤ SNA(t), untuk semuat.

4.3. Dalam suatu kecelakaan di pusat listrik tenaga nuklir,10 pekerja terkenaradiasi. Dengan menganggap origin (waktu 0 ) adalah saat kecelakaan, ter-dapat satu meninggal pada waktu ke-2, satu meninggal pada waktu ke-4,danx tidak diketahui nasibnya (censored) pada saat ke-3. Jika diketahuiEstimasi Kaplan-MeierS(4) = 0,75. Hitungx!

4.4. Modifikasilah rumus estimasi Nelson-Aalen bila subyeksemua mendapat-kan eventdan tidak ada yang tersensor dan tidak ada yang mendapatkaneventpada saat yang sama! Menggunakan rumus tersebut, jika diketahuiadan subyek seperti disyaratkan di atas, dan diketahui pada saatkemati-an yang ke-9 estimasi Nelson-Aalen adalah 0,511 dan pada saat kematianyang ke-10 estimasinya 0,588; Hitunglah estimasilah nilaifungsi survivalpada saat kematian yang ke-3!

4.5. Dalam suatu penelitian 300 tikus diamati mulai lahir. Tambahan 20 ekortikus mulai diamati pada saat usia 2 hari dan 30 lagi mulai diamati saat

Page 51: Survival 2011b

4.5. Latihan Bab 4 44

berusia 4 hari. Ada 6 meninggal pada usia 1; 10 pada usia 3; 10 pada usia4, a pada usia 5;b pada usia 9 dan 6 pada usia 12. Diketahui pula 45 tikustidak diketahui nasibnya pada usia 7; 35 tidak diketahui nasibnya pada usia10 dan 15 tidak diketahui nasibnya pada usia 13. Diperoleh hasil Kaplan-Meier sebagai berikut:S(7) = 0,892 danS(13) = 0,856. Hitunga danb!

4.6. Diketahui data survival sebagai berikut:grup 1 : 5 1 2 2 7 6grup 2 : 8+ 10 4+ 4 3+

dengan ”+” adalah tanda untuk data tersensor kanan.

(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier danNelson-Aalen untuk masing-masing grup

(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 denganmenggunakanlogrank test(α = 0,025)

4.7. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik.Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit kro-nis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kro-nis (grup 1) diperoleh data

Grup 1 (n = 25) Grup 2 (n = 25)12,3+, 5,4, 8,2, 12,2+, 11,7,10,0, 5,7, 9,8, 2,6, 11,0, 9,2,12,1+, 6,6, 2,2, 1,8, 10,2, 10,7,11,1, 5,3, 3,5, 9,2, 2,5, 8,7, 3,8,3,0

5,8, 2,9, 8,4, 8,3, 9,1, 4,2, 4,1,1,8, 3,1, 11,4, 2,4, 1,4, 5,9, 1,6,2,8, 4,9, 3,5, 6,5, 9,9, 3,6, 5,2,8,8, 7,8, 4,7, 3,9

tanda+ menunjukkan tersensor kanan

(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dangambarlah estimasi fungsinya

(b) Ujilah bahwa survival kedua grup tersebut berbeda dengan menggu-nakanlogrank test(α = 0,025)

Page 52: Survival 2011b

5Model Regresi Parametrik

5.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

1. Menjelaskan perlunya model regresi untuk data survival

2. Menjelaskan beberapa macam model regresi untuk data survival

3. Menjelaskan hubungan dan perbedaan Model Regresi Survival Dipercepat,Model Regresi Hazard Proporsional dan Model Regresi Hazard Aditif

4. Menjelaskan prinsip estimasi parameter dalam model Regresi Survival Pa-rametrik

5. Melakukan analisis data survival menggunakan model Regresi Survival Di-percepat Parametrik

5.2 Variabel Independen dalam Model

Data survival, seperti halnya data yang diperoleh dari berbagai macam penelitianmaupun permasalahan nyata, biasanya melibatkan lebih darisatu variabel. Datadengan satu variabel kategorik, seperti pada Bab 4.4 sebenarnya adalah data su-rvival dengan satu variabel independen. Apabila variabel independen lebih darisatu, misalnya data penyapihan (weaning data) seperti dalam contoh 1.9 Bab 1,maka untuk melakukan analisis data survival pada data seperti itu perlu digunakanmodel regresi.

Dalam model ini, diberikan nilaip variabel independen (variabel penjelas, ko-variat)X = (x1, x2, . . . , xp) untuk tiap-tiap individu atau unit sampel. Variabel

45

Page 53: Survival 2011b

5.3. Model Regresi Parametrik 46

independenx dipandang mempengaruhi data survival, misalnya sebagai (i) per-lakuan; (ii) karakteristik dari individu; (iii) variabel eksternal. Sebagai contohadalah data penderita leukemia yang disebutkan pada Contoh 1.2 Bab 1. Penga-ruh perlakuan 6-MP dan placebo terhadap lama kambuh leukemia. Dalam datapenyapihan (Contoh 1.9 Bab 1, variabel-variabel independen yang ada merupak-an karakteristik dari ibu. Variabel eksternal adalah segala informasi di luar indivi-du itu sendiri, namun diduga berpengaruh terhadap data survival. Misalnya adalahpengaruh temperatur luar terhadap tahan hidup suatu komponen. Nilai variabel inisudah diperoleh sebelum atau pada saat origin (T = 0). Dalam pengembangan-nya nilai variabel dapat berubah seiring berjalannya waktu, atau sering disebuttime-dependent covariate.

Dalam pemodelan regresi survival, pengaruhX dinyatakan sebagai skor se-tiap individu, yaitu sebagai fungsi dari koefisien regresi atau parameter bersamadenganX atau ditulis denganψ(X;θ), denganθ adalah koefisien regresi atauparameter. Misalnya

ψ(X;θ) = β0 + β1x1 + β2x2 + . . .+ βpxp,

ψ(x;θ) = exp(β0 + β1x1 + β2x2 + . . .+ βpxp),

denganθ = (β0, β1, . . . , βp). Untuk menyederhanakan penulisan dalam pemba-hasan selanjutnya,ψ(X;θ) kadang ditulis sebagaiψ saja.

PengaruhX terhadap survival dapat dimodelkan melalui hubungannya denganrealisasi variabel randomT atau melalui fungsi variabel random survival yaituS(t), h(t),H(t) atauf(t). Paling tidak ada tiga model regresi yang cukup populerdalam analisis data survival melalui hubungan dengan fungivariabel random su-rvival yaitu: Model Uji Hidup Dipercepat (Accelerated Failure Time modelatauAFT), Model Hazard Proportional atau PHM (Proportional Hazard Model) danModel Hazard Aditif . Sedangkan pemodelan melaluiT sendiri diantaranya yangpopuler adalahModel Regresi Data Tersensor dan Terpotong. Beberapa modelsaling terkait dan kadang suatu model dapat digolongkan ke dalam lebih dari satujenis model. Dalam diktat ini model yang akan dibahas lebih lanjut adalah ModelUji Hidup Dipercepat (Accelerated Failure Time model) Parametrik dan ModelRegresi Cox.

5.3 Model Regresi Parametrik

Pengertian parametrik di sini adalah bahwa banyaknya parameter dalam model re-gresi berhingga banyaknya. Termasuk dalam model parametrik ini adalah ModelUji Hidup dipercepat, sering disingkat sebagaiAFT(accelerated failure time) dan

Page 54: Survival 2011b

5.3. Model Regresi Parametrik 47

model hazard proporsional, sering disingkat sebagaiPHM (proportional hazardsmodel).

Model dasar AFT, ditulis dalamS(t), f(t) maupunh(t) adalah sebagai beri-kut,

S(t | ψ) = S0(ψt) (5.1)

f(t | ψ) = ψf0(ψt) (5.2)

h(t | ψ) = ψh0(ψt) (5.3)

dengan indeks 0 menunjukkan fungsi baseline, yaitu bentuk fungsi ketika tanpavariabel independen. JadiS0(t) adalah baseline survival,f0(t) adalah baselinefungsi densitas danh0(t) adalah baseline hazard. Baseline juga dapat diartikansebagai pembanding, yaitu pembanding antara survival ketika tanpa variabel in-dependen dengan ketika variabel independen dimasukkan dalam model.

Contoh 5.1Tulis model AFT apabila diketahui baseline nya adalah distribusi eksponensial.Jawab:Diketahui baseline survival, fungsi densitas dan hazard untuk eksponensial berturut-turutadalah

S0(t) = exp(−λt); f0(t) = λ exp(−λt);h0(t) = λ

Model AFT untuk eksponensial berdasarkan rumusan (5.1), (5.2) dan (5.3),

S(t | ψ) = exp(−ψλt); f(t | ψ) = ψλ exp(−ψλt);h(t | ψ) = ψλ

Dipercepat (accelerated) dalam model AFT untuk Contoh 5.1 dapat digambarkanseperti kurva survival pada Gambar 5.1. Untukλ yang sama (sebagai baseline),kurva survival akan menurun (kematian dipercepat) jikaψ > 1. Sebaliknya, ji-ka ψ < 1 Kurva survival akan menaik (diperlambat). Dalam hal ini pengertiandipercepat atauacceleratedsebenarnya juga dapatdeceleratedtergantung faktorpemercepat (acceleration factor) ψ. Untuk ψ = 1 bentuk kurva survival AFTsama dengan baseline nya. Deskripsi yang sama juga dapat diperoleh dari fungsihazard Gambar 5.2. Jikaψ < 1, hazard nya akan rendah (atau survival nya tinggi),dan sebaliknya. Untuk distribusi eksponensial sendiri,λ dapat dipandang sebagaifaktor pemercepat seperti halnyaψ.

Page 55: Survival 2011b

5.3. Model Regresi Parametrik 48

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

t

S(t

)

baseline survival

survival dipercepat

survival diperlambat

Gambar 5.1: Plot Fungsi Survival AFT Eksponensial

0 1 2 3 4

0.0

0.5

1.0

1.5

2.0

2.5

3.0

t

h(t)

baseline hazard

hazard diperlambat

hazard dipercepat

Gambar 5.2: Plot Fungsi Hazard AFT Eksponensial

Page 56: Survival 2011b

5.3. Model Regresi Parametrik 49

Model yang lain adalah PHM, yang mempunyai fungsi survival,densitas danhazard sebagai berikut,

S(t | ψ) = S0(t)ψ (5.4)

f(t | ψ) = ψS0(t)ψh0(t), atau f(t | ψ) = ψS0(t)

ψ−1f0(t) (5.5)

h(t | ψ) = h0(t)ψ (5.6)

Model PHM parametrik dibentuk berdasarkan rasio antara hazard yang memuatvariabel independen dengan baseline hazard yang selalu tetap atau proporsionalsepanjang waktu, yaitu sebesarψ. Model hazard proporsional akan dibahas lebihlanjut sebagai model regresi semi-parametrik Cox dalam Bab 6.Contoh 5.2Tulis model hazard proporsional apabila diketahui baseline nya adalah distribusi ekspo-nensial.Jawab:Diketahui baseline survival, fungsi densitas dan hazard untuk eksponensial berturut-turutadalah

S0(t) = exp(−λt); f0(t) = λ exp(−λt);h0(t) = λ

Model PHM untuk eksponensial berdasarkan rumusan (5.4), (5.5) dan (5.6),

S(t | ψ) = {exp(−λt)}ψ ; f(t | ψ) = ψλ {exp(−λt)}ψ ;h(t | ψ) = ψλ.

Terlihat bahwa distribusi eksponensial mempunyai bentuk fungsi hazard yang sama baikuntuk model AFT maupun PHM.

Estimasi parameter dapat diperoleh melalui MLE (maximum likelihood esti-mation). Data yang diperoleh berupa(ti, δi,Xi), i = 1, 2, . . . , n yang independensatu sama lain, denganti adalah durasi atau waktu antar kejadian dan

δi =

{

0 jika i tersensor

1 jika i mendapatkan kejadian (event)

Bentuk likelihood apabila dimungkinkan data tersensor-kanan adalah

L(θ) ∝n∏

i=1

f(ti,θ | Xi)δiS(ti,θ | Xi)

1−δi (5.7)

denganθ = (θ1, . . . , θp) adalahp parameter yang akan diestimasi;f(ti,θ | Xi)adalah fungsi densitas untuki yang mendapatkan kejadian dan mempunyai vari-abel penjelasXi; S(ti,θ | Xi) adalah fungsi survival untuki yang tidak menda-patkan kejadian (tersensor-kanan) dan mempunyai variabelpenjelasXi.

Untuk mencari nilaiβ dapat digunakan metode numerik seperti misalnyaNewton-Rhapson. Paket statistik standar biasanya memilikifasilitas untuk meng-estimasi parameter model regresi survival.

Page 57: Survival 2011b

5.4. Model Non-Parametrik dan Semi-Parametrik 50

5.4 Model Non-Parametrik dan Semi-Parametrik

Pengertian non-parametrik di sini adalah banyaknya parameter dalam model re-gresi tidak berhingga banyaknya. Namun terkadang model dapat dipandang se-bagai kombinasi parameter yang berhingga banyaknya dan diekspresikan seca-ra eksplisit dengan parameter yang dapat dianggap tidak berhingga banyaknya,model seperti ini sering disebut sebagai Semi-Parametrik.Termasuk dalam mo-del non-parametrik ini adalah (i) Model Rank Regression; (ii)Generalized Adi-tif Models. Sedangkan satu model regresi Survival yang populer sebagai Semi-Parametrik adalah Regresi Cox. Model regresi Cox akan dibahas lebih lanjut padaBab 6.

5.5 Model AFT log-linear

Dalam model regresi AFT, faktor pemercepatψ ditentukan oleh nilai variabel in-depandenX. Bentuk fungsi yang sering digunakan untukψ adalah eksponensialkarena bentuk ini menjamin nilaiψ selalu non-negatif. Sedangkan untuk meli-hat pengaruh variabel independen atau karakteristik individual terhadap survivaldigunakan kombinasi linier antara koefisien regresi dengannilai variabel indepen-den seperti yang telah dibahas pada bagian5,2. Model regresi AFT dapat disusunsebagai model linier, seperti model regresi linier biasa, dengan transformasilogpada variabel randomT .

Bentuk model AFT log-linear ini adalah sebagai berikut

log(T ) = µ+ β1X1 + β2X2 + . . .+ βpXp + σǫ

= µ+Xβ + σǫ (5.8)

denganµ adalah intersep danσ adalah parameter skala,ǫ diasumsikan berdistri-busi tertentu. Untuk selanjutnya kombinasi linier antara koefisien regresi dengannilai variabel independenβ1X1 + β2X2 + . . .+ βpXp ditulis denganXβ, denganX adalah matriks variabel independen untuk semua individu berdimensin × p,danβ adalah matriks koefisien regresi berdimensip×1. Untuk keperluan tertentukadang model (5.8) dituliskan individual untuki tertentu sebagai

log(Ti) = µ+ β1Xi1 + β2Xi2 + . . .+ βpXip + σǫi

= µ+Xiβ + σǫi (5.9)

Dapat ditunjukkan bahwa Model (5.8) merupakan model AFT dandapat di-nyatakan sebagai (5.1), (5.2) dan (5.3). Untuk menandakan bahwa variabel inde-pendenX memodifikasi fungsi survival, densitas dan hazard dalam model AFT,maka digunakan notasiS(t | X), f(t | X) danh(t | X).

Page 58: Survival 2011b

5.5. Model AFT log-linear 51

Menurut definisi fungsi survival,S(t | X) model AFT (5.8) dapat dituliskansebagai

S(t | X) = P (T > t)

= P (exp(µ+Xβ + σǫ) > t)

= P (exp(µ+ σǫ) > t exp(−Xβ)) (5.10)

Apabila semuaX bernilai 0 (baseline), maka−Xβ akan bernilai 0 pula, danexp(−Xβ) = 1, sehingga baseline survival untuk model AFT (5.8) adalah

S0(t | X) = P (exp(µ+ σǫ) > t) (5.11)

Sehingga hubungan antara survival AFT log-linear (5.10) dengan baseline survivalnya (5.11) adalah

S(t | X) = S0(t exp(−Xβ)) (5.12)

seperti (5.1) dengan faktor pemercepatψ = exp(−Xβ).Fungsi hazard model AFT log-linear dapat diturunkan melalui hubungan fung-

si survival dengan fungsi hazard kumulatifH(t) = − log(S(t)) kemudian dideri-vatifkan ket untuk mendapatkanh(t | X)

h(t | X) = exp(−Xβ)h0(t exp(−Xβ)) (5.13)

Model AFT (5.8) juga dapat dikarakterisasi berdasarkan distribusi dariǫ.

S(t | X) = P (T > t)

= P (log(T ) > log(t))

= P (µ+Xβ + σǫ > log(t)) (5.14)

= P

(

ǫ >log(t)− µ−Xβ

σ

)

(5.15)

Distribusi unutkǫ danT sebagai pasangannya beberapa di antaranya seperti yangtercantum pada Tabel 5.1. Beberapa Model tersebut secara khusus dan lebih detailakan dibahas dalam bagian selanjutnya dalam Bab ini.

Tabel 5.1: DistribusiT danǫ dalam AFT log-linear

DistribusiT DistribusiǫEeksponensial extreme value(1 parameter)

Weibull extreme value(2 parameter)gamma log-gamma

log-logistik logistiklog-normal normal

Page 59: Survival 2011b

5.6. Model Regresi Eksponensial 52

5.6 Model Regresi Eksponensial

Model regresi parametrik yang berdasar pada distribusi eksponensial dapat berupamodel AFT maupun PHM. Model regresi eksponensial dirumuskan dalam fungsihazard seperti berikut

h(t | x) = exp(Xβ) (5.16)

denganβ = (β1, . . . , βp) adalah parameter model regresi,X adalah variabel in-dependen.

Fungsi likelihoodβ untuk model regresi eksponensial dapat diperoleh dari(5.7) sebagai berikut

L(β) =n∏

i=1

f(ti,θ | Xi)δiS(ti,θ | Xi)

1−δi

=n∏

i=1

[

eXiβ exp(−eXiβt)]δi

exp[

−eXiβt]1−δi

=n∏

i=1

eδiXiβ exp(−eXiβti) (5.17)

denganXi = (xi1xi2 . . . xip) adalah vektor kovariat untuk masing-masing indivi-du,β = (β1 . . . βp)

T adalah parameter regresi.

Contoh 5.3Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1, estimasilah parametermodel regresisurvival eksponensial berikut ini,

h(t | x) = exp(β0 +X1β1) (5.18)

denganX1 bernilai 1 jika perlakuan6-MP, 0 jika placebo.Jawab:Menggunakan bantuan paket statistik diperoleh estimasi parameterβ seperti pada Tabel5.2.

Tabel 5.2: Estimasi Parameter Model (5.18)

Variabel β se(β)

Intersep β0 = −2,16 0,218

x1 (6-MP) β1 = −1,53 0,398

Dalam Tabel 5.2, terlihat bahwa pengaruh perlakuan6-MP adalah negatif terhadapkambuhnya leukemia, atau pemberian6-MP mencegah kambuhnya leukemia. Kesimpul-an ini sejalan dengan Contoh 4.3 Bab 4, yaitu bahwa perlakuan6-MP mempunyai nilaisurvival yang lebih besar dibandingkan dengan placebo.

Page 60: Survival 2011b

5.7. Model Regresi Weibull 53

5.7 Model Regresi Weibull

Pengaruh variabel independenX dalam model regresi Weibull diekspresikan me-lalui parameter skalaλ = fλ(X;β), maupun parameter bentukα = fα(X;β)dengan bentuk fungsi eksponensialexp(βX).

Model denganλ = fλ(X;β) = exp(Xβ) adalah yang sering dipakai, sehing-ga fungsi survival untuk regresi Weibull adalah

S(t | X) = exp (−(fλ(X;β)t)α) (5.19)

= exp (−(exp(Xβ)t)α) (5.20)

Apabila variabel random survivalT di-transformasikan menjadiY = log Tmaka, fungsi survivalY adalah

S(y | X) = exp (−(exp(Xβ)ey)α)

= exp (−(exp(y +Xβ))α)

= exp (−(exp(y +Xβ)α)) (5.21)

atau dapat dituliskan sebagai

S(t | X) = exp

[

− exp

(

y −Xβ

σ

)]

. (5.22)

yang dikenal sebagai fungsi survival distribusiextreme value, dengan paramaterlokasiµ = −Xβ dan parameter skalaσ = 1/α.

Fungsi likelihood model (5.22) disusun berdasarkan bentukumum fungsi li-kelihood (5.7), yaitu

L(β, σ) =n∏

i=1

f(ti,θ | Xi)δiS(ti,θ | Xi)

1−δi

=n∏

i=1

{

1

σexp

[

y − µ

σ− exp

(

y − µ

σ

)]}δi

{

exp

[

− exp

(

y − βX

σ

)]}1−δi

. (5.23)

Paket statistik standar menyediakan fasilitas untuk mengestimasiθ yang memak-simumkanL(β, σ). Beberapa paket statistik, misalnyaR dengan fungsisurvreg()dalam librarysurvival, estimasiβ yang dihasilkan perlu dikalikan dengan−1,karena spesifikasinya adalah berdasarkanµ = −Xβ, bukanµ = Xβ.

Page 61: Survival 2011b

5.8. Model Regresi Log-normal 54

Tabel 5.3: Estimasi Parameter Model (5.24)

Variabel β se(β)

Intersep β0 = −2,248 0,166

x1 (6-MP) β1 = −1,267 0,311

Contoh 5.4Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1 (atau merujuk Contoh5.3) estima-silah parameter model regresi survival Weibull

S(t | X) = exp (−(exp(β0 + β1X1))t)α) (5.24)

denganX1 bernilai 1 jika perlakuan6-MP, 0 jika placebo.Jawab:Menggunakan bantuan paket statistik diperoleh estimasi parameterβ seperti pada Tabel5.3. Terlihat bahwa pengaruh perlakuan6-MP adalah negatif terhadap kambuhnya leu-kemia, atau pemberian6-MP mencegah kambuhnya leukemia (Tabel 5.3). Dibandingkandengan hasil contoh sebelumnya dengan model regresi eksponensial(Tabel 5.2), meski-pun nilai estimasinya berbeda, kesimpulan yang diperoleh sejalan. Untuk model Weibullini diperoleh pula estimasi untukα yaitu α = 1,365758.

5.8 Model Regresi Log-normal

Variabel independenX dalam model regresi log-normal memodifikasi fungsi su-rvival (3.13) melalui parameterµ(X) = Xβ, menjadi

S(t) = 1− Φ

(

log(t)−Xβ

σ

)

(5.25)

denganΦ(x) adalah fungsi distribusi kumulatif Normal Standar.Demikian pula dengan fungsi densitas nya menjadi

f(t) =1

tσ√2π

exp

[

− 1

2σ2(log(t)−Xβ)2

]

. (5.26)

Model regresi log-normal dapat dipandang sebagai model linearlog(T ), yaitu

log T = Xβ + σǫ (5.27)

denganT berdistribusi log-normal dengan fungsi densitas (5.26), danǫ berdistri-busi normal standar.

Page 62: Survival 2011b

5.9. Model Regresi Log-logistik 55

5.9 Model Regresi Log-logistik

Variabel penjelas dalam model regresi log-logistik diekspresikan melalui parame-terλ(X) = exp(−Xβ) dalam model survival log-logistik (3.19) sebagai berikut

S(t | X) =1

1 + (exp(−Xβ)t)α(5.28)

Pada suatu titikt0 tertentu, dapat dilihat rasio antarasurvivedannon-survive

S(t0 | X)

1− S(t0 | X)=

1

(exp(−Xβ)t)α(5.29)

sebagai semacamodds ratiopada response biner. Rasio seperti (5.29) ini dapatdihitung pada semuat, tergantung titik mana yang menjadi perhatian. Kemudianapabila diambillog dari rasio tersebut maka akan diperoleh

log

[

S(t0 | X)

1− S(t0 | X)

]

= log

[

1

(exp(−Xβ)t)α

]

= −α [log(exp(−Xβ)) + log(t)]

= −α(−Xβ)− α log(t)

= Xb− α log(t) (5.30)

denganb = αβ.Model regresi log-logistik merupakan salah satu model yangmemenuhi sifat

proportional odds. Yaitu, apabila ada dua kelompok atau individui danj yangberbeda, dan odds ratio keduanya adalah proporsional atau

S(t0 | Xib)

1− S(t0 | Xib)= φ

S(t0 | Xjb)

1− S(t0 | Xjb)(5.31)

denganφ adalah konstan untuk semuat.Likelihood dan estimasi parameter model ini dapat dirumuskan dari bentuk

umum fungsi likelihood (5.7), dengan mengganti fungsi survival dengan (5.28)untuk data yang tersensor kanan; dan mengganti fungsi densitas dengan

f(t | X) = α(exp(−Xβ)t)α−1[1 + (exp(−Xβ)t)α]2 (5.32)

untuk observasi lengkap.

5.10 Identifikasi Model

Tabel 5.4 adalah ringkasan untuk mengidentifikasi distribusi model survival yangsesuai, apabila diberikan data survival tertentu. Ringkasan ini untuk data univariat(tanpa variabel independen) yang dapat menjadi dasar untukidentifikasi modelregresi survival.

Page 63: Survival 2011b

5.10. Identifikasi Model 56

Tabel 5.4: Identifikasi Distribusi

log h(t) H(t) logH(t) Koefisien variasikonstan?Eksponensial

t linear?Eksponensial

− 1 ?

t linear?Gompertz

− t linear?Gompertz

< 1?Gamma, WeibullLog-normalLog-logistik

log(t)linear?Weibull

− log(t) linear?Weibull

nonmonotonikLog-normalLog-logistik

− t linearasimtotik?Distribusi dgnekoreksponensial

> 1?Gamma, WeibullLog-normalLog-logistikCompoundexponential

5.10.1 Menggunakan Probability-Plot

Identifikasi dan penilaian distribusi dapat dilakukan menggunakan p-plot (proba-bility plot) sebagai berikut:

1. Pilih distribusi teoritis untukt

2. Hitung estimasi fungsi distribusi kumulatifF (t) sampel darit

3. Plott atau fungsi darit dengan estimasi fungsi distribusi kumulatif nya

4. Fit garis lurus pada plot tersebut

Sebagai contoh, beberapa distribusi berikut dapat dikenali melalui p-plot:

Distribusi eksponensial

plot garis lurus antarat denganlog[1

1− F (t)]

Distribusi Weibull

plot garis lurus antaralog t denganlog1

λ+

1

αlog

[

log1

1− F (t)

]

Distribusi Log-normal

plot garis lurus antaralog t denganΦ−1(F (t))

Page 64: Survival 2011b

5.11. Latihan Bab 5 57

5.10.2 Menggunakan Hazard-Plot

Hazard-plot (h-plot) lebih tepat digunakan dibandingkan p-plot jika ada data yangtersensor. Langkah-lagkahnya adalah sebagai berikut:

1. Urutkant mulai dari yang terkecil sampai yang terbesar.

2. Beri angkan untuk yang terkecil dann − 1 untuk yang berikutnya sampaiyang terbesar diberi angka1. Angka ini dinamakanK penomoran terbalik(reserve-order numbers).

3. Hitung estimasi hazard1/K, untuk data yang lengkap (tidak tersensor) saja.

4. Hitung Nilai hazard kumulatif

Sebagai contoh, beberapa distribusi berikut dapat dikenali melalui h-plot:

Distribusi Eksponensial

plot garis lurus antarat denganlog[H(t)]

Distribusi Weibull

plot garis lurus antaralog t denganlog[H(t)]

Distribusi Log-normal

plot garis lurus antaralog t denganΦ−1([1− e−H(t)])

Nilai H(t) juga dapat menggunakan Nelson-Aalen.

5.11 Latihan Bab 5

5.1. Tulislah model AFT untuk model baseline survival dan hazard Weibull!

5.2. Diketahuibaseline hazard functionh(t) = θeαt, θ, α > 0, t ≥ 0.

(a) Tulislah model AFT daribaseline hazard functiondi atas, dengan satuvariabel penjelas

x =

{

1 jika subyek adalah laki-laki

0 jika subyek adalah perempuan

Page 65: Survival 2011b

5.11. Latihan Bab 5 58

Tabel 5.5: Data Soal 5.6

i t status x1i x2i1 1 meninggal 2 12 2 meninggal 1 13 3 tersensor-kanan 4 44 5 tersensor-kanan 8 8

(b) Buatlah grafik fungsi survival model AFT tersebut untuk masing-masing kelompok laki-laki dan perempuan (dalam satu gambar), jikadiketahuiβ = 0,5

(c) Interpretasikan grafik tersebut!

5.3. UntukT berdistribusi eksponensial, tunjukkan bahwa fungsi survival AFTekivalen dengan fungsi survivalparametric proportional hazards(modelproportional hazardsdenganh0(t) konstan).

5.4. Apabila rasio antara dua fungsi hazardh(t | x1) danh(t | x2) adalah kons-tan sepanjang waktut, maka dikatakanh(t | xj) adalah Model hazard pro-porsional (atauPHM : proportional hazard models). Tunjukkan bahwa mo-del

λ1(t | x) = λ(t) exp

(

p∑

j=1

βjxj

)

adalah PHM, sedangkan

λ2(t | x) = λ(t) +

p∑

j=1

βjxj

adalah bukan PHM, jika diketahuiλ(t) bukan fungsi konstan terhadapt.

5.5. Dengan menggunakan model regresi Weibull, estimasilah parameter regresih(t | X) = exp(Xβ), denganT adalah lama waktu sampai rusaknya kom-ponen elektrik danX adalah voltase, pada data pada Tabel 1.2, Contoh 1.8Bab 1!

5.6. Diberikan model hazardh(t | x) = β1x1 + β2x2, denganβ1 danβ2 adalahparameter regresi,T adalah usia meninggal. Dengan mengasumsikan dis-tribusi eksponensial Carilah MLEβ1 dan β2, apabila diberikan data Tabel5.5 ini dan hitunglah nilainya.

Page 66: Survival 2011b

5.11. Latihan Bab 5 59

Tabel 5.6: Data Soal 5.7

Laki-laki PerempuanUsia 100 125 150 100 125 150

50 13 12 85 3 12 4951 11 21 95 7 13 5352 8 8 105 8 13 6953 10 20 113 12 16 6154 8 11 109 12 15 6055 13 22 126 8 12 6856 19 16 142 11 11 9657 9 19 145 5 19 9758 17 23 155 5 17 9359 14 28 182 9 14 96

5.7. Diberikan data mortalitas (usia kematian) antara 50-59 tahun dan informasitekanan darah sistolik untuk laki-laki maupun perempuan seperti pada Tabel5.6.

(a) Tulislah model AFT Gompertz apabila diberikanx1 adalah 1 jika per-empuan, 0 jika laki-laki;x2 adalah tekanan darah.

(b) Estimasilah parameter model AFT Gompertz

5.8. Durasi pemogokan buruh mengikuti model regresi hazardproporsional (pa-rametrik) dengan baseline hazard konstan (berdistribusi eksponensial). Va-riabel independen yang menjadi perhatian adalah indeks kondisi perburuhan(terkait Upah minimum, tunjangan, asuransi, dst.). Apabila indeks bernilai10, mean durasi pemogokan 0,2 tahun. Jika indeks bernilai 25, median du-rasi pemogokan 0,04 tahun. Berapa peluang akan terjadi pemogokan selamalebih dari satu tahun jika indeks kondisi perburuhan bernilai 5?

Page 67: Survival 2011b

6Regresi Cox

6.1 Tujuan Pembelajaran

Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkandapat:

6.1. Menjelaskan prinsipPartial Likelihood dalam estimasi parameter modelRegresi Cox

6.2. Melakukan analisis data survival menggunakan model Regresi Cox

6.3. Menjelaskan prinsip metode untuk datatiesdalam regresi Cox

6.4. Menjelaskan prinsip stratifikasi dan non-proporsionalitas

6.2 Model dan Asumsi

Model Regresi Cox adalah model regresi hazard proporsional dengan fungsiba-seline hazardnya dimodelkan secara non-parametrik dan fungsi variabel inde-pendennya dimodelkan secara parametrik. Sehingga model ini dikenal juga se-bagaiCox proportional hazards model(Cox, 1975; Cox, 1972) atauCox Semi-parametric hazards model.

Regresi Cox dimodelkan sebagai berikut

h(t | x) = h0(t)ψ(x,β) (6.1)

denganx = (x1, . . . , xp) adalah vektor kovariat (variabel independen) danβ′ =(β1, . . . , βp) adalah parameter dari model regresi. Dalam regresi ini hazard untuktiap-tiap individu sama dengan baseline hazardh0(t) apabila pengaruh variabel

60

Page 68: Survival 2011b

6.2. Model dan Asumsi 61

0.0

0.1

0.2

0.3

0.4

0.5

0.6

S(t

)

t

Gambar 6.1: Kurva hazard untuk dua grup atau individu yang berbeda,λ1 = 0, 1danλ2 = 0, 3

independen tidak diperhatikan, atau nilaix = (x1, . . . , xp) semuanya sama de-ngan nol. Hazard dari masing-masing individu termodifikasisecara multiplikatifoleh karakteristik masing-masing individu, yang diekspresikan denganψ(x,β).

Asumsi yang mendasari model ini adalah proporsionalitas. Asumsi ini dapatdigambarkan seperti pada Gambar 6.1. Misalkan ada dua grup atau dua individuyang masing-masing mempunyai hazardλ1 = 0,1 danλ2 = 0,3. Hazard ratio darikedua individu ini adalahλ2/λ1 = 0,3/0,1 = 3. Nilai hazard ratio ini tetap ataukonstan atau proporsional sepanjang waktu. Asumsi hazard ratio yang konstaninilah yang mendasari Regresi Cox.

Dalam asumsi hazard proporsional, semua individu dianggapmempunyai satubaseline hazard yang sama yang kemudian nilainya menjadi berbeda atau termo-difikasi sesuai karakteristik atau informasi pada masing-masing individu. Dalamcontoh hazard ratio di atas, jika baseline hazard nya adalahh0(t) = 0,1 makaindividu pertama tidak memodifikasi hazardnya karenaλ1 = 0,1, tetapi individukedua memodifikasi menjadiλ2 = 0,3.

Ilustrasi yang lain, misalnya baseline hazard pada satu populasi mengikuti ha-zard distribusi Weibull dengan parameterα danλ tertentu. Kemudian ada satu

Page 69: Survival 2011b

6.3. Estimasi parameter 62

kelompok yang termodifikasi nilai hazard nya menjadi 2 kalinya, sedangkan ke-lompok yang lain menjadi 0,8 kali nya. Gambar hazard untuk populasi ini adalahseperti pada Gambar 6.2. Garis utuh adalah baseline hazardh0(t). Hazard initermodifikasi menjadi2h0(t) dan menjadi0,8h0(t). Meskipun hazardnya menjadiberbeda namun rasio hazardnya selalu tetap, yaitu 2 untuk kelompok yang pertamdan 0,8 untuk kelompok yang kedua.

Model hazard proporsional dapat dimodelkan secara paramatrik maupun non-parametrik atau semi-parametrik. Model hazard proporsional semi-parametriksering dinamakan sebagai Model regresi Cox. Berikut ini berturut-turut adalahfungsi hazard, survival dan hazard kumulatif untuk model regresi Cox.

h(t | X) = h0(t)exp(Xβ) (6.2)

S(t | X) = S0(t)exp(Xβ) (6.3)

H(t | X) = H0(t) exp(Xβ) (6.4)

denganX,β, h0, S0 danH0 sama seperti yang didefinisikan pada model AFT.

6.3 Estimasi parameter

Estimasi parameter pada model Regresi didasarkan pada Partial Likelihood:

L(β) =∏

k∈D

exp(xkβ)∑

j∈Rkexp(xjβ)

(6.5)

denganx adalah vektor kovariat (variabel penjelas);β adalah parameter regresiyang akan diestimasi;D adalah himpunan indeksj dari semua waktu kejadian(semuatj yang mendapatkan kejadian);Rk adalah himpunan resiko (risk set) ,semua individu (subyek) yang belum mendapatkan kejadian pada saat tertentu.

Sebagai ilustrasi untuk Partial Likelihood, misal dipunyai data survival sepertipada Tabel 6.1. Data dalam Tabel tersebut terdiri atast sebagai data survival,δadalah indikator tersensor-kanan, danx variabel penjelas atau kovariat. Sedangk-an ID adalah identitas atau nomor urut individu. Model yang menjadi perhatianadalah

h(t | x) = h0(t) exp(xβ) (6.6)

Data pada Tabel 6.1 dapat di-ilustrasikan seperti Gambar 6.3. Tiap individumemiliki skor sebagai fungsi dari variabel penjelas yang dimiliki masing-masing.

Page 70: Survival 2011b

6.3. Estimasi parameter 63

01

23

45

h(t)

h0(t)

2h0(t)

0.8h0(t)

t

Gambar 6.2: Baseline hazard dan kurva hazard untuk dua grup yang berbeda,λ1 = 0, 1 danλ2 = 0, 3

Tabel 6.1: Contoh data survival untuk ilustrasi Partial Likelihood

ID t δ x1 5 1 2,582 7 1 1,363 2 1 -0,544 4 0 3,30

Page 71: Survival 2011b

6.3. Estimasi parameter 64

e2,58β

e2,58β+e1,36β

ψ(1) = e2,58β

e1,36β

e1,36β

ψ(2) = e1,36β

e-0,54β

e2,58β+e1,36β+e-0,54β+e3,30β

ψ(3) = e-0,54β

ψ(4) = e3,30β

2 4 5 7

waktu

Gambar 6.3: Ilustrasi untuk Partial Likelihood Data Tabel 6.6

Dalam regresi linear, skor adalah kombinasi linear dari variabel penjelas dengankoefisien regresi. Demikian halnya dengan regresi Cox skor tersebut merupak-an eksponensial kombinasi linear dari variabel penjelas dengan koefisien regresi,yang dinotasikan denganψ. Sebagai contoh, individu ke-2 akan mempunyai skorψ(2) = exp(1,36β).

Himpunan resiko (risk set) dalam partial likelihood adalah himpunan semuaindividu yang mempuunyai kemungkinan untu mendapatkaneventtepat sebelumsuatu titik waktu. Sebagai contoh, lihat Gambar 6.3, pada saat t = 5, himpunanresiko nya adalah individu 1 dan 2 saja (yang terlewati garisvertikal pada saatt = 5. Mereka adalah individu yang masih mungkin untuk mendapatkan eventpada saat tepat sebelumt = 5 (limit dari kiri mendekati 5). Sedangkan individuke-3 sudah mendapatkaneventsebelumnya, dan individu ke-4 tersensor sebelumt = 5. Pada suatu titik waktu dapat dilihat rasio antara skor individu yang men-dapatkan event pada titik waktu tersebut, dibandingkan dengan jumlahan skor in-dividu dalam himpunan resiko. Sebagai contoh pada saatt = 5, rasio skor-nyaadalah

ψ(1)

psi(1) + ψ(2).

Rasio skor inilah yang menjadi dasar pembentukan partial likelihood.Rumusan partial likelihood (6.5) menyatakan bahwa produk dari rasio skor

hanya dihitung pada saat adaevent. Sehingga produk tersebut hanya berjalansebanyakeventyang terjadi. Dalam ilustrasi ini hanya ada 3event, yang berartihanya ada 3 rasio skor yang membentuk produk.

Page 72: Survival 2011b

6.3. Estimasi parameter 65

−3 −2 −1 0 1

−4.

5−

4.0

−3.

5−

3.0

−2.

5−

2.0

−1.

5

β

log.

likel

ihoo

d(β)

−0.655

Gambar 6.4: Fungsi Partial Likelihood (6.7)

Partial likelihood untuk data ilustrasi ini dapat disusun sebagai berikut,

L(β) =ψ(3)

ψ(1) + ψ(2) + ψ(3) + ψ(4)× ψ(1)

ψ(1) + ψ(2)× ψ(2)

ψ(2)

=e-0,54β

e2,58β + e1,36β + e-0,54β + e3,30β× e2,58β

e2,58β + e1,36β× e1,36β

e1,36β(6.7)

Gambar 6.4 adalah gambar fungsi log partial-likelihood terhadap parameterβ.Terlihat pada gambar tersebut bahwa nilai parameterβ yang memaksimumkanlog partial-likelihood terletak pada(β) = -0,655, dengan nilai partial likelihoodlog(L(-0,655)) = -1,575, atau partial likelihood sebesarL(-0,655) = 0,207. Nilai(β) inilah yang menjadi estimasi untuk parameter dalam regresiCox.

Banyak metode yang dapat digunakan untuk mencari estimator yang memak-simalkan Partial Likelihood. Salah satu diantaranya adalah MetodeNewton Rha-pson. Metode ini memerlukan turunan pertama dan kedua fungsiPartial Likeli-hoodterhadap parameternya.

Dengan alasan yang sama seperti pada Bagian 3.3 Bab 3, log Partial Likeli-hood lebih mudah dalam manipulasi dan komputasi dibandingkan denganPartialLikelihoodnya sendiri.

Fungsi logPartial Likelihoodℓ(β) dapat diperoleh dari persamaan (6.5) seba-

Page 73: Survival 2011b

6.3. Estimasi parameter 66

gai berikut

ℓ(β) =∑

k∈D

xkβ −∑

k∈D

log

(

j∈Rk

exp(xjβ)

)

(6.8)

Turunan pertama dariℓ(β) atau sering disebut sebagaiscore functionadalah

Uh(β) =∑

k∈D

x(k)h −∑

k∈D

j∈Rkx(j)h exp(xjβ)

j∈Rkexp(xjβ)

(6.9)

denganh = 1, . . . , p, yaitu banyaknya parameter dalam model.Negatif turunan kedua dariℓ(β) atau sering disebut sebagaiinformation ma-

trix nya adalah

Igh(β) =∑

k∈D

j∈Rkxjgxjh exp(xjβ)

j∈Rkexp(xjβ)

−∑

k∈D

[

j∈Rkxjg exp(xjβ)

j∈Rkexp(xjβ)

]

[

j∈Rkxjh exp(xjβ)

j∈Rkexp(xjβ)

]

(6.10)

dengang, h = 1, . . . , pUntuk menyederhanakan penulisan didefinisikan

Akh(β) =

j∈Rkx(j)h exp(xjβ)

j∈Rkexp(xjβ)

(6.11)

sehingga turunan pertama dariℓ(β) dapat ditulis sebagai

Uh(β) =∑

k∈D

[

x(k)h − Akh(β)]

(6.12)

dan turunan kedua dariℓ(β) dapat ditulis sebagai

Igh(β) =∑

k∈D

[

j∈Rkxjgxjh exp(xjβ)

j∈Rkexp(xjβ)

− Akg(β)Akh(β)

]

(6.13)

Algoritma Newton-Rhapson untuk estimasi parameter berdasarkan logPartial-Likelihoodadalah sebagai berikut

1. Mulai dengan nilai awalβ(0)

2. Pada iterasi ke-k, nilai estimasi Estimasi di-update

β(k+1)

= β(k)

+ I(β(k))−1

U(β(k))

Page 74: Survival 2011b

6.4. TiesdalamPartial Likelihood 67

3. Iterasi dihentikan dengan kriteria kekonvergenanℓ(β(k+1)

) ≈ ℓ(β(k))

4. Diperoleh estimasiβ dan variansinyaV(β) = I(β)−1

Beberapa paket statistik standar seperti SAS, S-PLUS, SPSS,MINITAB, STA-TA dan R menyediakan fasilitas untuk melakukan estimasi Partial Likelihood se-perti tersebut di atas.

6.4 Ties dalam Partial Likelihood

Bilamana terdapatties (data yang mempunyai nilai survival yang sama), PartialLikelihood akan bermasalah dalam menentukan himpunan resiko nya. Untuk ituperlu modifikasi dari rumusan Partial Likelihood (6.5).

Diberikan data survival:t1 < t2 < . . . < tn(D) dengann(D) adalah banyaknyawaktu t yang mendapatkan kejadian;dk adalah banyaknya kejadian saattk (jikadk¿1 dinamakanties); Dk adalah himpunan individu yang mendapatkan kejadiansaattk; Sk =

j∈D xj adalah jumlahan nilai variabelx pada saattk.Metode yang dapat digunakan untuk mengatasi ties adalah metode Breslow,

Efron dan Exact (metode diskret). Dalam diktat ini akan dibahas metode Breslowdan Efron.

Partial Likelihood dalam metode Breslow adalah sebagai berikut:

L(β) =∏

k∈D

exp(Skβ)[

j∈Rkexp(xjβ)

]dk(6.14)

Untuk metode Efron modifikasii nya adalah sebagai berikut:

L(β) =∏

k∈D

exp(Skβ)∏dk

j=1

[

i∈Rkexp(xiβ)− j−1

dk

i∈Dkexp(xiβ)

] (6.15)

6.5 Interpretasi Parameter

Parameter dalam regresi Cox dapat diinterpretasikan sebagai hazard ratio. Mi-salkan diberikan model regresi Cox dengan satu variabel independen

h(t | x) = h0(t) exp(xβ)

dengan

x =

{

0 placebo

1 obat baru

Page 75: Survival 2011b

6.6. Stratifikasi 68

makahazard ratio(HR) untuk hazard obat baru terhadap placebo adalah

HR =h(t | x = 1)

h(t | x = 0)

=h0(t) exp(1× β)

h0(t) exp(0× β)

= exp(β)

Interpretasinya, jikaβ = 0 maka obat baru dan placebo sama efeknya. Namunjika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo(resiko kematian lebih rendah). Kemudian jikaβ > 0 obat baru memberikan efekyang lebih buruk daripada placebo (resiko kematian lebih tinggi)

Secara umum nilai estimasiβ dapat digunakan untuk mengidentifikasi faktorresiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependentime-to-eventT .

6.6 Stratifikasi

Stratifikasi dalam model Cox memungkinkan untuk menentukan baseline haza-rd yang berbeda untuk masing-msing strata namun parameterβ sama untuk tiapstrata, yaitu

hj(t | x) = h0j exp(xβ) (6.16)

denganj = 1, . . . , s adalah banyaknya strata.Estimasi untukβ menggunakan partial likelihood (6.5) atau modifikasinya

untuk data ties dengan Breslow (6.14) atau Efron (6.15). Partial likelihood denganstrata adalah sebagai berikut

ℓ(β) = ℓ1(β) + ℓ2(β) + . . .+ ℓs(β) (6.17)

denganℓj(β), j = 1, . . . , s adalah partial likelihood yang dihitung hanya padasubset data dalam strata ke-j.

6.7 Inferensi Parameter Regresi Cox

Metode inferensi standar yang berdasar pada sifat asimptotik likelihood, yaituWald Test, Score TestdanLikelihood Ratio Test, dapat digunakan untuk inferensiparameter regresi Cox.

Bila hipotesis nol uji adalahH0 : β = β0, maka berturut-turut statistik uji dariWald Test, Score TestdanLikelihood Ratio Testadalah

Page 76: Survival 2011b

6.7. Inferensi Parameter Regresi Cox 69

Wald Test

χ2W = (β − β0)

TI(β)(β − β0) (6.18)

Score Test

χ2SC = U(β0)

TI−1(β0)U(β0) (6.19)

Likelihood Ratio Test

χ2LR = 2(ℓ(β)− ℓ(β0)) (6.20)

Untukn cukup besarχ2W ,χ2

LR,χ2SC berdistribusi Chi-square dengan derajad bebas

p, dengan asumsiH0 benar.

Contoh 6.1Merujuk ke data contoh 1.9 Bab 1, lakukan analisis data menggunakan regresi Cox.

Jawab: Latar belakang permasalahan dalam data tersebut adalah penelitian terkaitfaktor-faktor yang mempengaruhi lama menyusui. Data survival yang menjadi perhatianadalah lama waktu mulai dari bayi diberi ASI sampai disapih (dihentikannyapemberianASI) atau pengamatan berakhir, karena penelitian telah berakhir maupun karena subyektidak berpartisipasi lagi dalam penelitian.

Model regresi Cox dapat dimulai dari model yang memuat semua variabelyang men-jadi perhatian, kemudian diuji apakah kontribusi masing-masing variabel pada model cu-kup signifikan dalam menaikkan nilai partial likelihood. Dapat digunakan ujilikelihoodratio untuk membandingkan model yang akan dievaluasi dengan model pada saat awal.

Model regresi Cox dengan semua variabel yang menjadi perhatian adalah sebagaiberikut,

h(t | x) = h0(t) exp (x1β1 + x2β2 + x3β3 + x4β4 + x5β5 + x6β6 + x7β7 + x8β8)(6.21)

denganx1 adalah variabel boneka bentukan dari variabelrace, x1 = 1 jika ras kulithitam, 0 jika ras putih atau lainnya ;x2 adalah variabel boneka bentukan dari variabelrace, x2 = 1 jika ras lainnya,0 jika ras hitam atau putih;x3 = 1 jika ibu dikategorikanmiskin, 0 jika tidak;x4 = 1 jika ibu merokok, 0 jika tidak;x5 = 1 jika ibu peminumalkohol, 0 jika tidak;x6 adalah usia ibu saat melahirkan,x7 adalah lama pendidikan; danx8 = 1 jika periksa kehamilan setelah bulan ketiga, 0 jika tidak. Menggunakan alat bantupaket statistik, dapat diperoleh parameter dari partial likelihood model regresi Cox di atas.

Dihitung uji likelihood ratio

χ2LR = 2(ℓ(β)− ℓ(β0)) (6.22)

denganℓ(β) adalah log-partial-likelihood pada model yang akan dievaluasi,ℓ(β0) adalahlog-partial-likelihood pada model pembanding. Hipotesis nol untuk uji ini adalahH0 :β = β0.

Page 77: Survival 2011b

6.7. Inferensi Parameter Regresi Cox 70

Tabel 6.2: Uji Likelihood Ratio Model (6.21)

Variabel db LRT p-valuerace 2 11,0012 0,004084

poverty 1 5,2354 0,022131smoke 1 9,5823 0,001965

alcohol 1 1,8002 0,179693agemth 1 1,4301 0,231752yschool 1 5,8138 0,015901pc3mth 1 0,0876 0,767215

db: derajat bebas

LRT: likelihood-ratio test

Untuk melihat kontribusi masing-masing variabel terhadap nilai likelihood, maka se-tiap variabel diuji dengan likelihood-ratio test. Model dengan variabel penuh (semuavariabel dalam model (6.21)) dibandingkan dengan model yang telah dikurangi satu va-riabel yang diuji. Misalnya untuk variabelrace. Model dengan semua variabel termasukracemempunyai log-partial-likelihood -5175.520 (dapat dihitung dengan paketstatistik).Model dengan semua variabel kecuali race mempunyai log-partial-likelihood -5181.021.Sehingga uji LR untukraceadalah

χ2LR = 2((−5175,520)− (−5181,021)

= 11,002

Nilai probabilitas signifikansinya (p-value) adalahP (W > 11,002) = 0,00408, denganW berdistribusiχ2

b=2. Variabelrace dalam model ini memberikan dua variabel bonekakarenarace mempunyai 3 kategori (variabelx1 danx2 dalam model (6.21)), sehinggamemberi kontribusi 2 parameter pula (β1 danβ2). Nilai beda dalam banyaknya parameterinilah yang menentukan derajat bebas dalam uji LR. Hasil lengkap uji LR untuk semuavariabel adalah seperti pada Tabel 6.2.

Terlihat bahwa variabelrace, poverty, smokedan yschoolsignifikan dalam model.Sehingga model yang lebih baik dengan lebih sedikit parameter dan log-partial-likelihoodyang masih besar adalah

h(t | x) = h0(t) exp (x1β1 + x2β2 + x3β3 + x4β4 + x5β5 + x7β7) (6.23)

dengan Nilai Uji LR seperti pada Tabel 6.3. Hasil estimasi parameter model(6.23) adalahseperti pada Tabel 6.4.

Model (6.23) dengan uji kebaikan model Tabel 6.3 dan hasil estimasi Tabel 6.4 me-rupakan model final untuk data ini. Tentu saja masih harus dilihat secara substansi dandiinterpretasikan nilai koefisien dari masing-masing estimasi parameter.

Interpretasi model dapat dilihat selain padaβ juga pada nilaiexp(β) yang juga me-rupakan nilai hazard ratio nya. Pada variabel ras, kulit hitam dan lainnya mempunyai

Page 78: Survival 2011b

6.7. Inferensi Parameter Regresi Cox 71

Tabel 6.3: Uji Likelihood Ratio Model (6.23)

Variabel db LRT p-valuerace 2 10,7434 0,004646

poverty 1 5,3205 0,021076smoke 1 11,0858 0,000870

yschool 1 3,8197 0,050653db: derajat bebas

LRT: likelihood-ratio test

Tabel 6.4: Estimasi parameterβ Model (6.23)

Variabel β exp(β) se(β)x1 (ras kulit hitam) 0,17835 1,19524 0,10406

x2 (ras lainnya) 0,30563 1,35748 0,09706x3 (poverty) -0,20954 0,81096 0,09233x4 (smoke) 0,26437 1,30261 0,07825x7 (yschool) -0,03731 0,96338 0,01914

hazard ratio yang lebih tinggi dari kulit putih,exp(β1) > 1 danexp(β2) > 1. Hazardratio yang lebih besar dari satu berarti kecenderungan untuk berhenti menyusui lebih awaldi kalangan kulit hitam dan lainnya cukup tinggi. Merokok juga mempunyai hazard ratioyang lebih tinggi dari tidak merokok (β4 > 1). Sehingga dapat di-interpretasikan me-rokok mengakibatkan penhyapihan yang lebih cepat. Sebailknya, kemiskinan, maupunberpendidikan memperlama penyapihan. Secara substansial, mungkin karena ibu yangmiskin cenderung tidak mampu membeli susu formula dan menggantinya dengan ASI.Untuk ibu yang berpendidikan barangkali sudah cukup tahu manfaat ASI sehingga lebihlama dalam memberikan ASI.

Untuk menunjukkan efek variabel penjelas pada survival (lama menyusui dalam con-toh ini), dapat digunakan plot estimasi fungsi survival. Misalnya ingin dilihat pengaruhmerokok terhadap lama menyusui. Plot fungsi survival dapat dibuat untuk masing-masingstatus merokok (variabelsmoke) dengan model

S(t | x) = Sj(t)exp(xβ), (6.24)

denganj = 1, 2 adalah strata, menjadi anggota strataj = 1 jika x4 = 0 (bukan perokok),menjadi anggota strataj = 2 jika x4 = 1 (perokok). Untuk membuat plot kurva survivaldigunakan nilaiβ dan nilaix yang sama untuk masing-masing strata, dapat diambil nilairata-ratanya. Grafiknya adalah seperti pada Gambar 6.5. Terlihat bahwa perokok mem-punyai kurva survival yang lebih rendah daripada bukan-perokok, atau ibu yang merokokcenereung lebih cepat menghentikan pemberian ASI.

Page 79: Survival 2011b

6.8. Latihan Bab 6 72

0 20 40 60 80

0.0

0.2

0.4

0.6

0.8

1.0

t (minggu)

estim

asi S

(t)

bukan perokok

perokok

Gambar 6.5: Plot estimasi kurva survival Model (6.24)

6.8 Latihan Bab 6

6.1. Diketahui model regresi hazard proporsionalh(t | x) = h0(t) exp(xβ),dengan variabel randomT adalah lama hidup seorang pasien dan

x =

{

1 jika pasien mendapatkan placebo

1 jika pasien mendapatkan obat baru

Interpretasikan model ini berdasarkanhazard ratiountuk nilaiβ = 0, β < 0danβ > 0!

6.2. Diketahui data lama hidup (dalam hari) dua kelompok perlakuan untuktikus yang terkena suatu jenis kanker:Kelompok 1 188 192 206 227 265+ 304 244+Kelompok 2 156 163 205 232 233 239 240 261+ 204+

344+dengan tanda+ menunjukkan data tersensor.

(a) Buatlah grafik estimasi fungsi survival menggunakan Kaplan-Meieruntuk masing-masing kelompok (Gambarlah pada tempat yang samadengan skala yang sama agar dapat dilihat perbedaannya)

Page 80: Survival 2011b

6.8. Latihan Bab 6 73

(b) Ujilah apakah dua kelompok tersebut mempunyai fungsi survival yangsama dengan menggunakan uji logrank.

6.3. Diketahui data survival sebagai berikut:grup 1 : 5 1 2 2 7 6grup 2 : 8+ 10 4+ 4 3+

dengan ”+” adalah tanda untuk data tersensor kanan.

(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier danNelson-Aalen untuk masing-masing grup

(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 denganmenggunakanlogrank test(α = 0,025)

6.4. TulislahPartial LikelihoodL(β) untuk data soal nomor 3 dengan variabelindependenx adalah grup, yaitux = 0 jika subyek dari grup 1, danx = 1jika subyek berasal dari grup 2, danβ adalah koefisien regresi untukx.Kemudian hitunglahL(β = −2). (Gunakan metode Breslow jika adaties)

6.5. Merujuk data seperti soal 1.4 Bab 1 (33 pasien leukemia),diberikan modelregresi hazard proporsionalh(t | X) = h0(t) exp(X1β1+X2β2). Diperolehestimasi parameter danstandard errornya: β1 = −1,089, σ(β1) = 0,4263dan β2 = 0,7840, σ(β2) = 0,4994; dengan log-likelihood model tanpavariabel penjelas (null model) adalah−85,05447 dan log-likelihood keti-ka mencapai maksimum adalah−79,79271. Interpretasikan hasilnya danhitung uji likelihood rationya.

6.6. Diketahui data lama hidup 30 orang pasien yang menderita suatu penyakittertentu seperti tersebut di bawah, dengan variabelx1 = 1 adalah pasienberusia lebih dari 50 tahun; danx2 = 1 adalah pasien dengan tingkat kepa-rahan penyakit tinggi.

(a) Hitunglah estimasi fungsi survival data tersebut dengan menggunak-an estimasi Kaplan-Meier (tanpa variabelx1,x2) dan gambarlah kurvanya!

(b) Dengan menggunakan paket statistikR diperoleh hasil sebagai beri-kut:

Call:coxph(formula = Surv(dur, d) ˜ x1 + x2)

coef exp(coef) se(coef) z px1 1.046 2.85 0.458 2.284 0.022x2 0.359 1.43 0.440 0.815 0.420

Page 81: Survival 2011b

6.8. Latihan Bab 6 74

Data:lama hidup x1 x2 lama hidup x1 x2

18 0 0 8 1 09 0 1 2 1 1

28+ 0 0 26+ 1 031 0 1 10 1 139+ 0 1 4 1 019+ 0 1 3 1 045+ 0 1 4 1 06 0 1 18 1 18 0 1 8 1 1

15 0 1 3 1 123 0 0 14 1 128+ 0 0 3 1 07 0 1 13 1 1

12 1 0 13 1 19 1 0 35+ 1 0

Likelihood ratio test=5.76 on 2 df, p=0.0561 n= 30

Interpretasikanlah hasilnya!

(c) Diberikan model regresi hazard proporsionalh(t | x) =h0(t) exp(x1β1). Bila observasi dibatasi hanya untukt < 5 saja,tulislah fungsipartial log-likelihooduntuk model tersebut!

(d) Diberikan model regresi hazard proporsionalhj(t | x) =h0j(t) exp(x1β1), denganj = 1, 2 adalah strata yang keanggotaansatu subyek dalam suatu strata ditentukan oleh nilai variabel x2, yaitu:menjadi anggota strata 1, jikax2 = 0; menjadi anggota strata 2, jikax2 = 1. Bila observasi dibatasi hanya untukt < 5 saja, tulislah fungsipartial log-likelihooduntuk model dengan strata tersebut tersebut!

(e) Jelaskan alasan penggunaan strata dalam model regresi Cox, keun-tungan dan kerugiannya bila dibandingkan dengan model tanpa strata

6.7. Tunjukkanlah bahwa Metode ties-adjustment Efron akansama dengan par-tial likelihood biasa jika tidak ada ties dalam data!

6.8. Jelaskan mengapa pemodelan dengan stratifikasi terkadang diperlukan da-lam regresi Cox, dan sebutkan kerugian stratifikasi jika ada!

Page 82: Survival 2011b

6.8. Latihan Bab 6 75

6.9. Merujuk Soal 7 Bab 4, gunakan regresi Cox untuk menganalisis data mor-talitas akibat penyakit kronis tersebut, dan bandingkan hasilnya dengan ujilog-rank

6.10. Merujuk Contoh 1.8 Bab 1, gunakan regresi Cox untuk menganalisis datapengaruh voltase terhadap kerusakan suatu alat elektrik!

Page 83: Survival 2011b

Bibliografi

Cox, D. R. (1972). Regression models and life-tables (with discussion),Journal of theRoyal Statistical Society, Series B, Methodological34: 187–220.

Cox, D. R. (1975). Partial likelihood,Biometrika62: 269–276.

Cox, D. R. and Oakes, D. O. (1984).Analysis of survival data, Chapman & Hall Ltd.

Klein, J. and Moeschberger, M. (2003).Survival analysis: techniques for censored andtruncated data, Statistics for biology and health, Springer.

Lawless, J. (2003).Statistical models and methods for lifetime data, Wiley series inprobability and statistics, Wiley-Interscience.

76