Survival 2011b
March 29, 2017 | Author: Muthia Nadhira Faladiba | Category: N/A
Short Description
Download Survival 2011b...
Description
DIKTAT KULIAH
ANALISIS DATA SURVIVAL
Disusun oleh: Dr. Danardono, MPH.
PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA Februari 2012
Daftar Isi Daftar Isi
iii
Daftar Gambar
iv
Daftar Tabel
v
Kata Pengantar
v
1 Pendahuluan 1.1 Tujuan Pembelajaran . . . . . . . . 1.2 Data dan Variabel Random Survival 1.3 Data tersensor dan terpotong . . . . 1.4 Latihan Bab 1 . . . . . . . . . . . .
. . . .
1 1 1 3 7
. . . . .
10 10 10 13 15 16
. . . . . . . . .
19 19 19 19 22 22 25 27 28 28
2 Fungsi dan Kuantitas Dasar 2.1 Tujuan Pembelajaran . . . 2.2 Fungsi Survival dan Hazard 2.3 Hubungan antar Fungsi . . 2.4 Survival Diskrit . . . . . . 2.5 Latihan Bab 2 . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
3 Metode Parametrik 3.1 Tujuan Pembelajaran . . . . . . . . . . 3.2 Beberapa distribusi parametrik . . . . . 3.2.1 Distribusi Eksponensial . . . . 3.2.2 Distribusi Weibull . . . . . . . 3.2.3 Distribusi Gamma . . . . . . . 3.2.4 Distribusi Log-normal . . . . . 3.2.5 Distribusi Gompertz-Makeham . 3.2.6 Distribusi Log-logistik . . . . . 3.3 Estimasi parameter . . . . . . . . . . . ii
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
. . . .
. . . . .
. . . . . . . . .
iii
Daftar Isi
3.4
Latihan Bab 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Metode Non-parametrik dan Uji-LogRank 4.1 Tujuan Pembelajaran . . . . . . . . . . 4.2 Kaplan-Meier . . . . . . . . . . . . . . 4.3 Nelson-Aalen . . . . . . . . . . . . . . 4.4 Membandingkan Dua Fungsi Survival . 4.5 Latihan Bab 4 . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
5 Model Regresi Parametrik 5.1 Tujuan Pembelajaran . . . . . . . . . . . . . 5.2 Variabel Independen dalam Model . . . . . . 5.3 Model Regresi Parametrik . . . . . . . . . . 5.4 Model Non-Parametrik dan Semi-Parametrik 5.5 Model AFT log-linear . . . . . . . . . . . . . 5.6 Model Regresi Eksponensial . . . . . . . . . 5.7 Model Regresi Weibull . . . . . . . . . . . . 5.8 Model Regresi Log-normal . . . . . . . . . . 5.9 Model Regresi Log-logistik . . . . . . . . . . 5.10 Identifikasi Model . . . . . . . . . . . . . . . 5.10.1 Menggunakan Probability-Plot . . . . 5.10.2 Menggunakan Hazard-Plot . . . . . . 5.11 Latihan Bab 5 . . . . . . . . . . . . . . . . . 6 Regresi Cox 6.1 Tujuan Pembelajaran . . . . . . 6.2 Model dan Asumsi . . . . . . . 6.3 Estimasi parameter . . . . . . . 6.4 Ties dalam Partial Likelihood . . 6.5 Interpretasi Parameter . . . . . . 6.6 Stratifikasi . . . . . . . . . . . . 6.7 Inferensi Parameter Regresi Cox 6.8 Latihan Bab 6 . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . .
. . . . . . . . . . . . .
. . . . . . . .
33
. . . . .
35 35 35 38 41 42
. . . . . . . . . . . . .
45 45 45 46 50 50 52 53 54 55 55 56 57 57
. . . . . . . .
60 60 60 62 67 67 68 68 72
Daftar Gambar 1.1 1.2 1.3
Representasi data survival . . . . . . . . . . . . . . . . . . . . . . Alternatif representasi data survival . . . . . . . . . . . . . . . . Data tersensor (censored) dan terpotong (truncated) . . . . . . . .
2 3 5
2.1 2.2
Fungsi Survival . . . . . . . . . . . . . . . . . . . . . . . . . . . Fungsi Hazard . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11 12
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
Kurva survival dua model eksponensial yang berbeda Kurva hazard dua model eksponensial yang berbeda . Kurva survival untuk beberapa model Weibull . . . . Kurva hazard untuk beberapa model Weibull . . . . . Kurva hazard untuk beberapa model Gamma . . . . . Kurva hazard untuk beberapa model Gamma . . . . . Kurva hazard untuk beberapa model lognormal . . . Kurva hazard untuk beberapa model lognormal . . . Nilai MLE dan log-likelihood pada Contoh 3.5. . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
21 21 23 23 24 25 26 26 33
4.1 4.2 4.3 4.4
Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen Grafik estimasi Kaplan-Meier Contoh 4.1 . . . . . . . . . . . Grafik estimasi Nelson-Aalen Contoh 4.2 . . . . . . . . . . . Plot Kaplan-Meier untuk terapi dan placebo . . . . . . . . . .
. . . .
. . . .
37 38 40 40
5.1 5.2
Plot Fungsi Survival AFT Eksponensial . . . . . . . . . . . . . . Plot Fungsi Hazard AFT Eksponensial . . . . . . . . . . . . . . .
48 48
6.1 6.2 6.3 6.4 6.5
Kurva hazard untuk dua grup atau individu yang berbeda . . . Baseline hazard dan kurva hazard untuk dua grup yang berbeda Ilustrasi untuk Partial Likelihood Data Tabel 6.6 . . . . . . . . Fungsi Partial Likelihood (6.7) . . . . . . . . . . . . . . . . . Plot estimasi kurva survival Model (6.24) . . . . . . . . . . .
61 63 64 65 72
iv
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Daftar Tabel 1.1 1.2 1.3 1.4
Relapse pasien leukemia . . . . . . . . . . . . . Lama waktu sampai rusaknya komponen elektrik Deskripsi variabel studi tentang penyapihan . . . Lama kambuh pasien leukemia dan tes AG . . . .
. . . .
. . . .
. . . .
6 6 7 8
4.1 4.2 4.3 4.4
Tabel Estimasi Kaplan-Meier Contoh 4.1 . . . . . . . . . . . . Tabel estimasi Nelson-Aalen untuk H(t) dan S(t) Contoh 4.2 Estimasi Kaplan-Meier untuk Kelompok Placebo . . . . . . . Penghitungan untuk Uji log-rank . . . . . . . . . . . . . . . .
. . . .
. . . .
37 39 41 43
5.1 5.2 5.3 5.4 5.5 5.6
Distribusi T dan ǫ dalam AFT log-linear Estimasi Parameter Model (5.18) . . . . Estimasi Parameter Model (5.24) . . . . Identifikasi Distribusi . . . . . . . . . . Data Soal 5.6 . . . . . . . . . . . . . . Data Soal 5.7 . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
51 52 54 56 58 59
6.1 6.2 6.3 6.4
Contoh data survival untuk ilustrasi Partial Likelihood Uji Likelihood Ratio Model (6.21) . . . . . . . . . . . Uji Likelihood Ratio Model (6.23) . . . . . . . . . . . Estimasi parameter β Model (6.23) . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
63 70 71 71
v
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . .
. . . .
. . . .
Kata Pengantar Matakuliah Analisis Data Survival (2 sks) merupakan matakuliah wajib minat untuk minat Biostatistika dan minat Aktuaria pada program studi Statistika Jurusan Matematika FMIPA UGM. Matakuliah ini dapat diambil setelah mahasiswa mengetahui dan memahami dasar serta teknik metode statistik secara umum dan mampu melakukan analisis statistik dengan beberapa metode tertentu. Matakuliah ini merupakan gabungan dua matakuliah pada kurikulum 2006 yang isinya dipandang beririsan cukup banyak yaitu Pengantar Uji Hidup dan Pengantar Analisis Antar Kejadian. Pengantar Uji Hidup lebih menekankan aspek inferensi univariat dan pembandingan kelompok populasi data lama hidup (survival) dengan pendekatan parametrik. Pengantar Analisis Antar Kejadian lebih menekankan aspek lebih umum dari data survival, dengan pendekatan parametrik dan semi parametrik untuk data univariat maupun model-model regresi. Dalam kurikulum 2011, kedua matakuliah tersebut digabung dan berubah nama menjadi Analisis Data Survival, dengan alasan nama ini lebih populer digunakan dalam silabus kuliah yang mengarah ke Biostatistika maupun Aktuaria. Selain itu, materi dalam matakuliah ini disesuaikan dengan kompetensi yang ingin dicapai pada kedua minat tersebut. Baik minat Biostatistika dan Aktuaria memandang event atau kejadian seperti misalnya kematian, kesakitan, kecelakaan, bencana, dst., sebagai hal penting yang menjadi perhatian. Pemodelan dan teknik analisis data untuk variabel semacam itu, yang secara umum dinamakan data survival (data durasi, time-to-event data), adalah tema sentral matakuliah ini. Terkait pengembangannya, untuk minat Biostatistika, pemodelan faktor resiko data survival akan lebih menjadi perhatian. Sedangkan untuk minat Aktuaria, model survival akan menjadi dasar dalam penyusunan tabel mortalitas, tabel morbiditas serta penghitungan aktuaria terkait penentuan premi. Selain itu, dalam kuliah ini juga tidak menutup kemungkinan memberi contoh fenomena lain terkait data survival, seperti misalnya data dalam bidang ilmu rekayasa, sosial dan ekonomi. Kuliah Analisis Data Survival disertai dengan kuliah Praktikum Analisis Data Survival (1 sks) yang diharapkan dapat lebih menambah pemahaman dan komvi
vii petensi terutama dalam aspek praktis dan komputasinya. Beberapa contoh dan latihan soal dalam diktat ini diharapkan dapat dicoba dalam kuliah Praktikum. Diktat ini disusun berdasarkan catatan, tayangan kuliah serta referensi tentang Analisis Data Survival. Sebagai edisi pertama Diktat tentang Analisis Data Survival, tentu masih banyak kekurangan dan kesalahan dalam diktat ini. Untuk itu saran dan kritik dari pembaca dan pengguna sangat diharapkan. Akhir kata penulis mengucapkan terima kasih kepada segala pihak yang telah mendukung penulisan diktat ini, terutama kepada Jurusan Matematika FMIPA UGM yang telah memberi hibah penulisan diktat ini. Penulis,
Dr. Danardono, MPH.
1 Pendahuluan 1.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan pengertian data survival atau data antar kejadian (time-to-event data) beserta contohnya 2. Menjelaskan pengertian data tersensor dan terpotong beserta contohnya 3. Menjelaskan tujuan dan arah analisis data survival 4. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tujuan umum pembelajaran, metode dan proses pembelajaran, penilaian dan sumber referensi 5. Mengidentifikasi kuliah lain yang terkait dengan analisis data survival
1.2 Data dan Variabel Random Survival Data survival adalah lama waktu sampai suatu peristiwa terjadi atau data antar kejadian (time-to-event data). Dalam beberapa bidang ilmu digunakan istilah durasi (durational data) misalnya di bidang ekonomi. Di bidang ilmu perekayasaan sering disebut data waktu kerusakan (failure time data). Dalam ilmu sosial digunakan istilah event history data. Istilah data survival sendiri banyak digunakan dalam bidang ilmu kesehatan, epidemiologi, demografi dan aktuaria. Untuk memperoleh data survival, diperlukan tiga komponen yang harus terdefinisikan dengan jelas terkait fenomena yang menjadi perhatian, yaitu: 1. Definisi event/peristiwa yang menjadi perhatian; 1
2
1.2. Data dan Variabel Random Survival
origin
0
event
waktu
t
Gambar 1.1: Representasi data survival 2. Titik asal (origin) yang digunakan untuk mengukur lama waktu sampai suatu event terjadi; 3. Unit pengukuran yang digunakan Contoh 1.1 Misalkan fenomena yang menjadi perhatian adalah mortalitas. Dalam contoh ini event didefinisikan sebagai saat meninggalnya seseorang, apabila ditentukan sebagai origin adalah saat kelahiran, maka data survival nya adalah usia kematian, misalnya dalam satuan tahun.
Tidak selalu event yang menjadi perhatian adalah sesuatu yang terminate, yaitu event yang hanya sekali saja terjadi dan berhenti, seperti misalnya kematian. Event juga dapat berupa status (state) yang lebih umum, seperti misalnya status sakit, status pekerjaan, dst. Contoh 1.2 Misalkan data survival yang menjadi perhatian adalah lama waktu mulai terapi pertama kali diberikan kepada penderita leukemia sampai kambuh kembali, dalam satuan minggu. Dalam contoh ini event dapat berulang (kambuh) dan bukan sesuatu yang berhenti dan hanya sekali terjadi.
Data survival sering diilustrasikan seperti gambar batang ”korek api” (Gambar 1.1) dengan bulatan hitam adalah event dan garis lurus horizontal adalah lama waktu sampai terjadinya event. Apabila event dipandang sebagai status (state) yang berubah menurut waktu, dan kadang melibatkan lebih dari satu status, maka dapat digunakan representasi data survival seperti pada Gambar 1.2. Dalam pengembangannya data survival dapat memuat informasi lebih dari satu status, sehingga gambaran status yang berbeda terhadap berubahnya waktu dapat ditunjukkan dari sumbu Y yang nilainya berbeda, atau dari jenis garis horizontalnya, misalnya garis biasa, garis tebal, dan seterusnya. Data survival merupakan realisasi dari suatu variabel random survival, yaitu suatu variabel random non-negatif, T , yang menjadi dasar pembentukan model
3
1.3. Data tersensor dan terpotong
(a) Nilai pada ordinat sebagai representasi status 2 1 0
waktu
t
(b) Jenis garis sebagai representasi status
0
waktu
t
Gambar 1.2: Alternatif representasi data survival dan metode dalam analisis data survival. Untuk menuliskan suatu nilai T tertentu digunakan lambang t. Misalkan T adalah lama waktu sampai seorang pasien leukemia kambuh kembali (Contoh 1.2), maka pernyataan ”lama waktu kambuh kembali lebih dari 5 minggu” dapat dituliskan sebagai T > 5. Dalam Bab 2 akan dibahas lebih lanjut beberapa macam fungsi terkait variabel random T ini.
1.3 Data tersensor dan terpotong Salah satu masalah yang sering muncul dalam analisis data survival adalah adanya pengamatan yang tidak lengkap, yang secara umum dapat dikelompokkan menjadi data tersensor (censored) dan data terpotong (truncated). Definisi 1.1 Suatu data atau observasi dikatakan tersensor kanan (right-censored) pada titik k apabila nilai observasi yang digunakan adalah t, jika t ≤ k; atau k jika t > k. Apabila k ditentukan (fixed), maka observasi dikatakan tersensor Tipe I; sedangkan bila banyaknya observasi r yang ditentukan sedemikian sehingga t(1) ≤ t(2) ≤ . . . ≤ t(r) , maka observasi tersensor Tipe II. Contoh 1.3 Data tersensor kanan : Suatu eksperimen menggunakan tikus percobaan dilakukan untuk mengetahui seberapa lama tikus dapat hidup setelah pemberian suatu zat yang dapat mengakibatkan kanker. • Tipe I: Jika saat tersensornya ditentukan lebih dahulu
1.3. Data tersensor dan terpotong
4
• Tipe II: Jika saat tersensornya ditentukan setelah tercapai persentase atau banyak sampel tertentu yang telah mendapatkan event.
Definisi 1.2 Suatu data atau observasi dikatakan terpotong kiri (left-truncated) pada titik k apabila data hanya menggunakan nilai observasi t ≥ k. Contoh 1.4 Data terpotong kiri: Suatu studi tentang morbiditas dan mortalitas pegawai pada suatu institusi dilakukan ketika pegawai telah berusia 40 tahun ke atas. Apabila seorang pegawai telah meninggal sebelum berusia 40, dia tidak masuk dalam sampel (lefttruncated).
Definisi 1.3 Suatu data atau observasi dikatakan tersensor kiri (left-censored) pada titik k apabila nilai observasi yang digunakan adalah t, jika t ≥ k; atau k jika t < k. Contoh 1.5 Data tersensor kiri: Data seperti ini biasanya terjadi pada pengumpulan data yang dilakukan secara retrospektif atau melihat informasi ke belakang. Suatu studi dilakukan untuk mengetahui faktor-faktor yang mempengaruhi usia pertama kali merokok. Apabila responden ingat usia saat dia pertama kali merokok, dikatakan observasi yang diperoleh adalah lengkap. Bila responden tidak ingat kapan dia mulai merokok, tapi hanya ingat mulai merokok sebelum usia tertentu, maka dikatakan observasi tersebut tersensor kiri.
Definisi 1.4 Suatu data atau observasi dikatakan terpotong kanan (right-truncated) pada titik k apabila data hanya menggunakan nilai observasi t ≤ k. Contoh 1.6 Data terpotong kanan: Data ini juga biasa terjadi pada pengumpulan data retrospektif. Suatu studi tentang AIDS dilakukan secara retrospektif. Yang menjadi perhatian adalah durasi mulai infeksi HIV sampai terdiagnosis AIDS. Hanya individu yang telah terdiagnosis AIDS sebelum mulai studi saja yang akan masuk dalam studi. Individu yang belum terdiagnosis AIDS tidak masuk dalam studi adalah sampel yang terpotong kanan.
Pada Gambar 1.3 dapat dilihat perbedaan keempat jenis data tidak lengkap seperti yang telah dijelaskan di muka. Pada Gambar tersebut, bagian yang diarsir adalah periode pada saat mana observasi tidak lengkap (unobserved). Observasi
5
1.3. Data tersensor dan terpotong terpotong-kiri
tersensor-kanan
tersensor-kiri
terpotong-kanan
t (waktu)
t (waktu)
Gambar 1.3: Data tersensor (censored) dan terpotong (truncated) tersensor kanan sering dikatakan tersensor dari atas, karena bagian yang tersensor adalah bagian paling kini secara kronologis (atas). Demikian juga observasi yang terpotong kanan sering disebut terpotong dari atas. Sebaliknya Observasi tersensor kiri dan terpotong kiri sering disebut tersensor dari bawah dan terpotong dari bawah, karena bagian yang tersensor atau terpotong adalah pada bagian awal (bawah). Penyensoran (censoring) pada suatu pengamatan akan berakibat ketidaklengkapan informasi lama-waktu atau durasi pada data yang diperoleh. Sedangkan Pemotongan (truncation) akan berakibat pada terambil atau tidaknya suatu subyek sebagai sampel, selain ketidaklengkapan informasi pada durasi. Sebagai contoh, data lama hidup tikus Contoh 1.3. Apabila penelitian dihentikan pada suatu waktu (sensor Tipe I), maka informasi yang tidak lengkap hanya terjadi pada tikus-tikus yang masih hidup. Namun pada Contoh 1.4, pegawai yang meninggal sebelum berusia 40 tahun akan tidak terambil sebagai sampel. Dengan kata lain, observasi yang terpotong (meninggal sebelum usia 40) mempengaruhi keterambilan subyek sebagai sampel. Akibat yang sama terjadi pula untuk tersensor kanan dan terpotong kanan. Berikut adalah beberapa contoh data survival yang diperoleh dari permasalahan aplikasi yang berbeda, yaitu dalam bidang ilmu kesehatan, ilmu perekayasaan dan ilmu sosial. Contoh 1.7 Diperoleh data dari studi tentang pasien leukemia (Cox and Oakes, 1984) seperti pada Tabel 1.1. Event yang perhatian dalam studi ini adalah relapse (kekambuhan kembali) dari 42 pasien leukemia anak-anak yang pada awal studi telah dianggap sembuh (remission). Pasien mendapatkan perawatan berupa 6-MP (6-mercaptopurine) dan placebo.
1.3. Data tersensor dan terpotong
6
Tabel 1.1: Relapse pasien leukemia Perawatan lama waktu (bulan) sampai kambuh 6-MP : 6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 11+, 17+, 19+, 20+, 25+, 32+, 32+, 34+, 35+ Placebo: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23 tanda + menunjukkan data tersensor kanan
Tabel 1.2: Lama waktu sampai rusaknya komponen elektrik voltase (kV) 26 28 30 32 34
36 38
lama waktu (menit) sampai rusak 5,79; 1579,52; 2323,7 68,85; 426,07; 110,29; 108,29; 1067,6 17,05; 22,66; 21,02; 175,88; 139,07; 144,12; 20,46; 43,40; 194,90; 47,30; 7,74 0,40; 82,85; 9,88; 89,29; 215,10; 2,75; 0,79; 15,93; 3,91; 0,27; 0,69; 100,58; 27,80; 13,95; 53,24 0,96; 4,15; 0,19; 0,78; 8,01; 31,75; 7,35; 6,50; 8,27; 33,91; 32,52; 3,16; 4,85; 2,78; 4,67; 1,31; 12,06; 36,71; 72,89 1,97; 0,59; 2,58; 1,69; 2,71; 25,50; 0,35; 0,99; 3,99; 3,67; 2,07; 0,96; 5,35; 2,90; 13,77 0,47; 0,73; 1,40; 0,74; 0,39; 1,13; 0,09; 2,38
Contoh 1.8 Suatu percobaan dilakukan untuk meneliti pengaruh voltase terhadap kerusakan suatu alat elektrik (Lawless, 2003). Diperoleh data seperti pada Tabel 1.2. Dalam penelitian ini semua sampel diamati sampai semuanya rusak, tidak ada censoring dalam data ini. Terlihat bahwa semakin tinggi voltase, lama sampai suatu komponen rusak semakin cepat. Voltase normal untuk komponen ini adalah 20kV. Contoh 1.9 Suatu studi di Amerika dilakukan untuk mengetahui faktor-faktor yang mempengaruhi lama menyusui, atau saat penyapihan (weaning) (Klein and Moeschberger, 2003). Dari 927 bayi yang disusui oleh ibunya, beberapa pertanyaan diajukan seperti pada Tabel 1.3. Data untuk contoh ini dapat dikopi saat praktikum.
7
1.4. Latihan Bab 1
Tabel 1.3: Deskripsi variabel studi tentang penyapihan Variabel duration delta
Deskripsi Lama menyusui (minggu) Indikator penyapihan
race
Ras dari ibu
poverty smoke alcohol agemth ybirth yschool pc3mth
Ibu dikategorikan miskin Ibu adalah perokok saat melahirkan Ibu adalah peminum saat melahirkan Usia ibu saat melahiran (tahun) Tahun kelahiran Tingkat (lama) pendidikan (tahun) Pemeriksaan kehamilan setelah bulan ketiga
kode 1=disapih 0=belum 1=kulit putih 2=kulit hitam 3=lainnya 1=ya, 0=tidak 1=ya, 0=tidak 1=ya, 0=tidak
1=ya, 0=tidak
1.4 Latihan Bab 1 1.1. Berikan contoh data survival dari fenomena yang menarik perhatian saudara, minimal dua contoh! Definisikan origin (titik asal), event yang menjadi perhatian dan unit waktu yang digunakan. Kemudian tambahkan variabel lain yang mungkin menjadi perhatian. 1.2. Apa tujuan utama dari analisis data survival? 1.3. Sebutkan matakuliah dalam program studi Statistika yang terkait dengan analisis data survival! 1.4. Pencatatan peristiwa demografis di kelurahan atau kecamatan (vital statistics) berupa kelahiran, kematian dan pindah masuk maupun keluar daerah pada dasarnya adalah data survival. Sebutkan titik asal, event dan unit waktu yang mungkin menjadi perhatian dalam konteks ini! Apakah ada kemungkinan observasi tidak lengkap (tersensor, terpotong) dalam pencatatan peristiwa demografis tersebut? 1.5. Eksperimen survival/sacrifice adalah suatu cara penelitian untuk mengetahui apakah suatu zat tertentu atau karsinogen tertentu mempercepat terjadinya tumor pada binatang percobaan. Dalam eksperimen seperti ini, setiap binatang percobaan diberi dosis suatu karsinogen tertentu dan dilihat ada tidaknya tumor pada saat meninggal dengan otopsi. Apabila kita tertarik
8
1.4. Latihan Bab 1
Tabel 1.4: Lama kambuh pasien leukemia dan tes AG ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
AG positive WBC waktu 0.0230 65 0.0075 156 0.0430 100 0.0260 134 0.0600 16 0.1050 108 0.1000 121 0.1700 4 0.0540 39 0.0700 143 0.0940 56 0.3200 26 0.3500 22 1.0000 1 1.0000 1 0.5200 5 1.0000 65
ID 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
AG negative WBC waktu 0.044 56 0.030 65 0.040 17 0.015 7 0.090 16 0.053 22 0.100 3 0.190 4 0.270 2 0.280 3 0.310 8 0.260 4 0.210 3 0.790 30 1.000 4 1.000 43
ID adalah nomor identitas pasien
pada lama waktu sejak diberi karsinogen sampai terkena tumor, permasalahan data tidak lengkap apa saja yang mungkin terjadi? 1.6. Tanpa menggunakan metode yang nanti akan dipelajari dalam analisis data survival, lakukan analisis data untuk Contoh 1.7 dan Contoh 1.8! (Misalnya dengan ANOVA atau Regresi). Kesimpulan apa yang dari analisis data yang saudara lakukan? 1.7. Mengapa data yang tersensor dalam data survival tidak seharusnya dibuang? Jelaskan! 1.8. Berikan masing-masing satu contoh permasalahan atau fenomena yang dapat dipandang sebagai data survival dan kemungkinan terdapat observasi tidak lengkap sebagai berikut: (1) tersensor-kanan; (2) terpotong-kiri; (3) tersensor-kiri; (4) terpotong-kanan! 1.9. Tabel 1.4 adalah data lama hidup 33 pasien leukemia (dalam minggu), banyaknya sel darah putih (WBC, dalam satuan 100.000 sel); dan hasil tes karakteristik morfologis darah putih (AG positive atau AG negative).
1.4. Latihan Bab 1
9
(a) Bila observasi tersensor-kanan pada titik 4 minggu, tuliskan pasien mana saja (ID-nya) yang teramati (observed) (b) Bila observasi terpotong-kanan pada titik 4 minggu, tuliskan pasien mana saja (ID-nya) yang teramati (observed) (c) Bila pasien terambil sebagai sampel hanya untuk yang kambuh setelah 12 minggu, jenis data tidak lengkap apa terjadi situasi ini? Tuliskan pasien mana saja (ID-nya) yang teramati (observed) (d) Bila penelitian menghendaki pasien adalah yang belum kambuh pada titik 5 minggu saja, dan penelitian berakhir 60 minggu kemudian, pasien mana saja yang terambil sebagai sampel dan bagaimana status kambuh tidaknya pasien pada akhir penelitian?
2 Fungsi dan Kuantitas Dasar 2.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 2.1. Menjelaskan fungsi survival, hazard, hazard kumulatif dan hubungannya diantara mereka dan dengan fungsi probabilitas dan fungsi distribusi 2.2. Menjelaskan beberapa contoh model survival 2.3. Menginterpretasikan fungsi survival, hazard, hazard kumulatif dalam suatu konteks aplikasi tertentu 2.4. Memberi contoh dan menjelaskan perluasan fungsi survival untuk keperluan aplikasi tertentu
2.2 Fungsi Survival dan Hazard Seperti yang telah dikemukakan pada Bab 1, dasar dari model dan metode dalam analisis data survival adalah variabel random survival T . Untuk mendeskripsikan suatu variabel random dalam bentuk eksplisit yang berupa model matematika, digunakan fungsi variabel random tersebut, misalnya berupa fungsi distribusi dan fungsi probabilitas. Dalam analisis data survival, fungsi variabel random yang menjadi perhatian adalah fungsi survival dan fungsi hazard. Fungsi survival adalah probabilitas satu individu hidup (survive) lebih lama daripada t S(t) = P (T > t). (2.1) Fungsi S(t) merupakan fungsi adalah fungsi non-increasing terhadap waktu t dengan sifat S(0) = 1 dan limt→∞ S(t) = 0. 10
11
0.0
0.2
0.4
S(t)
0.6
0.8
1.0
2.2. Fungsi Survival dan Hazard
0.0
0.5
1.0
1.5
2.0
2.5
t
Gambar 2.1: Fungsi Survival Contoh fungsi survival dapat dilihat pada Gambar 2.1. Fungsi survival dapat diinterpretasikan sebagai proporsi individu yang hidup dari sekelompok cohort (angkatan). Pada awal lahirnya cohort tersebut proporsi yang hidup besar (mendekati satu). Seiring waktu berjalan proporsi yang hidup dari cohort tersebut akan berkurang sampai akhirnya semua meninggal (proporsi mendekati nol). Contoh 2.1 Misalkan T adalah lama waktu sampai seorang pasien leukemia kambuh kembali (Contoh 1.2) dalam satuan minggu, maka S(5) = P (T > 5) dapat diinterpretasikan sebagai probabilitas lama waktu kambuh kembali lebih dari 5 minggu. Kalau tidak kambuh dipandang sebagai ”survive”, maka peluang survival nya adalah S(5).
Fungsi variabel random lain yang cukup penting adalah fungsi hazard yang didefinisikan sebagai P (t ≤ T < t + ∆t | T ≥ t) ∆t→0 ∆t
h(t) = lim
(2.2)
yang dapat diinterpretasikan sebagai tingkat (rate) terjadinya suatu event. Sebagai contoh, fungsi hazard dapat dilihat pada Gambar 2.2. Fungsi hazard yang
12
0
1
2
h(t)
3
4
5
2.2. Fungsi Survival dan Hazard
0.0
0.5
1.0
1.5
2.0
t
Gambar 2.2: Fungsi Hazard berbentuk U seperti ini biasanya menunjukkan resiko kematian pada makhluk hidup secara biologis. Pada usia muda, tingkat atau resiko kematian tinggi. Resiko berkurang setelah dewasa, namun kembali bertambah setelah mendekati usia tua. Ada banyak bentuk fungsi hazard yang merujuk pada suatu distribusi tertentu. Fungsi hazard bukan probabilitas, sehingga dimungkinkan nilainya lebih dari satu. Batasan yang dikenakan pada fungsi hazard hanyalah h(t) ≥ 0. Integral dari fungsi hazard h(t) adalah fungsi hazard kumulatif Z t H(t) = h(x)dx (2.3) 0
yang hubungan fungsionalnya dengan S(t) cukup penting sebagai dasar dalam pemodelan data survival. Fungsi S(t), h(t), H(t) dan f (t) merupakan fungsi yang bergantung pada waktu t. Kadang diperlukan fungsi yang hasilnya berupa nilai waktu t dengan diberikan probabilitas atau kuantitas yang lain. Misalnya dalam penghitungan median. Median adalah nilai tengah, yaitu jika t0,5 adalah median, maka S(t0,5 ) = 0,5. Secara umum diperlukan fungsi yang dapat digunakan mencari median atau titik waktu yang lain dengan diberikan probabilitas yang dinamakan fungsi kuantil. Fungsi kuantil adalah tp = S −1 (p),
0 k), S(t) = . S(k)
t>k
Demikian pula untuk fungsi densitas, kondisional terhadap survival sampai waktu k, adalah f (t)/S(k). Namun tidak demikian dengan fungsi hazard, karena fungsi hazard menurut definisi fungsi hazard (2.10) sudah bersyarat T > k, sehingga fungsi hazard tetap h(t) dan tidak terpengaruh observasi terpotong. Kenyataan ini bermanfaat dalam pemodelan survival, sehingga banyak model survival yang dikembangkan dari fungsi hazard, misalnya model regresi proportional hazard.
15
2.4. Survival Diskrit
2.4 Survival Diskrit Bila T merupakan suatu variabel random diskret dengan nilai x1 < x2 < . . . dengan fungsi probabilitas f (xi ) = P (T = xi ),
i = 1, 2, . . .
(2.14)
fungsi survivalnya adalah X
S(t) =
f (xj )
(2.15)
j|xj >t
= f (xj ) + f (xj+1 ) + . . .
(2.16)
yang merupakan fungsi kontinu dari kiri (left-continuous) dan fungsi tangga yang tak-naik (non-increasing step function) dengan S(0) = 1 dan S(∞) = 0 Fungsi hazard pada xj didefinisikan sebagai probabilitas kondisional subyek mendapatkan event pada saat xj dengan diberikan subyek belum mendapatkan event tepat sebelum xj h(xj ) = P (T = xj | T ≥ xj ) f (xj ) = j = 1, 2, . . . S(xj ) Karena f (xj ) = S(xj ) − S(xj+1 ), f (xj ) S(xj ) S(xj ) − S(xj+1 ) = S(xj ) S(xj+1 ) = 1− S(xj )
h(xj ) =
(2.17)
sehingga S(t) =
Y
(1 − h(xj )) .
(2.18)
Fungsi hazard kumulatif untuk T diskrit adalah X H(t) = log(1 − hj )
(2.19)
j|xj 0, tentukan nilai S(t)! 2.4. Tunjukkan mengapa S(t) dari fungsi hazard h(t) = e−rt , r > 0 bukan merupakan fungsi survival: 2.5. Untuk variabel random durasi (interval antar kejadian) kontinu T , dengan fungsi survival S(t):
17
2.5. Latihan Bab 2
(a) Tunjukkan bahwa E(T ) =
R∞ 0
S(t)dt
(b) Tunjukkan bahwa E(T ) = r(0) (soal no. 2(a)), dengan r(t) = E(T − t | T ≥ t) yang sering disebut sebagai expected residual life atau mean residual life pada saat t 2.6. Suatu variabel random survival kontinu T diketahui mempunyai expected residual life (Lihat soal no. 2.5) r(t) = t + 10. (a) Carilah mean T (b) Carilah h(t) (c) Carilah S(t) 2.7. Diketahui T berdistribusi Uniform ( 1/θ untuk 0 ≤ t ≤ θ f (t) = 0 t yang lain (a) Hitung fungsi survival S(t) (b) Hitung fungsi hazard h(t) (c) Hitung fungsi expected (mean) residual-life r(t) 2.8. Buktikan persamaan (2.6) dan (2.7), jika diberikan E(T ) = dan var(T ) = E(T 2 ) − E(T )2 .
R∞
−∞
tf (t)dt
2.9. Diketahui fungsi survival S(t) = exp(−tλ ), carilah fungsi densitas dan fungsi hazardnya! 2.10. Tunjukkan bahwa jika fungsi hazard suatu variabel random survival adalah κρ(ρt)κ−1 exp [(ρt)κ ] fungsi survivalnya adalah exp {− [exp((ρt)κ ) − 1]} 2.11. Tunjukkan bahwa untuk variabel random survival diskret Y S(t) = (1 − h(xj )) j|xj 0 dapat dirumuskan dari h(t) dan S(t) di muka, yaitu f (t) = h(t)s(t) = λ exp(−λt)
(3.3)
Distribusi eksponensial mempunyai mean 1/λ, variansi 1/λ2 dan median (1/λ) log(2). Sebagai contoh kurva survival untuk eksponensial dapat dilihat pada Gambar 3.1. Gambar fungsi hazard yang bersesuaian dengan fungsi survival Gambar 3.1 adalah seperti pada Gambar 3.2. Contoh 3.1 Pada label lampu pijar proyektor LCD tertulis lama hidup lampu pijar adalah 2000 jam pemakaian. Kita asumsikan lama hidup lampu pijar berdistribusi eksponensial. a) Apabila 2000 jam tersebut kita interpretasikan sebagai median lama hidup, hitung berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian? b) Apabila 2000 jam tersebut kita interpretasikan sebagai mean lama hidup, hitung berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian? Jawab: a) Median distribusi eksponensial λ1 log(2) = 2000, sehingga dapat dihitung λ = log(2)/2000 = 0,000347 kerusakan per jam. Probabilitas masih hidup setelah 2500 jam pemakaian, S(2500) = exp(−0,000347 × 2500) = 0,420 b) Mean distribusi eksponensial 1/λ = 2000, jadi λ = 0,0005 kerusakan per jam. Probabilitas masih hidup setelah 2500 jam pemakaian, S(2500) = exp(−0,0005× 2500) = 0,287
21
0.4
S(t)
0.6
0.8
1.0
3.2. Beberapa distribusi parametrik
λ = 0.1
0.0
0.2
λ = 0.3
0
10
20
30
40
t
0.3
λ = 0.3
0.2
h(t)
0.4
0.5
0.6
Gambar 3.1: Kurva survival untuk model eksponensial dengan dua nilai λ yang berbeda
0.0
0.1
λ = 0.1
0
10
20
30
40
t
Gambar 3.2: Kurva hazard untuk model eksponensial dengan dua nilai λ yang berbeda
3.2. Beberapa distribusi parametrik
22
3.2.2 Distribusi Weibull Distribusi Weibull merupakan perluasan dari distribusi eksponensial yang pada awalnya digunakan untuk meneliti kekerasan atau ketahanan suatu material. Distribusi Weibull dengan parameter bentuk (shape parameter) α > 0 dan parameter skala (scale parameter) λ > 0 mempunyai fungsi hazard yang bergantung waktu sebagai berikut h(t) = αλ(λt)α−1
(3.4)
Fungsi survival dan fungsi densitas Weibull adalah S(t) = exp(−(λt)α )
(3.5)
f (t) = αλ(λt)α−1 exp(−(λt)α )
(3.6)
Untuk kasus α = 1 distribusi Weibull sama dengan eksponensial dengan parameter λ. Mean dan variansi distribusi ini berturut-turut Γ(1 + 1/α) λ dan 1 2 1 2 Γ 1+ −Γ 1+ λ2 α α Kurva survival dan kurva hazard untuk model Weibull dapat dilihat pada Gambar 3.3 dan 3.4. Distribusi Weibull banyak digunakan dalam bidang reliabilitas dan studi mortalitas.
3.2.3 Distribusi Gamma Distribusi Gamma mempunyai parameter β, λ > 0, dengan mean E(t) = β/λ √ dan koefisien variasi 1/ β. Parameter λ−1 sering disebut parameter skala (scale) dan β adalah indeks atau parameter bentuk (shape) Fungsi densitas, hazard dan survivalnya adalah sebagai berikut f (t) =
λ(λt)β−1 exp(−λt) Γ(β)
h(t) = f (x)/S(x)
(3.7)
(3.8)
23
0.2
0.4
S(t)
0.6
0.8
1.0
3.2. Beberapa distribusi parametrik
0.0
α=4
0
1
α = 0.1 α=2 2
α=1 3
4
t
3
4
Gambar 3.3: Kurva survival untuk model Weibull dengan beberapa nilai α yang berbeda dan satu nilai λ tertentu
2
α=2
α=1
1
h(t)
α=4
0
α = 0.1
0
1
2
3
4
t
Gambar 3.4: Kurva hazard untuk model Weibull dengan beberapa nilai α yang berbeda dan satu nilai λ tertentu
24
β = 0.4
1.0
h(t)
1.5
2.0
3.2. Beberapa distribusi parametrik
0.5
β=2
0.0
β=4
0
1
2
3
4
t
Gambar 3.5: Kurva fungsi hazard untuk model Gamma dengan beberapa nilai β yang berbeda dan λ = 1 1 S(t) = 1 − I(λt, β) = 1 − Γ(β)
Z
λt
uβ−1 e−u du
(3.9)
0
Secara praktis penggunaan fungsi Gamma agak terbatas karena bentuk eksplisit fungsi survivalnya yang rumit memuat integral fungsi Gamma tidak-lengkap. Fungsi Gamma dengan β = 1 adalah sama dengan distribusi Eksponensial(λ). Distribusi Gamma dengan parameter λ = 1 dikenal dengan Gamma satu parameter β dan mempunyai fungsi densitas sebagai berikut f (t) =
tβ−1 exp(−t) Γ(β)
(3.10)
Jika T berdistribusi Gamma (3.7), maka λT akan berdistribusi Gamma satu parameter β. Kemudian bila Y berdistribusi Gamma satu parameter β, maka 2Y berdistribusi χ2 (Chi kuadrat) dengan derajat bebas 2k. Gambar fungsi densitas dan fungsi hazard untuk λ = 1 dan berbagai nilai β dapat dilihat pada Gambar 3.5 dan Gambar 3.6. Seperti halnya distribusi Weibull, distribusi Gamma diawali dari permasalahan dalam bidang perekayasaan (engineering) dan ketahanan material. Aplikasinya kemudian ke bidang yang lain seperti industri dan model mortalitas.
25
0.4 0.2
f(t)
0.6
3.2. Beberapa distribusi parametrik
β=4 β=2
0.0
β = 0.4 0
1
2
3
4
t
Gambar 3.6: Kurva fungsi densitas untuk model Gamma dengan beberapa nilai β yang berbeda dan λ = 1
3.2.4 Distribusi Log-normal Variabel random survival T berdistribusi log-normal apabila transformasi variabel log(T ) berdistribusi normal. Distribusi log-normal dengan paramater σ > 0, t ≥ 0) mempunyai fungsi densitas, hazard dan survival sebagai berikut
1 exp − 2 (log(t) − µ)2 f (t) = 2σ tσ 2π 1 √
h(t) = f (x)/S(x)
S(t) = 1 − Φ
log(t) − µ σ
(3.11)
(3.12)
(3.13)
dengan Φ(x) adalah fungsi distribusi kumulatif Normal Standar. Distribusi log-normal mempunyai mean E(t) = exp(µ + σ 2 /2) dan variansi [exp(σ 2 ) − 1] [exp(2µ + σ 2 )], bukan µ dan σ seperti dalam distribusi normal. Gambar fungsi densitas dan fungsi hazard untuk µ = 0 dan berbagai nilai σ dapat dilihat pada Gambar 3.7 dan Gambar 3.8.
26
5
3.2. Beberapa distribusi parametrik
h(t)
3
4
σ = 0.25
1
2
σ = 0.5
0
σ = 1.5
0
1
2
3
4
t
2.0
Gambar 3.7: Kurva fungsi hazard untuk model lognormal dengan beberapa nilai σ yang berbeda dan µ = 0
1.0 0.5
f(t)
1.5
σ = 0.25
σ = 0.5
0.0
σ = 1.5
0
1
2
3 t
Gambar 3.8: Kurva fungsi densitas untuk model lognormal dengan beberapa nilai σ yang berbeda dan µ = 0
3.2. Beberapa distribusi parametrik
27
Contoh 3.2 Carilah median lognormal, bila diketahui fungsi survival seperti (3.13). Jawab: Bila med adalah median, maka log(med) − µ S(med) = 1 − Φ = 1/2 σ atau log(med) − µ = 1/2 Φ σ Kuantil ke-1/2 normal standar adalah 0, sehingga log(med) − µ = 0 σ log(med) = µ med = exp(µ)
3.2.5 Distribusi Gompertz-Makeham Distribusi ini awalnya digunakan untuk memodelkan survival pada manusia dan banyak digunakan pada permasalahan demografi dan aktuaria. Secara empiris model motalitas pada manusia umumnya mempunyai bentuk log hazard yang linear terhadap usia, atau h(t) = exp(A + Bt)
(3.14)
yang kemudian di-reparameterisasi menjadi h(t) = ρ1 eρ2 t .
(3.15)
Model hazard ini dikenal sebagai model Gompertz. Makeham kemudian menyarankan ada penambahan konstan ρ0 yang berbeda menurut usia pada model Gompertz untuk memodelkan mortalitas, sehingga model hazardnya menjadi Gompertz-Makeham h(t) = ρ0 + ρ1 eρ2 t .
(3.16)
Parameter ρ0 > 0 dan ρ1 > 0 dikenal sebagai parameter bentuk (shape) dan −∞ < ρ2 < ∞ sebagai parameter skala (scale). Fungsi survival distribusi Gompertz-Makeham dapat diturunkan melalui fungsi hazard dan kemudian fungsi hazard kumulatifnya, dan diperoleh ρ1 ρ 2 t (3.17) S(t) = exp −ρ0 t − (e − 1) ρ2 Fungsi densitas Gompertz-Makeham dapat dituliskan secara eksplisit dari h(t)S(t). Dalam aplikasinya model ini lebih menggunakan fungsi hazard dan survivalnya.
28
3.3. Estimasi parameter
3.2.6 Distribusi Log-logistik Seperti halnya log-normal, nama log-logistik diberikan karena log(T ) berdistribusi logistik. Distribusi logistik sendiri mempunyai fungsi densitas f (y) =
exp[(y − µ)/σ] σ(1 + exp[(y − µ)/σ])2
(3.18)
dengan −∞ < y < ∞ adalah variabel random logistik dengan parameter −∞ < µ < ∞ dan −∞ < σ < ∞. Fungsi Survival distribusi log-logistik adalah S(t) =
1 1 + (λt)α
(3.19)
Fungsi hazard distribusi ini dapat diturunkan mulai dari fungsi kumulatif hazardnya H(t) = − log[S(t)] = log((1 + (λt)α )
(3.20)
kemudian diperoleh h(t) = dH(t)/dt λα(λt)α−1 = . 1 + (λt)α
(3.21)
Fungsi densitas log-logistik f (t) = S(t)h(t) 1 λα(λt)α−1 = α 1 + (λt) 1 + (λt)α λα(λt)α−1 = [1 + (λt)α ]2
(3.22) (3.23)
Distribusi ini memiliki S(t), h(t) dan f (t) yang eksplisit relatif sederhana dibandingkan dengan, misalnya, log-normal.
3.3 Estimasi parameter Estimasi parameter suatu model survival parametrik dapat dilakukan dengan metode Estimasi Kebolehjadian Maksimum (Maximum Likelihood Estimation).
29
3.3. Estimasi parameter
Definisi 3.1 Fungsi kebolehjadian (likelihood function) adalah fungsi dari parameter yang dibentuk melalui probabilitas bersama dengan diberikan realisasi atau data yang berasal dari variabel random survival T . Apabila f (t; θ) adalah fungsi probabilitas bersama, dengan t adalah realisasi dari T , maka fungsi dari parameter θ yang didefinisikan sebagai L(θ | t) = f (t; θ) dinamakan fungsi kebolehjadian. Untuk data survival yang diasumsikan independen dan identik serta lengkap, apabila ada t1 , t2 , . . . , tn observasi, fungsi kebolehjadian-nya adalah L(θ | t) =
n Y
f (ti ; θ)
(3.24)
i=1
Untuk data survival yang tidak lengkap, baik karena tersensor maupun terpotong, fungsi kebolehjadian ditentukan sebagaimana berikut ini. Data survival dengan kemungkinan tersensor kanan dapat direpresentasikan sebagai pasangan nilai observasi survival dengan status tersensornya yaitu (ti , δi ), i = 1, 2, . . . , n dengan ( 0 jika i tersensor δi = (3.25) 1 jika i mendapatkan kejadian (event) Dengan asumsi masing-masing (Ti , δi ) independen satu dengan yang lain, fungsi likelihood untuk data tersensor kanan adalah: L(θ) ∝
n Y
f (ti ; θ)δi S(ti ; θ)1−δi
(3.26)
i=1
dengan θ = (θ1 , . . . , θp ) adalah p parameter yang akan diestimasi; f (ti ; θ) adalah fungsi densitas untuk i yang mendapatkan kejadian dan S(ti ; θ) adalah fungsi survival untuk i yang tidak mendapatkan kejadian. Fungsi log-likelihood untuk data tersensor kanan dari fungsi kebolehjadian (3.26) adalah ℓ(θ) ∝
n X i=1
(δi ) log(f (ti ; θ)) +
n X i=1
(1 − δi ) log(S(ti ; θ))
(3.27)
Untuk data yang mungkin memuat observasi lengkap, tersensor-kanan pada titik waktu R dan terpotong-kiri pada titik waktu L, fungsi probabilitas maupun
30
3.3. Estimasi parameter
fungsi survival pembentuk (3.26) kondisional terhadap probabilitas survive sampai ke L, karena untuk observasi yang terpotong-kiri hanya terjadi bila t ≥ L (Lihat Definisi 1.2, Bab 1) Untuk data yang tersensor-kanan tipe I, variabel indikator δ ditentukan sebagai berikut ( 0 jika ti > R (3.28) δi = 1 jika ti ≤ R atau ditulis dengan fungsi indikator, δi = I(ti ≤ R). Fungsi kebolehjadian-nya adalah δ 1−δi n Y f (ti ; θ) i S(ti ; θ) L(θ) ∝ S(L) S(L) i=1
(3.29)
Dengan cara yang sama fungsi kebolehjadian untuk observasi yang merupakan kombinasi dari terpotong-kiri, tersensor-kanan, terpotong-kanan, tersensor-kiri dan observasi yang lengkap dapat disusun. Untuk mendapatkan estimasi dari θ dapat digunakan metode kebolehjadian maksimum (MLE: Maximum Likelihood Estimation). Definisi 3.2 ˆ adalah (θˆ1 , . . . , θˆp ) yang memakEstimasi kebolehjadian Maksimum θ, ditulis θ simumkan L(θ): ˆ = max L(θ) Ł(θ) θ
(3.30)
Pengerjaan terkait derivatif lebih mudah dilakukan pada log(L(θ)) atau loglikehood, dinotasikan dengan ℓ(θ), dibandingkan pada L(θ). Karena fungsi log ˆ yang memaksimerupakan fungsi yang naik tegas (strictly increasing), maka θ mumkan ℓ(θ) juga memaksimumkan L(θ), sehingga estimasi kebolehjadian maksimum dapat diperoleh dari ˆ = max ℓ(θ) ℓ(θ) θ
(3.31)
ˆ perlu dihitung terlebih dahulu titik kritis dari ℓ(θ) ˆ Untuk mendapatkan MLE θ melalui penyelesaian ∂ℓ(θ) = 0, ∂θj
j = 1, 2, . . . , p
(3.32)
ˆ meApabila dapat diperoleh penyelesaian dari (3.32), perlu diperiksa apakah θ mang memaksimalkan ℓ(θ). Untuk permasalahan yang tidak dapat diselesaikan secara analitis, metode numerik seperti misalnya metode Newton-Rhapson dapat digunakan untuk mencari ˆ θ.
31
3.3. Estimasi parameter
Contoh 3.3 Carilah estimator untuk parameter λ pada model survival eksponensial yang datanya dapat terkena sensor-kanan. Jawab: Fungsi kebolehjadian untuk parameter λ dengan diketahui data berdistribusi eksponensial adalah: L(λ) = =
n Y
i=1 n Y
(λ exp(−λti ))δi (exp(−λti ))1−δi λδi exp(−λti )
i=1
sehingga fungsi log-likelihood nya adalah ℓ(λ) = log λ
n X i=1
δi − λ
n X
ti
i=1
P Untuk data yang tersensor kanan, ni=1 δi = k, dengan k adalah banyaknya data yang lengkap. Untuk data survival yang lengkap k = n Kemudian dicari titik kritis ℓ(λ) melalui ∂ℓ(λ)/∂λ = 0, P ∂ (k log λ − λ ni=1 ti ) ∂ℓ(λ) = ∂λ ∂λ n k X ti . − = λ i=1
Penyelesaian dari n
k X ti = 0 − λ i=1
adalah ˆ = Pnk λ
i=1 ti
yang merupakan MLE dari λ
.
Pada contoh 3.3 telah diperoleh estimator titik dari parameter λ, bila diberikan data survival berdistribusi eksponensial. Inferensi lebih lanjut dapat dilakukan ˆ dengan menghitung interval konfidensi 100(1 − α)% berdasarkan statistik 2k λ/λ yang berdistribusi chi-square dengan derajad bebas 2k. Rumus ini berlaku baik untuk data lengkap maupun data yang memuat observasi tersensor-kanan.
32
3.3. Estimasi parameter
Contoh 3.4 Diketahui waktu remisi (minggu) dari 21 pasien leukemia akut sebagai berikut: 1, 1, 2, 2, 3, 4, 4, 5, 5, 6, 8, 8, 9,10, 10, 12, 14, 16, 20, 24, 34 Hitung interval konfidensi 95% untuk λ dari data di atas, dengan asumsi data berdistribusi eksponensial. Jawab: Dihitung terlebih dahulu estimasi λ. Karena data di atas lengkap, k = n ˆ = λ =
n Pn
i=1 ti
21 = 0,1060606 198
Interval konfidensi 95% untuk λ ˆ 2 λχ 2n,α/2
ˆ 2 λχ 2n,1−α/2
t) = P (exp(µ + Xβ + σǫ) > t) = P (exp(µ + σǫ) > t exp(−Xβ))
(5.10)
Apabila semua X bernilai 0 (baseline), maka −Xβ akan bernilai 0 pula, dan exp(−Xβ) = 1, sehingga baseline survival untuk model AFT (5.8) adalah S0 (t | X) = P (exp(µ + σǫ) > t)
(5.11)
Sehingga hubungan antara survival AFT log-linear (5.10) dengan baseline survival nya (5.11) adalah S(t | X) = S0 (t exp(−Xβ))
(5.12)
seperti (5.1) dengan faktor pemercepat ψ = exp(−Xβ). Fungsi hazard model AFT log-linear dapat diturunkan melalui hubungan fungsi survival dengan fungsi hazard kumulatif H(t) = − log(S(t)) kemudian diderivatifkan ke t untuk mendapatkan h(t | X) h(t | X) = exp(−Xβ)h0 (t exp(−Xβ))
(5.13)
Model AFT (5.8) juga dapat dikarakterisasi berdasarkan distribusi dari ǫ. S(t | X) = P (T > t) = P (log(T ) > log(t)) = P (µ + Xβ + σǫ > log(t)) log(t) − µ − Xβ = P ǫ> σ
(5.14) (5.15)
Distribusi unutk ǫ dan T sebagai pasangannya beberapa di antaranya seperti yang tercantum pada Tabel 5.1. Beberapa Model tersebut secara khusus dan lebih detail akan dibahas dalam bagian selanjutnya dalam Bab ini. Tabel 5.1: Distribusi T dan ǫ dalam AFT log-linear Distribusi T Eeksponensial Weibull gamma log-logistik log-normal
Distribusi ǫ extreme value (1 parameter) extreme value (2 parameter) log-gamma logistik normal
52
5.6. Model Regresi Eksponensial
5.6 Model Regresi Eksponensial Model regresi parametrik yang berdasar pada distribusi eksponensial dapat berupa model AFT maupun PHM. Model regresi eksponensial dirumuskan dalam fungsi hazard seperti berikut h(t | x) = exp(Xβ)
(5.16)
dengan β = (β1 , . . . , βp ) adalah parameter model regresi, X adalah variabel independen. Fungsi likelihood β untuk model regresi eksponensial dapat diperoleh dari (5.7) sebagai berikut L(β) =
n Y i=1
= =
f (ti , θ | Xi )δi S(ti , θ | Xi )1−δi
n h Y i=1 n Y
eXi β exp(−eXi β t)
iδi
h i1−δi exp −eXi β t
eδi Xi β exp(−eXi β ti )
(5.17)
i=1
dengan Xi = (xi1 xi2 . . . xip ) adalah vektor kovariat untuk masing-masing individu, β = (β1 . . . βp )T adalah parameter regresi. Contoh 5.3 Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1, estimasilah parameter model regresi survival eksponensial berikut ini, h(t | x) = exp(β0 + X1 β1 )
(5.18)
dengan X1 bernilai 1 jika perlakuan 6-MP, 0 jika placebo. Jawab: Menggunakan bantuan paket statistik diperoleh estimasi parameter β seperti pada Tabel 5.2.
Tabel 5.2: Estimasi Parameter Model (5.18) ˆ Variabel βˆ se(β) Intersep βˆ0 = −2,16 0,218 x1 (6-MP) βˆ1 = −1,53 0,398 Dalam Tabel 5.2, terlihat bahwa pengaruh perlakuan 6-MP adalah negatif terhadap kambuhnya leukemia, atau pemberian 6-MP mencegah kambuhnya leukemia. Kesimpulan ini sejalan dengan Contoh 4.3 Bab 4, yaitu bahwa perlakuan 6-MP mempunyai nilai survival yang lebih besar dibandingkan dengan placebo.
53
5.7. Model Regresi Weibull
5.7 Model Regresi Weibull Pengaruh variabel independen X dalam model regresi Weibull diekspresikan melalui parameter skala λ = fλ (X; β), maupun parameter bentuk α = fα (X; β) dengan bentuk fungsi eksponensial exp(βX). Model dengan λ = fλ (X; β) = exp(Xβ) adalah yang sering dipakai, sehingga fungsi survival untuk regresi Weibull adalah S(t | X) = exp (−(fλ (X; β)t)α ) = exp (−(exp(Xβ)t)α )
(5.19) (5.20)
Apabila variabel random survival T di-transformasikan menjadi Y = log T maka, fungsi survival Y adalah S(y | X) = exp (−(exp(Xβ)ey )α ) = exp (−(exp(y + Xβ))α ) = exp (−(exp(y + Xβ)α))
(5.21)
atau dapat dituliskan sebagai
S(t | X) = exp − exp
y − Xβ σ
.
(5.22)
yang dikenal sebagai fungsi survival distribusi extreme value, dengan paramater lokasi µ = −Xβ dan parameter skala σ = 1/α. Fungsi likelihood model (5.22) disusun berdasarkan bentuk umum fungsi likelihood (5.7), yaitu L(β, σ) =
n Y
f (ti , θ | Xi )δi S(ti , θ | Xi )1−δi
i=1 n Y
δi 1 y−µ y−µ = exp − exp σ σ σ i=1 1−δi y − βX exp − exp . σ
(5.23)
Paket statistik standar menyediakan fasilitas untuk mengestimasi θ yang memaksimumkan L(β, σ). Beberapa paket statistik, misalnya R dengan fungsi survreg() ˆ yang dihasilkan perlu dikalikan dengan −1, dalam library survival, estimasi β karena spesifikasinya adalah berdasarkan µ = −Xβ, bukan µ = Xβ.
54
5.8. Model Regresi Log-normal
Tabel 5.3: Estimasi Parameter Model (5.24) ˆ Variabel βˆ se(β) Intersep βˆ0 = −2,248 0,166 x1 (6-MP) βˆ1 = −1,267 0,311 Contoh 5.4 Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1 (atau merujuk Contoh 5.3) estimasilah parameter model regresi survival Weibull S(t | X) = exp (−(exp(β0 + β1 X1 ))t)α )
(5.24)
dengan X1 bernilai 1 jika perlakuan 6-MP, 0 jika placebo. Jawab: Menggunakan bantuan paket statistik diperoleh estimasi parameter β seperti pada Tabel 5.3. Terlihat bahwa pengaruh perlakuan 6-MP adalah negatif terhadap kambuhnya leukemia, atau pemberian 6-MP mencegah kambuhnya leukemia (Tabel 5.3). Dibandingkan dengan hasil contoh sebelumnya dengan model regresi eksponensial (Tabel 5.2), meskipun nilai estimasinya berbeda, kesimpulan yang diperoleh sejalan. Untuk model Weibull ini diperoleh pula estimasi untuk α yaitu α ˆ = 1,365758.
5.8 Model Regresi Log-normal Variabel independen X dalam model regresi log-normal memodifikasi fungsi survival (3.13) melalui parameter µ(X) = Xβ, menjadi log(t) − Xβ (5.25) S(t) = 1 − Φ σ dengan Φ(x) adalah fungsi distribusi kumulatif Normal Standar. Demikian pula dengan fungsi densitas nya menjadi 1 1 2 f (t) = √ exp − 2 (log(t) − Xβ) . 2σ tσ 2π
(5.26)
Model regresi log-normal dapat dipandang sebagai model linear log(T ), yaitu log T = Xβ + σǫ
(5.27)
dengan T berdistribusi log-normal dengan fungsi densitas (5.26), dan ǫ berdistribusi normal standar.
55
5.9. Model Regresi Log-logistik
5.9 Model Regresi Log-logistik Variabel penjelas dalam model regresi log-logistik diekspresikan melalui parameter λ(X) = exp(−Xβ) dalam model survival log-logistik (3.19) sebagai berikut S(t | X) =
1 1 + (exp(−Xβ)t)α
(5.28)
Pada suatu titik t0 tertentu, dapat dilihat rasio antara survive dan non-survive S(t0 | X) 1 = 1 − S(t0 | X) (exp(−Xβ)t)α
(5.29)
sebagai semacam odds ratio pada response biner. Rasio seperti (5.29) ini dapat dihitung pada semua t, tergantung titik mana yang menjadi perhatian. Kemudian apabila diambil log dari rasio tersebut maka akan diperoleh S(t0 | X) 1 log = log 1 − S(t0 | X) (exp(−Xβ)t)α = −α [log(exp(−Xβ)) + log(t)] = −α(−Xβ) − α log(t) = Xb − α log(t) (5.30) dengan b = αβ. Model regresi log-logistik merupakan salah satu model yang memenuhi sifat proportional odds. Yaitu, apabila ada dua kelompok atau individu i dan j yang berbeda, dan odds ratio keduanya adalah proporsional atau S(t0 | Xi b) S(t0 | Xj b) =φ 1 − S(t0 | Xi b) 1 − S(t0 | Xj b)
(5.31)
dengan φ adalah konstan untuk semua t. Likelihood dan estimasi parameter model ini dapat dirumuskan dari bentuk umum fungsi likelihood (5.7), dengan mengganti fungsi survival dengan (5.28) untuk data yang tersensor kanan; dan mengganti fungsi densitas dengan f (t | X) = α(exp(−Xβ)t)α−1 [1 + (exp(−Xβ)t)α ]2
(5.32)
untuk observasi lengkap.
5.10
Identifikasi Model
Tabel 5.4 adalah ringkasan untuk mengidentifikasi distribusi model survival yang sesuai, apabila diberikan data survival tertentu. Ringkasan ini untuk data univariat (tanpa variabel independen) yang dapat menjadi dasar untuk identifikasi model regresi survival.
56
5.10. Identifikasi Model
Tabel 5.4: Identifikasi Distribusi log h(t) konstan? Eksponensial t linear? Gompertz
H(t) log H(t) t linear? − Eksponensial − t linear? Gompertz
log(t) − linear? Weibull nonmonotonik− Lognormal Loglogistik
log(t) linear? Weibull t linear asimtotik? Distribusi dgn ekor eksponensial
Koefisien variasi 1? < 1? Gamma, Weibull Log-normal Log-logistik − > 1? Gamma, Weibull Log-normal Log-logistik Compound exponential
5.10.1 Menggunakan Probability-Plot Identifikasi dan penilaian distribusi dapat dilakukan menggunakan p-plot (probability plot) sebagai berikut: 1. Pilih distribusi teoritis untuk t 2. Hitung estimasi fungsi distribusi kumulatif Fˆ (t) sampel dari t 3. Plot t atau fungsi dari t dengan estimasi fungsi distribusi kumulatif nya 4. Fit garis lurus pada plot tersebut Sebagai contoh, beberapa distribusi berikut dapat dikenali melalui p-plot: Distribusi eksponensial plot garis lurus antara t dengan log[
1 ] 1 − Fˆ (t)
Distribusi Weibull " # 1 1 1 plot garis lurus antara log t dengan log + log log λ α 1 − Fˆ (t) Distribusi Log-normal plot garis lurus antara log t denganΦ−1 (Fˆ (t))
57
5.11. Latihan Bab 5
5.10.2 Menggunakan Hazard-Plot Hazard-plot (h-plot) lebih tepat digunakan dibandingkan p-plot jika ada data yang tersensor. Langkah-lagkahnya adalah sebagai berikut: 1. Urutkan t mulai dari yang terkecil sampai yang terbesar. 2. Beri angka n untuk yang terkecil dan n − 1 untuk yang berikutnya sampai yang terbesar diberi angka 1. Angka ini dinamakan K penomoran terbalik (reserve-order numbers). 3. Hitung estimasi hazard 1/K, untuk data yang lengkap (tidak tersensor) saja. 4. Hitung Nilai hazard kumulatif Sebagai contoh, beberapa distribusi berikut dapat dikenali melalui h-plot: Distribusi Eksponensial ˆ plot garis lurus antara t dengan log[H(t)] Distribusi Weibull ˆ plot garis lurus antara log t dengan log[H(t)] Distribusi Log-normal ˆ
plot garis lurus antara log t denganΦ−1 ([1 − e−H(t) ]) ˆ Nilai H(t) juga dapat menggunakan Nelson-Aalen.
5.11
Latihan Bab 5
5.1. Tulislah model AFT untuk model baseline survival dan hazard Weibull! 5.2. Diketahui baseline hazard function h(t) = θeαt , θ, α > 0, t ≥ 0. (a) Tulislah model AFT dari baseline hazard function di atas, dengan satu variabel penjelas ( 1 jika subyek adalah laki-laki x= 0 jika subyek adalah perempuan
58
5.11. Latihan Bab 5
Tabel 5.5: Data Soal 5.6 i 1 2 3 4
t 1 2 3 5
status meninggal meninggal tersensor-kanan tersensor-kanan
x1i 2 1 4 8
x2i 1 1 4 8
(b) Buatlah grafik fungsi survival model AFT tersebut untuk masingmasing kelompok laki-laki dan perempuan (dalam satu gambar), jika diketahui β = 0,5 (c) Interpretasikan grafik tersebut! 5.3. Untuk T berdistribusi eksponensial, tunjukkan bahwa fungsi survival AFT ekivalen dengan fungsi survival parametric proportional hazards (model proportional hazards dengan h0 (t) konstan). 5.4. Apabila rasio antara dua fungsi hazard h(t | x1 ) dan h(t | x2 ) adalah konstan sepanjang waktu t, maka dikatakan h(t | xj ) adalah Model hazard proporsional (atau PHM : proportional hazard models). Tunjukkan bahwa model ! p X λ1 (t | x) = λ(t) exp βj xj j=1
adalah PHM, sedangkan λ2 (t | x) = λ(t) +
p X
βj xj
j=1
adalah bukan PHM, jika diketahui λ(t) bukan fungsi konstan terhadap t. 5.5. Dengan menggunakan model regresi Weibull, estimasilah parameter regresi h(t | X) = exp(Xβ), dengan T adalah lama waktu sampai rusaknya komponen elektrik dan X adalah voltase, pada data pada Tabel 1.2, Contoh 1.8 Bab 1! 5.6. Diberikan model hazard h(t | x) = β1 x1 + β2 x2 , dengan β1 dan β2 adalah parameter regresi, T adalah usia meninggal. Dengan mengasumsikan distribusi eksponensial Carilah MLE βˆ1 dan βˆ2 , apabila diberikan data Tabel 5.5 ini dan hitunglah nilainya.
59
5.11. Latihan Bab 5
Tabel 5.6: Data Soal 5.7 Laki-laki Usia 100 125 150 50 13 12 85 51 11 21 95 52 8 8 105 53 10 20 113 54 8 11 109 55 13 22 126 56 19 16 142 57 9 19 145 58 17 23 155 59 14 28 182
Perempuan 100 125 150 3 12 49 7 13 53 8 13 69 12 16 61 12 15 60 8 12 68 11 11 96 5 19 97 5 17 93 9 14 96
5.7. Diberikan data mortalitas (usia kematian) antara 50-59 tahun dan informasi tekanan darah sistolik untuk laki-laki maupun perempuan seperti pada Tabel 5.6. (a) Tulislah model AFT Gompertz apabila diberikan x1 adalah 1 jika perempuan, 0 jika laki-laki; x2 adalah tekanan darah. (b) Estimasilah parameter model AFT Gompertz 5.8. Durasi pemogokan buruh mengikuti model regresi hazard proporsional (parametrik) dengan baseline hazard konstan (berdistribusi eksponensial). Variabel independen yang menjadi perhatian adalah indeks kondisi perburuhan (terkait Upah minimum, tunjangan, asuransi, dst.). Apabila indeks bernilai 10, mean durasi pemogokan 0,2 tahun. Jika indeks bernilai 25, median durasi pemogokan 0,04 tahun. Berapa peluang akan terjadi pemogokan selama lebih dari satu tahun jika indeks kondisi perburuhan bernilai 5?
6 Regresi Cox 6.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 6.1. Menjelaskan prinsip Partial Likelihood dalam estimasi parameter model Regresi Cox 6.2. Melakukan analisis data survival menggunakan model Regresi Cox 6.3. Menjelaskan prinsip metode untuk data ties dalam regresi Cox 6.4. Menjelaskan prinsip stratifikasi dan non-proporsionalitas
6.2 Model dan Asumsi Model Regresi Cox adalah model regresi hazard proporsional dengan fungsi baseline hazard nya dimodelkan secara non-parametrik dan fungsi variabel independennya dimodelkan secara parametrik. Sehingga model ini dikenal juga sebagai Cox proportional hazards model (Cox, 1975; Cox, 1972) atau Cox Semiparametric hazards model. Regresi Cox dimodelkan sebagai berikut h(t | x) = h0 (t)ψ(x, β)
(6.1)
dengan x = (x1 , . . . , xp ) adalah vektor kovariat (variabel independen) dan β ′ = (β1 , . . . , βp ) adalah parameter dari model regresi. Dalam regresi ini hazard untuk tiap-tiap individu sama dengan baseline hazard h0 (t) apabila pengaruh variabel
60
61
0.3 0.0
0.1
0.2
S(t)
0.4
0.5
0.6
6.2. Model dan Asumsi
t
Gambar 6.1: Kurva hazard untuk dua grup atau individu yang berbeda, λ1 = 0, 1 dan λ2 = 0, 3 independen tidak diperhatikan, atau nilai x = (x1 , . . . , xp ) semuanya sama dengan nol. Hazard dari masing-masing individu termodifikasi secara multiplikatif oleh karakteristik masing-masing individu, yang diekspresikan dengan ψ(x, β). Asumsi yang mendasari model ini adalah proporsionalitas. Asumsi ini dapat digambarkan seperti pada Gambar 6.1. Misalkan ada dua grup atau dua individu yang masing-masing mempunyai hazard λ1 = 0,1 dan λ2 = 0,3. Hazard ratio dari kedua individu ini adalah λ2 /λ1 = 0,3/0,1 = 3. Nilai hazard ratio ini tetap atau konstan atau proporsional sepanjang waktu. Asumsi hazard ratio yang konstan inilah yang mendasari Regresi Cox. Dalam asumsi hazard proporsional, semua individu dianggap mempunyai satu baseline hazard yang sama yang kemudian nilainya menjadi berbeda atau termodifikasi sesuai karakteristik atau informasi pada masing-masing individu. Dalam contoh hazard ratio di atas, jika baseline hazard nya adalah h0 (t) = 0,1 maka individu pertama tidak memodifikasi hazardnya karena λ1 = 0,1, tetapi individu kedua memodifikasi menjadi λ2 = 0,3. Ilustrasi yang lain, misalnya baseline hazard pada satu populasi mengikuti hazard distribusi Weibull dengan parameter α dan λ tertentu. Kemudian ada satu
62
6.3. Estimasi parameter
kelompok yang termodifikasi nilai hazard nya menjadi 2 kalinya, sedangkan kelompok yang lain menjadi 0,8 kali nya. Gambar hazard untuk populasi ini adalah seperti pada Gambar 6.2. Garis utuh adalah baseline hazard h0 (t). Hazard ini termodifikasi menjadi 2h0 (t) dan menjadi 0,8h0 (t). Meskipun hazardnya menjadi berbeda namun rasio hazardnya selalu tetap, yaitu 2 untuk kelompok yang pertam dan 0,8 untuk kelompok yang kedua. Model hazard proporsional dapat dimodelkan secara paramatrik maupun nonparametrik atau semi-parametrik. Model hazard proporsional semi-parametrik sering dinamakan sebagai Model regresi Cox. Berikut ini berturut-turut adalah fungsi hazard, survival dan hazard kumulatif untuk model regresi Cox. h(t | X) = h0 (t)exp(Xβ)
(6.2)
S(t | X) = S0 (t)exp(Xβ )
(6.3)
H(t | X) = H0 (t) exp(Xβ)
(6.4)
dengan X, β, h0 , S0 dan H0 sama seperti yang didefinisikan pada model AFT.
6.3 Estimasi parameter Estimasi parameter pada model Regresi didasarkan pada Partial Likelihood: L(β) =
Y
k∈D
P
exp(xk β) j∈Rk exp(xj β)
(6.5)
dengan x adalah vektor kovariat (variabel penjelas); β adalah parameter regresi yang akan diestimasi; D adalah himpunan indeks j dari semua waktu kejadian (semua tj yang mendapatkan kejadian); Rk adalah himpunan resiko (risk set) , semua individu (subyek) yang belum mendapatkan kejadian pada saat tertentu. Sebagai ilustrasi untuk Partial Likelihood, misal dipunyai data survival seperti pada Tabel 6.1. Data dalam Tabel tersebut terdiri atas t sebagai data survival, δ adalah indikator tersensor-kanan, dan x variabel penjelas atau kovariat. Sedangkan ID adalah identitas atau nomor urut individu. Model yang menjadi perhatian adalah h(t | x) = h0 (t) exp(xβ)
(6.6)
Data pada Tabel 6.1 dapat di-ilustrasikan seperti Gambar 6.3. Tiap individu memiliki skor sebagai fungsi dari variabel penjelas yang dimiliki masing-masing.
63
4
5
6.3. Estimasi parameter
3
h0(t)
2
h(t)
2h0(t)
0
1
0.8h0(t)
t
Gambar 6.2: Baseline hazard dan kurva hazard untuk dua grup yang berbeda, λ1 = 0, 1 dan λ2 = 0, 3
Tabel 6.1: Contoh data survival untuk ilustrasi Partial Likelihood ID 1 2 3 4
t 5 7 2 4
δ x 1 2,58 1 1,36 1 -0,54 0 3,30
64
6.3. Estimasi parameter
ψ(1) = e2,58β
e2,58β e2,58β +e1,36β
ψ(2) = e1,36β
e1,36β e1,36β
ψ(3) = e-0,54β
e-0,54β e2,58β +e1,36β +e-0,54β +e3,30β
ψ(4) = e3,30β
2
4 waktu
5
7
Gambar 6.3: Ilustrasi untuk Partial Likelihood Data Tabel 6.6 Dalam regresi linear, skor adalah kombinasi linear dari variabel penjelas dengan koefisien regresi. Demikian halnya dengan regresi Cox skor tersebut merupakan eksponensial kombinasi linear dari variabel penjelas dengan koefisien regresi, yang dinotasikan dengan ψ. Sebagai contoh, individu ke-2 akan mempunyai skor ψ(2) = exp(1,36β). Himpunan resiko (risk set) dalam partial likelihood adalah himpunan semua individu yang mempuunyai kemungkinan untu mendapatkan event tepat sebelum suatu titik waktu. Sebagai contoh, lihat Gambar 6.3, pada saat t = 5, himpunan resiko nya adalah individu 1 dan 2 saja (yang terlewati garis vertikal pada saat t = 5. Mereka adalah individu yang masih mungkin untuk mendapatkan event pada saat tepat sebelum t = 5 (limit dari kiri mendekati 5). Sedangkan individu ke-3 sudah mendapatkan event sebelumnya, dan individu ke-4 tersensor sebelum t = 5. Pada suatu titik waktu dapat dilihat rasio antara skor individu yang mendapatkan event pada titik waktu tersebut, dibandingkan dengan jumlahan skor individu dalam himpunan resiko. Sebagai contoh pada saat t = 5, rasio skor-nya adalah ψ(1) . psi(1) + ψ(2) Rasio skor inilah yang menjadi dasar pembentukan partial likelihood. Rumusan partial likelihood (6.5) menyatakan bahwa produk dari rasio skor hanya dihitung pada saat ada event. Sehingga produk tersebut hanya berjalan sebanyak event yang terjadi. Dalam ilustrasi ini hanya ada 3 event, yang berarti hanya ada 3 rasio skor yang membentuk produk.
65
−2.5 −3.0 −3.5 −4.5
−4.0
log.likelihood(β)
−2.0
−1.5
6.3. Estimasi parameter
−3
−2
−1 −0.655
0
1
β
Gambar 6.4: Fungsi Partial Likelihood (6.7) Partial likelihood untuk data ilustrasi ini dapat disusun sebagai berikut, ψ(3) ψ(1) ψ(2) × × ψ(1) + ψ(2) + ψ(3) + ψ(4) ψ(1) + ψ(2) ψ(2) e-0,54β e2,58β e1,36β = 2,58β × × (6.7) e + e1,36β + e-0,54β + e3,30β e2,58β + e1,36β e1,36β
L(β) =
Gambar 6.4 adalah gambar fungsi log partial-likelihood terhadap parameter β. Terlihat pada gambar tersebut bahwa nilai parameter β yang memaksimumkan log partial-likelihood terletak pada ˆ(β) = -0,655, dengan nilai partial likelihood log(L(-0,655)) = -1,575, atau partial likelihood sebesar L(-0,655) = 0,207. Nilai ˆ(β) inilah yang menjadi estimasi untuk parameter dalam regresi Cox. Banyak metode yang dapat digunakan untuk mencari estimator yang memaksimalkan Partial Likelihood. Salah satu diantaranya adalah Metode Newton Rhapson. Metode ini memerlukan turunan pertama dan kedua fungsi Partial Likelihood terhadap parameternya. Dengan alasan yang sama seperti pada Bagian 3.3 Bab 3, log Partial Likelihood lebih mudah dalam manipulasi dan komputasi dibandingkan dengan Partial Likelihood nya sendiri. Fungsi log Partial Likelihood ℓ(β) dapat diperoleh dari persamaan (6.5) seba-
66
6.3. Estimasi parameter
gai berikut ℓ(β) =
X k∈D
xk β −
X
log
k∈D
X
exp(xj β)
j∈Rk
!
(6.8)
Turunan pertama dari ℓ(β) atau sering disebut sebagai score function adalah P X X j∈R x(j)h exp(xj β) Pk (6.9) Uh (β) = x(k)h − exp(x β) j j∈R k k∈D k∈D
dengan h = 1, . . . , p, yaitu banyaknya parameter dalam model. Negatif turunan kedua dari ℓ(β) atau sering disebut sebagai information matrix nya adalah # "P P X j∈R xjg xjh exp(xj β) X x exp(x β) jg j j∈R Pk P k Igh (β) = − exp(x β) j j∈Rk j∈Rk exp(xj β) k∈D k∈D # "P j∈Rk xjh exp(xj β) P (6.10) j∈Rk exp(xj β) dengan g, h = 1, . . . , p Untuk menyederhanakan penulisan didefinisikan P j∈Rk x(j)h exp(xj β) P Akh (β) = j∈Rk exp(xj β)
(6.11)
sehingga turunan pertama dari ℓ(β) dapat ditulis sebagai X Uh (β) = x(k)h − Akh (β)
(6.12)
dan turunan kedua dari ℓ(β) dapat ditulis sebagai # "P X x x exp(x β) jg jh j j∈Rk P − Akg (β)Akh (β) Igh (β) = exp(x j β) j∈R k k∈D
(6.13)
k∈D
Algoritma Newton-Rhapson untuk estimasi parameter berdasarkan log Partial-Likelihood adalah sebagai berikut ˆ (0) 1. Mulai dengan nilai awal β 2. Pada iterasi ke-k, nilai estimasi Estimasi di-update ˆ (k+1) = β ˆ (k) + I(β ˆ (k) )−1 U(β ˆ (k) ) β
67
6.4. Ties dalam Partial Likelihood
ˆ 3. Iterasi dihentikan dengan kriteria kekonvergenan ℓ(β
(k+1)
ˆ dan variansinya V( ˆ = I(β) ˆ −1 ˆ β) 4. Diperoleh estimasi β
ˆ ) ≈ ℓ(β
(k)
)
Beberapa paket statistik standar seperti SAS, S-PLUS, SPSS, MINITAB, STATA dan R menyediakan fasilitas untuk melakukan estimasi Partial Likelihood seperti tersebut di atas.
6.4 Ties dalam Partial Likelihood Bilamana terdapat ties (data yang mempunyai nilai survival yang sama), Partial Likelihood akan bermasalah dalam menentukan himpunan resiko nya. Untuk itu perlu modifikasi dari rumusan Partial Likelihood (6.5). Diberikan data survival: t1 < t2 < . . . < tn(D) dengan n(D) adalah banyaknya waktu t yang mendapatkan kejadian; dk adalah banyaknya kejadian saat tk (jika dk ¿1 dinamakan P ties); Dk adalah himpunan individu yang mendapatkan kejadian saat tk ; Sk = j∈D xj adalah jumlahan nilai variabel x pada saat tk . Metode yang dapat digunakan untuk mengatasi ties adalah metode Breslow, Efron dan Exact (metode diskret). Dalam diktat ini akan dibahas metode Breslow dan Efron. Partial Likelihood dalam metode Breslow adalah sebagai berikut: Y exp(Sk β) (6.14) L(β) = id k hP k∈D exp(x β) j j∈Rk Untuk metode Efron modifikasii nya adalah sebagai berikut: Y exp(Sk β) i L(β) = Q dk h P j−1 P k∈D i∈Dk exp(xi β) j=1 i∈Rk exp(xi β) − dk
(6.15)
6.5 Interpretasi Parameter Parameter dalam regresi Cox dapat diinterpretasikan sebagai hazard ratio. Misalkan diberikan model regresi Cox dengan satu variabel independen h(t | x) = h0 (t) exp(xβ) dengan x =
(
0 1
placebo obat baru
68
6.6. Stratifikasi
maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah h(t | x = 1) h(t | x = 0) h0 (t) exp(1 × β) = h0 (t) exp(0 × β) = exp(β)
HR =
Interpretasinya, jika β = 0 maka obat baru dan placebo sama efeknya. Namun jika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo (resiko kematian lebih rendah). Kemudian jika β > 0 obat baru memberikan efek yang lebih buruk daripada placebo (resiko kematian lebih tinggi) Secara umum nilai estimasi β dapat digunakan untuk mengidentifikasi faktor resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen time-to-event T .
6.6 Stratifikasi Stratifikasi dalam model Cox memungkinkan untuk menentukan baseline hazard yang berbeda untuk masing-msing strata namun parameter β sama untuk tiap strata, yaitu hj (t | x) = h0j exp(xβ)
(6.16)
dengan j = 1, . . . , s adalah banyaknya strata. Estimasi untuk β menggunakan partial likelihood (6.5) atau modifikasinya untuk data ties dengan Breslow (6.14) atau Efron (6.15). Partial likelihood dengan strata adalah sebagai berikut ℓ(β) = ℓ1 (β) + ℓ2 (β) + . . . + ℓs (β)
(6.17)
dengan ℓj (β), j = 1, . . . , s adalah partial likelihood yang dihitung hanya pada subset data dalam strata ke-j.
6.7 Inferensi Parameter Regresi Cox Metode inferensi standar yang berdasar pada sifat asimptotik likelihood, yaitu Wald Test, Score Test dan Likelihood Ratio Test, dapat digunakan untuk inferensi parameter regresi Cox. Bila hipotesis nol uji adalah H0 : β = β 0 , maka berturut-turut statistik uji dari Wald Test, Score Test dan Likelihood Ratio Test adalah
6.7. Inferensi Parameter Regresi Cox
69
Wald Test ˆ − β )T I(β)( ˆ β ˆ −β ) χ2W = (β 0 0
(6.18)
χ2SC = U(β 0 )T I−1 (β 0 )U(β 0 )
(6.19)
ˆ − ℓ(β 0 )) χ2LR = 2(ℓ(β)
(6.20)
Score Test
Likelihood Ratio Test
Untuk n cukup besar χ2W , χ2LR , χ2SC berdistribusi Chi-square dengan derajad bebas p, dengan asumsi H0 benar. Contoh 6.1 Merujuk ke data contoh 1.9 Bab 1, lakukan analisis data menggunakan regresi Cox. Jawab: Latar belakang permasalahan dalam data tersebut adalah penelitian terkait faktor-faktor yang mempengaruhi lama menyusui. Data survival yang menjadi perhatian adalah lama waktu mulai dari bayi diberi ASI sampai disapih (dihentikannya pemberian ASI) atau pengamatan berakhir, karena penelitian telah berakhir maupun karena subyek tidak berpartisipasi lagi dalam penelitian. Model regresi Cox dapat dimulai dari model yang memuat semua variabel yang menjadi perhatian, kemudian diuji apakah kontribusi masing-masing variabel pada model cukup signifikan dalam menaikkan nilai partial likelihood. Dapat digunakan uji likelihood ratio untuk membandingkan model yang akan dievaluasi dengan model pada saat awal. Model regresi Cox dengan semua variabel yang menjadi perhatian adalah sebagai berikut, h(t | x) = h0 (t) exp (x1 β1 + x2 β2 + x3 β3 + x4 β4 + x5 β5 + x6 β6 + x7 β7 + x8 β8(6.21) ) dengan x1 adalah variabel boneka bentukan dari variabel race, x1 = 1 jika ras kulit hitam, 0 jika ras putih atau lainnya ; x2 adalah variabel boneka bentukan dari variabel race, x2 = 1 jika ras lainnya,0 jika ras hitam atau putih; x3 = 1 jika ibu dikategorikan miskin, 0 jika tidak; x4 = 1 jika ibu merokok, 0 jika tidak; x5 = 1 jika ibu peminum alkohol, 0 jika tidak; x6 adalah usia ibu saat melahirkan, x7 adalah lama pendidikan; dan x8 = 1 jika periksa kehamilan setelah bulan ketiga, 0 jika tidak. Menggunakan alat bantu paket statistik, dapat diperoleh parameter dari partial likelihood model regresi Cox di atas. Dihitung uji likelihood ratio ˆ − ℓ(β )) χ2LR = 2(ℓ(β) 0
(6.22)
ˆ adalah log-partial-likelihood pada model yang akan dievaluasi, ℓ(β ) adalah dengan ℓ(β) 0 log-partial-likelihood pada model pembanding. Hipotesis nol untuk uji ini adalah H0 : β = β0.
70
6.7. Inferensi Parameter Regresi Cox
Tabel 6.2: Uji Likelihood Ratio Model (6.21) Variabel db LRT race 2 11,0012 poverty 1 5,2354 smoke 1 9,5823 alcohol 1 1,8002 agemth 1 1,4301 yschool 1 5,8138 pc3mth 1 0,0876
p-value 0,004084 0,022131 0,001965 0,179693 0,231752 0,015901 0,767215
db: derajat bebas LRT: likelihood-ratio test
Untuk melihat kontribusi masing-masing variabel terhadap nilai likelihood, maka setiap variabel diuji dengan likelihood-ratio test. Model dengan variabel penuh (semua variabel dalam model (6.21)) dibandingkan dengan model yang telah dikurangi satu variabel yang diuji. Misalnya untuk variabel race. Model dengan semua variabel termasuk race mempunyai log-partial-likelihood -5175.520 (dapat dihitung dengan paket statistik). Model dengan semua variabel kecuali race mempunyai log-partial-likelihood -5181.021. Sehingga uji LR untuk race adalah χ2LR = 2((−5175,520) − (−5181,021) = 11,002
Nilai probabilitas signifikansinya (p-value) adalah P (W > 11,002) = 0,00408, dengan W berdistribusi χ2b=2 . Variabel race dalam model ini memberikan dua variabel boneka karena race mempunyai 3 kategori (variabel x1 dan x2 dalam model (6.21)), sehingga memberi kontribusi 2 parameter pula (β1 dan β2 ). Nilai beda dalam banyaknya parameter inilah yang menentukan derajat bebas dalam uji LR. Hasil lengkap uji LR untuk semua variabel adalah seperti pada Tabel 6.2. Terlihat bahwa variabel race, poverty, smoke dan yschool signifikan dalam model. Sehingga model yang lebih baik dengan lebih sedikit parameter dan log-partial-likelihood yang masih besar adalah h(t | x) = h0 (t) exp (x1 β1 + x2 β2 + x3 β3 + x4 β4 + x5 β5 + x7 β7 )
(6.23)
dengan Nilai Uji LR seperti pada Tabel 6.3. Hasil estimasi parameter model (6.23) adalah seperti pada Tabel 6.4. Model (6.23) dengan uji kebaikan model Tabel 6.3 dan hasil estimasi Tabel 6.4 merupakan model final untuk data ini. Tentu saja masih harus dilihat secara substansi dan diinterpretasikan nilai koefisien dari masing-masing estimasi parameter. ˆ yang juga meInterpretasi model dapat dilihat selain pada βˆ juga pada nilai exp(β) rupakan nilai hazard ratio nya. Pada variabel ras, kulit hitam dan lainnya mempunyai
71
6.7. Inferensi Parameter Regresi Cox
Tabel 6.3: Uji Likelihood Ratio Model (6.23) Variabel db LRT p-value race 2 10,7434 0,004646 poverty 1 5,3205 0,021076 smoke 1 11,0858 0,000870 yschool 1 3,8197 0,050653 db: derajat bebas LRT: likelihood-ratio test
Tabel 6.4: Estimasi parameter β Model (6.23) Variabel x1 (ras kulit hitam) x2 (ras lainnya) x3 (poverty) x4 (smoke) x7 (yschool)
βˆ 0,17835 0,30563 -0,20954 0,26437 -0,03731
ˆ exp(β) 1,19524 1,35748 0,81096 1,30261 0,96338
ˆ se(β) 0,10406 0,09706 0,09233 0,07825 0,01914
hazard ratio yang lebih tinggi dari kulit putih, exp(β1 ) > 1 dan exp(β2 ) > 1. Hazard ratio yang lebih besar dari satu berarti kecenderungan untuk berhenti menyusui lebih awal di kalangan kulit hitam dan lainnya cukup tinggi. Merokok juga mempunyai hazard ratio yang lebih tinggi dari tidak merokok (βˆ4 > 1). Sehingga dapat di-interpretasikan merokok mengakibatkan penhyapihan yang lebih cepat. Sebailknya, kemiskinan, maupun berpendidikan memperlama penyapihan. Secara substansial, mungkin karena ibu yang miskin cenderung tidak mampu membeli susu formula dan menggantinya dengan ASI. Untuk ibu yang berpendidikan barangkali sudah cukup tahu manfaat ASI sehingga lebih lama dalam memberikan ASI. Untuk menunjukkan efek variabel penjelas pada survival (lama menyusui dalam contoh ini), dapat digunakan plot estimasi fungsi survival. Misalnya ingin dilihat pengaruh merokok terhadap lama menyusui. Plot fungsi survival dapat dibuat untuk masing-masing status merokok (variabel smoke) dengan model S(t | x) = Sj (t)exp(xβ ) ,
(6.24)
dengan j = 1, 2 adalah strata, menjadi anggota strata j = 1 jika x4 = 0 (bukan perokok), menjadi anggota strata j = 2 jika x4 = 1 (perokok). Untuk membuat plot kurva survival ˆ dan nilai x yang sama untuk masing-masing strata, dapat diambil nilai digunakan nilai β rata-ratanya. Grafiknya adalah seperti pada Gambar 6.5. Terlihat bahwa perokok mempunyai kurva survival yang lebih rendah daripada bukan-perokok, atau ibu yang merokok cenereung lebih cepat menghentikan pemberian ASI.
72
0.6 0.4
estimasi S(t)
0.8
1.0
6.8. Latihan Bab 6
0.2
bukan perokok
0.0
perokok
0
20
40
60
80
t (minggu)
Gambar 6.5: Plot estimasi kurva survival Model (6.24)
6.8 Latihan Bab 6 6.1. Diketahui model regresi hazard proporsional h(t | x) = h0 (t) exp(xβ), dengan variabel random T adalah lama hidup seorang pasien dan ( 1 jika pasien mendapatkan placebo x= 1 jika pasien mendapatkan obat baru Interpretasikan model ini berdasarkan hazard ratio untuk nilai β = 0, β < 0 dan β > 0! 6.2. Diketahui data lama hidup (dalam hari) dua kelompok perlakuan untuk tikus yang terkena suatu jenis kanker: Kelompok 1 188 192 206 227 265+ 304 244+ Kelompok 2 156 163 205 232 233 239 240 261+ 204+ 344+ dengan tanda + menunjukkan data tersensor. (a) Buatlah grafik estimasi fungsi survival menggunakan Kaplan-Meier untuk masing-masing kelompok (Gambarlah pada tempat yang sama dengan skala yang sama agar dapat dilihat perbedaannya)
6.8. Latihan Bab 6
73
(b) Ujilah apakah dua kelompok tersebut mempunyai fungsi survival yang sama dengan menggunakan uji logrank. 6.3. Diketahui data survival sebagai berikut: grup 1 : 5 1 2 2 7 6 grup 2 : 8+ 10 4+ 4 3+ dengan ”+” adalah tanda untuk data tersensor kanan. (a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan Nelson-Aalen untuk masing-masing grup (b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan menggunakan logrank test (α = 0,025) 6.4. Tulislah Partial Likelihood L(β) untuk data soal nomor 3 dengan variabel independen x adalah grup, yaitu x = 0 jika subyek dari grup 1, dan x = 1 jika subyek berasal dari grup 2, dan β adalah koefisien regresi untuk x. Kemudian hitunglah L(β = −2). (Gunakan metode Breslow jika ada ties) 6.5. Merujuk data seperti soal 1.4 Bab 1 (33 pasien leukemia), diberikan model regresi hazard proporsional h(t | X) = h0 (t) exp(X1 β1 +X2 β2 ). Diperoleh estimasi parameter dan standard error nya: βˆ1 = −1,089, σ ˆ (βˆ1 ) = 0,4263 ˆ ˆ dan β2 = 0,7840, σ ˆ (β2 ) = 0,4994; dengan log-likelihood model tanpa variabel penjelas (null model) adalah −85,05447 dan log-likelihood ketika mencapai maksimum adalah −79,79271. Interpretasikan hasilnya dan hitung uji likelihood ratio nya. 6.6. Diketahui data lama hidup 30 orang pasien yang menderita suatu penyakit tertentu seperti tersebut di bawah, dengan variabel x1 = 1 adalah pasien berusia lebih dari 50 tahun; dan x2 = 1 adalah pasien dengan tingkat keparahan penyakit tinggi. (a) Hitunglah estimasi fungsi survival data tersebut dengan menggunakan estimasi Kaplan-Meier (tanpa variabel x1 ,x2 ) dan gambarlah kurva nya! (b) Dengan menggunakan paket statistik R diperoleh hasil sebagai berikut: Call: coxph(formula = Surv(dur, d) ˜ x1 + x2) coef exp(coef) se(coef) z p x1 1.046 2.85 0.458 2.284 0.022 x2 0.359 1.43 0.440 0.815 0.420
74
6.8. Latihan Bab 6
Data: lama hidup 18 9 28+ 31 39+ 19+ 45+ 6 8 15 23 28+ 7 12 9
x1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
x2 0 1 0 1 1 1 1 1 1 1 0 0 1 0 0
lama hidup 8 2 26+ 10 4 3 4 18 8 3 14 3 13 13 35+
Likelihood ratio test=5.76
x1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
x2 0 1 0 1 0 0 0 1 1 1 1 0 1 1 0
on 2 df, p=0.0561
n= 30
Interpretasikanlah hasilnya! (c) Diberikan model regresi hazard proporsional h(t | x) = h0 (t) exp(x1 β1 ). Bila observasi dibatasi hanya untuk t < 5 saja, tulislah fungsi partial log-likelihood untuk model tersebut! (d) Diberikan model regresi hazard proporsional hj (t | x) = h0j (t) exp(x1 β1 ), dengan j = 1, 2 adalah strata yang keanggotaan satu subyek dalam suatu strata ditentukan oleh nilai variabel x2 , yaitu: menjadi anggota strata 1, jika x2 = 0; menjadi anggota strata 2, jika x2 = 1. Bila observasi dibatasi hanya untuk t < 5 saja, tulislah fungsi partial log-likelihood untuk model dengan strata tersebut tersebut! (e) Jelaskan alasan penggunaan strata dalam model regresi Cox, keuntungan dan kerugiannya bila dibandingkan dengan model tanpa strata 6.7. Tunjukkanlah bahwa Metode ties-adjustment Efron akan sama dengan partial likelihood biasa jika tidak ada ties dalam data! 6.8. Jelaskan mengapa pemodelan dengan stratifikasi terkadang diperlukan dalam regresi Cox, dan sebutkan kerugian stratifikasi jika ada!
6.8. Latihan Bab 6
75
6.9. Merujuk Soal 7 Bab 4, gunakan regresi Cox untuk menganalisis data mortalitas akibat penyakit kronis tersebut, dan bandingkan hasilnya dengan uji log-rank 6.10. Merujuk Contoh 1.8 Bab 1, gunakan regresi Cox untuk menganalisis data pengaruh voltase terhadap kerusakan suatu alat elektrik!
Bibliografi Cox, D. R. (1972). Regression models and life-tables (with discussion), Journal of the Royal Statistical Society, Series B, Methodological 34: 187–220. Cox, D. R. (1975). Partial likelihood, Biometrika 62: 269–276. Cox, D. R. and Oakes, D. O. (1984). Analysis of survival data, Chapman & Hall Ltd. Klein, J. and Moeschberger, M. (2003). Survival analysis: techniques for censored and truncated data, Statistics for biology and health, Springer. Lawless, J. (2003). Statistical models and methods for lifetime data, Wiley series in probability and statistics, Wiley-Interscience.
76
View more...
Comments