Biostatistika Dan Epidemiologi
April 21, 2018 | Author: novireandysasmita | Category: N/A
Short Description
dsafdsafsda...
Description
BAHAN AJAR
BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)
Disusun oleh: Dr. Danardono, MPH.
PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA 2011
Daftar Isi 1
Pend Pendah ahul ulua uan n 1.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . 1.2 Biostatis Biostatistika tika dan Epidemio Epidemiologi logi . . . . 1.3 Profesi Profesi Biostatis Biostatistisi tisi dan Epidemiol Epidemiolog og . 1.4 Metode Metode dan Proses Proses Pembelaja Pembelajaran ran . . . 1.5 Latih Latihan an dan Tugas ugas . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
2 2 2 3 3 4
2
Desain Desain Penel Penelitia itian n 5 2.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Penelitian Penelitian dalam dalam Bidang Bidang Ilmu Ilmu Hayati, Hayati, Kedokte Kedokteran, ran, dan dan Epidemiolo Epidemiologi gi 5 2.3 Penelitian Penelitian observa observasion sional al . . . . . . . . . . . . . . . . . . . . . . 7 2.4 2.4 Pene Peneli litia tian n Cross-sectional dan Longitudinal . . . . . . . . . . . . 7 2.5 2.5 Pene Peneli litia tian n Follow-up . . . . . . . . . . . . . . . . . . . . . . . . 8 2.6 2.6 Pene Peneli litia tian n Case-control . . . . . . . . . . . . . . . . . . . . . . . 8 2.7 Penel Penelitia itian n Klinis Klinis . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.8 Model Model Statistik Statistik dan Kausalitas Kausalitas . . . . . . . . . . . . . . . . . . . 9 2.9 Latih Latihan an dan Tugas ugas . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3
Statistik Statistik dan Ukuran Ukuran dalam Epidemiolog Epidemiologii 3.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . 3.2 Preval Prevalensi ensi dan insidensi insidensi . . . . . . . . 3.2.1 3.2.1 Model Model untuk untuk Preva Prevalens lensii . . . 3.2.2 3.2.2 Model Model untuk untuk Inside Insidensi nsi . . . . 3.3 Fakto Faktorr Resik Resiko o . . . . . . . . . . . . . 3.4 Infere Inferens nsii untuk untuk RD, RR dan OR . . . 3.5 3.5 Lati Latiha han n . . . . . . . . . . . . . . . .
4
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
15 . . . . . 15 . . . . . 15 . . . . . 17 . . . . . 20 . . . . . 23 . . . . . 25 . . . . . 29
Peran Perancua cuan n dan Intera Interaksi ksi 4.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Konsep Konsep dan Identifika Identifikasi si Perancua Perancuan n . . . . . . . . . . . . . . . . .
ii
31 31 31
Daftar Isi 1
Pend Pendah ahul ulua uan n 1.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . 1.2 Biostatis Biostatistika tika dan Epidemio Epidemiologi logi . . . . 1.3 Profesi Profesi Biostatis Biostatistisi tisi dan Epidemiol Epidemiolog og . 1.4 Metode Metode dan Proses Proses Pembelaja Pembelajaran ran . . . 1.5 Latih Latihan an dan Tugas ugas . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
2 2 2 3 3 4
2
Desain Desain Penel Penelitia itian n 5 2.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Penelitian Penelitian dalam dalam Bidang Bidang Ilmu Ilmu Hayati, Hayati, Kedokte Kedokteran, ran, dan dan Epidemiolo Epidemiologi gi 5 2.3 Penelitian Penelitian observa observasion sional al . . . . . . . . . . . . . . . . . . . . . . 7 2.4 2.4 Pene Peneli litia tian n Cross-sectional dan Longitudinal . . . . . . . . . . . . 7 2.5 2.5 Pene Peneli litia tian n Follow-up . . . . . . . . . . . . . . . . . . . . . . . . 8 2.6 2.6 Pene Peneli litia tian n Case-control . . . . . . . . . . . . . . . . . . . . . . . 8 2.7 Penel Penelitia itian n Klinis Klinis . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.8 Model Model Statistik Statistik dan Kausalitas Kausalitas . . . . . . . . . . . . . . . . . . . 9 2.9 Latih Latihan an dan Tugas ugas . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3
Statistik Statistik dan Ukuran Ukuran dalam Epidemiolog Epidemiologii 3.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . 3.2 Preval Prevalensi ensi dan insidensi insidensi . . . . . . . . 3.2.1 3.2.1 Model Model untuk untuk Preva Prevalens lensii . . . 3.2.2 3.2.2 Model Model untuk untuk Inside Insidensi nsi . . . . 3.3 Fakto Faktorr Resik Resiko o . . . . . . . . . . . . . 3.4 Infere Inferens nsii untuk untuk RD, RR dan OR . . . 3.5 3.5 Lati Latiha han n . . . . . . . . . . . . . . . .
4
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
15 . . . . . 15 . . . . . 15 . . . . . 17 . . . . . 20 . . . . . 23 . . . . . 25 . . . . . 29
Peran Perancua cuan n dan Intera Interaksi ksi 4.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Konsep Konsep dan Identifika Identifikasi si Perancua Perancuan n . . . . . . . . . . . . . . . . .
ii
31 31 31
iii
Daftar Isi
4.3
4.4 4.4 4.5 4.5 5
6
7
8
Metode Metode Standaris Standarisasi asi dan Mantel-Hae Mantel-Haensze nszell . 4.3.1 4.3.1 Stand Standari arisa sasi si Langsu Langsung ng . . . . . . . 4.3.2 4.3.2 Standaris Standarisasi asi Tidak Tidak Langsung Langsung . . . . 4.3.3 4.3.3 Mante Mantel-H l-Hae aensz nszel el . . . . . . . . . . Inte Intera raks ksii . . . . . . . . . . . . . . . . . . . Lati Latiha han n . . . . . . . . . . . . . . . . . . .
Model Linear Linear Tergeneralisasi ergeneralisasi 5.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . . 5.2 Generalis Generalisasi asi Model Model Linear Linear . . . . . . . 5.3 Regre Regresi si Logist Logistik ik . . . . . . . . . . . . . 5.3.1 5.3.1 Model Model dan Estimasi Estimasi Paramete Parameterr . 5.3.2 5.3.2 Interpreta Interpretasi si Paramete Parameterr Model Model . . 5.4 Regre Regresi si Poiss Poisson on . . . . . . . . . . . . . 5.4.1 5.4.1 Model Model dan Estimasi Estimasi Paramete Parameterr . 5.4.2 5.4.2 Interpreta Interpretasi si Paramete Parameterr Model Model . . 5.5 5.5 Lati Latiha han n . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Uji Uji Diagn Diagnost ostik ik 6.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . . . . 6.2 Sensitiv Sensitivitas, itas, Spesifisit Spesifisitas as dan dan Nilai Nilai Predik Prediksi si . 6.3 6.3 Kurv Kurvaa ROC . . . . . . . . . . . . . . . . . 6.4 6.4 Lati Latiha han n . . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . .
. . . . . . . . .
. . . .
Analisi Analisiss Data Data Longitu Longitudin dinal al 7.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . . . . . . . . . . 7.2 Deskripsi Deskripsi Data longitudin longitudinal al . . . . . . . . . . . . . . . 7.3 Model Model Regresi Regresi Data longitudi longitudinal nal . . . . . . . . . . . . 7.3.1 Naive Model . . . . . . . . . . . . . . . . . . 7.3.2 7.3.2 Model Model Linea Linearr Umum Umum untuk Data Longitudi Longitudinal nal 7.4 7.4 Lati Latiha han n . . . . . . . . . . . . . . . . . . . . . . . . . Analisi Analisiss Data Data Surviv Survival al 8.1 Tujuan ujuan Pembelaja Pembelajaran ran . . . . . . . . . 8.2 Fungsi Fungsi Surviv Survival al dan Hazard Hazard . . . . . . 8.3 Kapla Kaplan-M n-Meie eierr dan dan Life Table . . . . . 8.4 Membandi Membandingka ngkan n Distribus Distribusii Surviv Survival al . 8.5 Model Model Regresi Regresi Data Surviv Survival al . . . . . 8.6 8.6 Lati Latiha han n . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
34 34 35 36 37 39
. . . . . . . . .
41 41 41 43 43 44 48 48 49 55
. . . . . . . . .
. . . . . . . . .
. . . .
58 . . . 58 . . . 58 . . . 61 . . . 63
. . . .
. . . .
. . . . . .
65 . . . . . 65 . . . . . 65 . . . . . 70 . . . . . 72 . . . . . 73 . . . . . 75
. . . . . .
77 . . . . 77 . . . . 77 . . . . 81 . . . . 84 . . . . 86 . . . . 88
. . . . . .
Daftar Isi
9
Konsultasi Statistika 9.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . 9.2 Konsultan Statistik . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi 9.4 Ringkasan Metode dan Topik Lanjut . . . . . . . . . . . . . . . 9.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 91 . 91 . 91 . 92 . 94 . 94
1 Pendahuluan 1.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan pengertian biostatistika dan epidemiologi dan penekanan matakuliah ini 2. Memberi contoh profesi yang berkaitan dengan biostatistika dan epidemiologi 3. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tu juan umum pembelajaran, metode dan proses pembelajaran, penilaian dan sumber referensi
1.2
Biostatistika dan Epidemiologi
Biostatistika adalah statistika yang diterapkan pada ilmu hayati, kedokteran dan epidemiologi. Armitage and Colton (1998) mendefinisikan Biostatistika lebih sempit lagi, yaitu metode statistika dalam kedokteran dan ilmu kesehatan, atau dikenal juga sebagai medical statistics. Sedangkan ilmu statistika dalam bidang biologi, lingkungan dan pertanian sering disebut sebagai biometrika ( biometrics). Definisi Epidemiologi menurut (Last, 1995) adalah The study of distribution and determinants of health-related states or events in specified population, and the application of this study to control of health problems.
2
1.3. Profesi Biostatistisi dan Epidemiolog
3
MMS-4411 mempunyai penekanan agar lulusan bisa bertindak seperti layaknya konsultan dalam bidang Biostatistika. Untuk itu, materi yang diberikan tidak hanya berupa metode saja namun juga aspek komunikasi, konsultasi dan pengetahuan terkait seperti epidemiologi dan terminologi dalam bidang kesehatan. Matakuliah ini diharapkan akan membuka wawasan lanjut mahasiswa karena banyak pengembangan teori statistika yang berawal dari permasalahan dalam bidang Biostatistika dan Epidemiologi. Selain itu melalui matakuliah ini mahasiswa diharapkan untuk mulai berpikir dan bertindak bukan hanya sebagai statistisi saja, tapi juga sebagai orang yang mempelajari bidang lain dan dengan sudut pandang yang berbeda dari seorang statistisi. Matakuliah ini dapat diambil setelah mahasiswa mengetahui dan memahami dasar serta teknik metode statistik secara umum dan mampu melakukan analisis statistik dengan beberapa metode tertentu. Matakuliah MMS-4411 diharapkan dapat mendukung kompetensi lulusan program studi statistika, khususnya untuk lulusan yang mempunyai minat dan konsentrasi pada bidang Biostatistika.
1.3
Profesi Biostatistisi dan Epidemiolog
Profesi biostatistisi dan epidemiolog banyak diperlukan di bidang-bidang seperti tersebut di bawah ini,
• Lembaga penelitian • Akademik atau lembaga pendidikan • Lembaga pemerintah bidang kesehatan atau rumah sakit • Industri obat dan farmasi • Konsultan Di Indonesia profesi seperti tersebut belum sepopuler profesi seperti dokter, apoteker atau dosen, namun di negara maju dan di negara ASEAN seperti Singapura profesi ini sudah cukup dikenal. Lembaga penelitian asing yang melakukan penelitian di bidang penyakit tropis biasanya juga membutuhkan tenaga biostatistisi dan epidemiolog lokal. Perencanaan aspek kesehatan, termasuk di dalamnya asuransi kesehatan dan kematian, yang baik dan terukur akan sangat memerlukan ahli di bidang biostatistik dan epidemiologi.
1.4
Metode dan Proses Pembelajaran
Metode dan proses pembelajaran untuk matakuliah ini dapat dilihat pada RPKPS (Rencana Program Kegiatan Pembelajaran Semester) MMS-4411.
1.5. Latihan dan Tugas
1.5
4
Latihan dan Tugas
1.1. Sebutkan matakuliah apa saja di program studi Statistika UGM yang terkait matakuliah MMS-4411. 1.2. Carilah kuliah (course) sejenis MMS-4411 di internet atau sumber lain yang mudah diakses (misalnya handbook suatu program studi) baik yang berbahasa Indonesia maupun Inggris. Tuliskan alamat situs internet kuliah tersebut tersebut atau dapatkan hardcopy / softcopy dari handbook suatu program studi, kemudian tuliskan materi atau kompetensi yang diajarkan serta metode pembelajarannya. 1.3. Sebutkan metode apa saja yang pernah saudara pelajari sebelum mengambil matakuliah ini. Berilah satu contoh analisis data terkait penelitian di bidang epidemiologi, kesehatan atau ilmu hayati untuk masing-masing metode yang telah saudara pelajari tersebut. 1.4. Lewat jejaring sosial yang mungkin saudara punyai, carilah lulusan atau alumnus program studi Statistika (dari perguruan tinggi manapun di Indonesia) yang mempunyai profesi terkait konsultan biostatistika, epidemiologi atau pekerjaan lain yang memerlukan kompetensi seorang biostatistisi atau epidemiolog.
2 Desain Penelitian 2.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan tujuan penelitian dalam bidang epidemiologi 2. Menjelaskan tipe-tipe penelitian 3. Mengidentifikasi desain penelitian yang digunakan dalam suatu penelitian 4. Mengusulkan desain penelitian yang tepat untuk suatu permasalahan 5. Menjelaskan peran statistika dalam penelitian di bidang ilmu hayati, kedokteran dan epidemiologi 6. Menjelaskan proses pembangkitan data dikaitkan dengan desain dan model statistik 7. Menyebutkan matakuliah lain yang terkait dengan topik desain penelitian
2.2
Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi
Menurut Kleinbaum, Kupper and Morgenstern (1982), ada 4 kata kunci tujuan penelitian di bidang epidemiologi, yaitu: describe, explain, predict dan control. Selengkapnya dapat dijelaskan sebagai berikut:
5
2.2. Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi
populasi
sampel
A
6
data
B
Gambar 2.1: Skema penelitian secara umum dimulai dari pendefinisian populasi dan unit populasi, tahap A: pengambilan unit sampel dari populasi; tahap B: pengambilan informasi dari sampel. 1. Mendeskripsikan status kesehatan populasi dengan cara melakukan enumerasi kejadian sakit, menghitung frekuensi relatif dan mendapatkan kecenderungan atau trend penyakit; 2. Menjelaskan penyebab penyakit dengan cara menentukan faktor yang men jadi sebab dari suatu penyakit tertentu dan cara transmisinya; 3. Melakukan prediksi kejadian sakit dan distribusi status kesehatan dalam populasi; 4. Melakukan pengendalian penyebaran penyakit dalam populasi dengan pencegahan kejadian sakit, penyembuhan kasus sakit, menambah lama hidup bersama dengan suatu penyakit, atau meningkatkan status kesehatannya Penelitian dalam bidang kedokteran dan epidemiologi secara garis besar sama dengan penelitian lain, seperti misalnya bidang pertanian, biologi dan ilmu rekayasa (teknik). Namun karena penelitian ini banyak melibatkan manusia sebagai subyek, maka banyak teknik atau metode yang dapat diterapkan pada bidang lain yang tidak dapat diterapkan dalam bidang ini karena permasalahan etika. Misalnya, tidak mungkin akan diberikan suatu jenis perlakuan yang membahayakan atau merugikan subyek penelitian. Gambar 2.1 merepresentasikan skema penelitian secara umum. Suatu penelitian dimulai dengan mendefinisikan populasi untuk mana kesimpulan atau hasil
2.3. Penelitian observasional
7
dari penelitian akan dikenakan. Pada tahap ini unit populasi dan variabel penelitian harus ditentukan. Unit populasi adalah bagian terkecil dari populasi yang akan digunakan dalam pengambilan sampel. Sedangkan variabel adalah karakteristik atau informasi yang ingin diperoleh dari unit tersebut. Bagian A pada Gambar 2.1 adalah bagian pengambilan sampel atau penyampelan. Tujuan utama penyampelan adalah untuk mendapatkan wakil yang representatif dari populasi, tanpa harus melihat atau meneliti keseluruhan anggota populasi. Pengambilan sampel dapat dilakukan secara non-random ataupun random. Pengambilan sampel non-random biasanya lebih mudah dibandingkan dengan pengambilan sampel random. Namun, pengambilan random menjamin obyektivitas dan sampel yang representatif, dan banyak analisis statistik yang disusun berdasarkan asumsi sampel random. Dikenal beberapa macam metode pengambilan sampel random yang pada hakekatnya bertujuan untuk mengatasi heterogenitas populasi, seperti misalnya: sampel random sederhana, stratifikasi, kluster, sistematik, dan lainnya. Setelah sampel diperoleh dilanjutkan dengan tahap pengambilan informasi dari unit sampel berdasarkan variabel penelitian yang telah ditentukan (bagian B pada Gambar 2.1). Cara pengambilan informasi dapat dilakukan dengan pengukuran, pencacahan, wawancara, dan sebagainya. Jenis penelitian dapat dibedakan dari apakah ada perlakuan, manipulasi, intervensi atau tindakan yang dinenakan pada unit penelitian sebelum dilakukan tahap B atau tidak. Selain itu, elemen utama yang selalu menyertai penelitian adalah waktu. Penelitian juga dapat dibedakan berdasarkan saat pelaksanaan tahap A maupun B. Lebih jelasnya jenis jenis penelitian tersebut akan diterangkan pada bagian-bagian selanjutnya setelah bagian ini.
2.3
Penelitian observasional
Dalam penelitian jenis ini tidak dilakukan manipulasi atau perlakuan pada faktorfaktor yang diteliti. Data diperoleh apa adanya dari populasi. Dalam penelitian ini, tidak dilakukan manipulasi, perlakuan ataupun intervensi pada tahap B (Gambar 2.1).
2.4
Penelitian Cross-sectional dan Longitudinal
Dalam penelitian ini, sampel atau data hanya dikumpulkan pada satu titik waktu tertentu saja. Jenis penelitian ini dikontraskan dengan penelitian longitudinal, yaitu penelitian yang dilakukan dalam periode tertentu. Dalam prakteknya penelitian longitudinal dicirikan dengan dikumpulkannya beberapa pengukuran atau ob-
2.5. Penelitian Follow-up
8
servasi untuk satu unit sampel, sedangkan penelitian cross-sectional dicirikan dengan satu pengukuran atau observasi untuk satu unit.
2.5
Penelitian Follow-up
Sering juga disebut penelitian prospektif. Dalam penelitian ini subyek diikuti selama jangka waktu tertentu atau sampai suatu kejadian ( event ), nilai pengukuran atau end-point tertentu diperoleh. Penelitian Follow-up dapat berupa observasional maupun eksperimental.
2.6
Penelitian Case-control
Penelitian case-control merupakan salah satu contoh penelitian retrospektif. Penelitian retrospektif yaitu jenis penelitian yang berawal dari suatu event atau end-point . Unit sampel yang memiliki event atau end-point tersebut kemudian diteliti. Penelitian case-control dimulai dari unit yang mendapatkan kasus (penyakit misalnya), kemudian dipilih sekelompok pembanding atau kontrol (yaitu unit yang tidak mendapatkan atau mempunyai kasus). Faktor atau variabel penjelas yang lain juga dikumpulkan untuk masing-masing kasus dan kontrol.
2.7
Penelitian Klinis
Penelitian klinis (clinical trial) menurut (Chow, 2000, hal 110) adalah ” ... an experiment performed by a health care organization or professional to evaluate the effect of an intervention or treatment against a control in a clinical environment. It is a prospective study to identify outcome measures that are influenced by the intervention. A clinical trial is designed to maintain health, prevent diseases, or treat diseased subjects. The safety, efficacy, pharmacological, pharmacokinetic, quality-of-life, health economics, or biochemical effects are measured in a clinical trial.” Dalam penelitian ini dilakukan manipulasi, pemberian perlakuan ( treatment ) atau intervensi pada tahap B (Gambar 2.1) Tahapan penelitian klinis (Le, 2003):
• Fase I: Memfokuskan pada keamanan obat baru, fase ini adalah uji coba pertama obat pada manusia setelah sukses dengan uji coba pada binatang
9
2.8. Model Statisti Statistik k dan Kausalitas Kausalitas
• Fase II: Uji coba skala kecil untuk menilai efektivitas obat dan lebih fokus kepada keamanannya
• Fase Fase III: Uji coba klinis lebih lanjut lanjut untuk untuk menilai menilai efektivi efektivitasn tasnya ya sebelum didaftarkan pada pihak yang berwenang
• Fase IV: Penelitian setelah obat dipasarkan untuk memberikan informasi yang lebih detail tentang efektivitas obat dan keamanannya
2.8
Model Model Statis Statistik tik dan Kausal Kausalita itass
Dalam terminologi dan notasi statistika, variabel sering dituliskan dengan huruf X untuk untuk variabel penjelas, variabel independen, faktor; dan Y untuk variabel dependen penden atau variabe variabell respon. respon. Dalam Dalam Epidemio Epidemiologi logi dikenal dikenal juga istilah variabel variabel X , paparan (exposure) dan perancu ( confounder ) yang termasuk dalam kelompok X dan outcome yang termasuk dalam kelompok Y . Umumnya setiap penelitian bertujuan untuk mencari tahu apakah X menyebabkan Y , atau seberapa besar pengaruh X terhadap Y . Model Model statistik, statistik, seperti misalnya model regresi sederhana
E(Y E(Y | X ) = β 0 + β 1 X
(2.1)
merupakan representasi untuk mencapai tujuan itu. Statistisi memikirkan model seperti (2.1 ( 2.1)) sebagai suatu ”pembangkit data” (data generating-process). Realisas Realisasii dari model model itu adalah adalah data yang diperoleh diperoleh (sering dituliskan sebagai huruf kecil x dan y ). Apabila Apabila model dan estimasi estimasi parameternya dinyatakan dinyatakan cukup tepat untuk menjelaskan data, dapat dilakukan inferensi atau pengambilan kesimpulan dari model tersebut. Termasuk dalam inferensi itu adalah penggunaan model untuk prediksi dan kausalitas. Perlu diperhatikan bahwa sangat mungkin terdapat lebih dari satu model yang cukup cukup tepat tepat untuk untuk menjelas menjelaskan kan suatu set data. data. Untuk itu harus diingat pendappendapat yang mengatakan bahwa ada banyak model yang baik tapi pilihlah satu yang berguna berguna.. Dikaitkan Dikaitkan dengan penelitian penelitian di bidang bidang Epidemio Epidemiologi logi dan kedokte kedokteran, ran, model model yang yang bergu berguna na di sini sini adala adalah h model model yang yang terdir terdirii dari dari varia variabel bel yang yang nilainya dapat atau mudah dimodifikasi dalam praktek dan model yang sesederhana mungkin. Desain Desain penelitian penelitian,, atau cara memperoleh memperoleh data penelitian, penelitian, sangat sangat mempenmempengaruhi asumsi model statistik yang pada akhirnya mempengaruhi penjelasan dan interpretasi dari hubungan X dengan Y . Ambil contoh contoh model sederhana sederhana seperti (2.1). 2.1). Misalkan untuk mendapatkan mendapatkan x (realisasi dari variabel X ) digunakan cara
2.9. Latihan Latihan dan Tugas Tugas
10
observasi tanpa perlakuan pada unit sampel (penelitian observasional) maka model ini kurang kuat untuk menjelaskan kausalitas X terhadap Y . Namun Namun bila bila x diperoleh dengan kaidah desain eksperimental maka model dapat digunakan untuk menjelaskan menjelaskan hubungan hubungan kausal Dalam penelitian penelitian epidemio epidemiologi logi dikenal dikenal prinsip-p prinsip-prinsip rinsip untuk untuk mendapa mendapatkan tkan Hill’ss Criteri Criteria a for Causali Causality ty bukti bukti adan adanya ya kausal kausalita itass yang yang diken dikenal al sebag sebagai ai Hill’ (Armitage and Colton, 1998; Kleinbaum et al., 1982) sebagai berikut: 1. Hubunga Hubungan n (association) yang kuat antara X (variabel independen,faktor independen,faktor resiko atau paparan) dengan Y (variabel dependen, respon atau outcome). 2. Hubunga Hubungan n yang diperoleh diperoleh harus spesifik dalam arti suatu suatu faktor faktor atau paparan hanya berhubungan dengan satu jenis penyakit saja. 3. Papar Paparan an atau faktor faktor ( X ) harus mendahului respon ( Y ), atau sebab harus mendahului akibat. 4. Harus Harus ada penjelasan penjelasan secara biologis biologis mengapa mengapa suatu paparan paparan atau faktor faktor resiko menyebabkan suatu penyakit. 5. Harus dapat dapat ditunjukkan ditunjukkan adanya adanya dose-response effect atau atau biologic gradient yaitu semakin besar tingkat paparan semakin besar kemungkinan terjadinya penyakit 6. Terkait kriteria 5 kriteria 5,, jika paparan dihilangkan, penyakit juga seharusnya tidak muncul 7. Adanya konsistensi konsistensi hasil atau kesimpulan kesimpulan yang diperoleh dari beberapa beberapa studi.
2.9 2.9
Lati Latiha han n dan dan Tugas ugas
Untuk soal pilihan ganda, pilihlah satu jawaban yang tepat (a, b, c atau d); untuk soal esai tuliskan jawabannya dengan singkat dan jelas! 2.1. Keuntungan Keuntungan desain penelitian case-control terhadap desain penelitian cohort salah satunya adalah: a. denga dengan n desain desain case-control dapat dihitung OR b. case-control dapat dapat mengatas mengatasii masalah masalah etik penelitian penelitian terhadap terhadap manusia yang mungkin terjadi pada desain cohort case-control relatif lebih kecil dibandingkan c. ukuran ukuran sampel sampel untuk untuk case-control cohort d. dapat dapat diguna digunaka kan n untuk untuk menunj menunjuk ukkan kan hubung hubungan an sebabsebab-aki akiba batt (cause-effect )
11
2.9. Latihan Latihan dan Tugas Tugas
2.2. Keuntun Keuntungan gan desain desain penelitian penelitian longitudi longitudinal nal terhadap terhadap cross-se cross-section ctional al salah salah satunya adalah: a. lebih mudah mudah dilaksana dilaksanakan kan b. ada variabel kontrol yang dapat digunakan sebagai perbandingan perbandingan c. ukuran ukuran sampel sampel relatif relatif lebih kecil kecil d. dapat dapat diguna digunaka kan n untuk untuk menunj menunjuk ukkan kan hubung hubungan an sebabsebab-aki akiba batt (cause-effect ) 2.3. Suatu Suatu penelitian penelitian yang bertujuan bertujuan untuk membandi membandingka ngkan n dua perlakuan perlakuan A dan B dilakukan dengan cara sebagai berikut: subyek secara random diberi perlakuan A atau B; setelah periode waktu tertentu subyek berganti mendapat perlakuan yang lain, untuk subyek yang pada awalnya mendapat perlakuan A kemudian mendapat mendapat B, dan sebaliknya. sebaliknya. Desain yang digunakan digunakan disebut: a. cross-over trial b. cross-sectional c. cohort d. randomized block 2.4. Desain penelitian yang yang sesuai dan layak layak (dapat dilaksanakan) dilaksanakan) untuk mengetahui tahui faktor faktor resiko resiko suatu suatu penyaki penyakitt dengan dengan insidensi insidensi yang sangat sangat rendah rendah (seperti misalnya kanker) adalah: a. cross-sectional b. cohort c. case-control d. clinical-trial 2.5. Dalam Dalam penelitian penelitian tentang program atau kebijaka kebijakan n yang berkaitan berkaitan dengan dengan kesehatan kesehatan masyarakat, masyarakat, randomisasi pada pada unit penelitian biasanya biasanya sulit sulit untuk dilakukan, meskipun demikian pengaruh faktor (pemberian program atau penerapa penerapan n kebijaka kebijakan) n) tetap dapat diteliti efeknya efeknya.. Desain Desain penelitian penelitian yang tepat untuk permasalahan ini adalah: a. cross-sectional b. cohort c. observational d. quasi-experimental 2.6. Misalkan Misalkan dari teori dan penelitia penelitian n sebelumn sebelumnya ya dapat dapat diasumsik diasumsikan an bahwa bahwa perlakuan A, B dan C akan menghasilkan respon individual seperti pada gambar di bawah ini. A Y
B
n o p s e r
C
waktu T
2.9. Latihan dan Tugas
12
Untuk meneliti fenomena tersebut di atas desain yang paling tepat adalah: a. longitudinal b. cross-sectional c. multiple cross-sectional d. survival 2.7. Pada tahun 1985 dilakukan penelitian di Inggris untuk mengetahui apakah wanita yang minum pil kontrasepsi akan mengalami menopause (tidak mengalami siklus menstruasi lagi) lebih awal atau lebih akhir dibandingkan wanita yang tidak minum pil kontrasepsi. Untuk itu diambil satu kelompok wanita yang lahir pada tahun 1930, dengan alasan pada tahun 1985 mereka sudah cukup tua untuk mendapatkan menopause. Berdasarkan catatan di sebuah klinik umum diperoleh 132 wanita. Sebanyak 101 wanita tidak diambil sebagai subyek karena alasan tidak dapat dihubungi, menolak sebagai subyek, belum menopause dan alasan kesehatan. Diperoleh data sebagai berikut: Umur saat menopause (tahun) n Mean SD minum pil 12 47,2 2,1 tdk. minum 19 47,5 2,1 (a) Apa desain studi ini? Jelaskan! (b) Apakah ada kesalahan fatal dalam studi ini? Jelaskan! 2.8. Sebuah penelitian dilakukan untuk mengetahui keefektivan helm dalam mencegah kerusakan di kepala akibat kecelakaan kendaraan bermotor. Diperoleh data 793 kecelakaan dalam periode 3 bulan sebagai berikut: Menggunakan helm kerusakan di kepala Ya Tidak Total Ya 17 218 235 Tidak 130 428 558 Total 147 646 793 Apa desain studi ini? Jelaskan! 2.9. Jelaskan perbedaan utama antara penelitian prospektif dengan retrospektif dan keuntungan kerugian masing-masing! 2.10. Jelaskan perbedaan utama antara penelitian observasional dengan dengan eksperimental dan keuntungan kerugian masing-masing! 2.11. Sebuah lembaga riset kesehatan akan melakukan penelitian tentang program atau aktivitas yang dapat menghentikan kebiasaan merokok. (a) Ajukan satu pertanyaan ilmiah (research question) yang relevan menurut saudara.
13
2.9. Latihan dan Tugas
6
5
T F M D
4
3
2
1
10
20
30
40
50
60
konsumsi gula (kg/orang/tahun)
Gambar 2.2: Plot antara banyaknya gigi yang rusak dengan konsumsi gula (b) Apa variabel independen atau paparan (exposure) utama penelitian tersebut? (c) Desain penelitian apa yang sesuai dengan tujuan penelitian di atas? Jelaskan! (d) Bagaimana seharusnya saudara memilih subyek dan mengukur (mengambil informasi) dari mereka sehingga tidak terjadi bias? 2.12. Gambar 2.2 menunjukkan hasil penelitian epidemiologi hubungan antara banyaknya gigi yang rusak dengan konsumsi gula pada 20 negara. Gigi yang rusak dinyatakan dengan skor DMFT ( decayed, missing and filled teeth) yang diperoleh dari mean dari survei di masing-masing negara dengan responden anak usia 12 tahun. konsumsi gula diperoleh dari laporan tahunan pemerintah dibagi estimasi total populasi berdasarkan sensus. (a) Apakah dapat ditunjukkan dari gambar bahwa konsumsi gula mengakibatkan tingginya DMFT? Jelaskan! (b) Apa kelemahan studi seperti di atas dan berikan alternatif desain yang lebih tepat 2.13. Dalam suatu studi tentang faktor resiko untuk angina (terkait penyakit jantung) subyek diminta menjawab pertanyaan,’Apakah anda merokok’. Jawa-
2.9. Latihan dan Tugas
14
ban diklasifikasikan untuk setiap responden sebagai prokok dan bukan perokok. Kemudian subyek diklasifikasikan apakah pernah mengalami angina atau tidak. Setelah data dianalisis, tidak diperoleh hubungan antara merokok dengan pernah tidaknya mengalami angina. (a) Dari banyak studi yang telah dilakukan sebelumnya dapat ditunjukkan adanya bukti bahwa resiko mendapatkan angina meningkat seiring dengan naiknya konsumsi rokok seseorang. Jelaskan apa saja yang mungkin menyebabkan studi di atas gagal menunjukkan hubungan antara angina dengan merokok? (b) Apa alternatif desain studi yang lebih tepat? Jelaskan! 2.14. Untuk meneliti suatu permasalahan epidemiologi sering dilakukan lebih dari satu studi yang mana variabel utamanya sama namun populasi dan setting studinya mungkin berbeda. Apakah ada keuntungan yang diperoleh dari banyak studi tersebut untuk menjawab satu permasalahan yang sama dalam epidemiologi? Jelaskan!
3 Statistik dan Ukuran dalam Epidemiologi 3.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menggunakan ukuran statistik yang tepat untuk suatu permasalahan dalam epidemiologi 2. Menginterpretasikan hasil hitungan ukuran statistik 3. Menjelaskan model yang mendasari prevalensi dan insidensi 4. Menggunakan likelihood ratio test sebagai alternatif inferensi untuk model prevalensi dan insidensi 5. Menggunakan ukuran faktor yang tepat untuk suatu permasalahan dengan datanya 6. Menginterpretasikan hasil hitungan ukuran faktor
3.2
Prevalensi dan insidensi
Definisi sehat menurut WHO adalah: health is a state of complete physical, mental, and social well-being and not merely the absence of disease or infirmity. Definisi ini cukup sulit direalisasikan terutama pada definisi dan ukuran
15
16
3.2. Prevalensi dan insidensi
well-being. Definisi yang lebih praktis yang banyak digunakan oleh epidemiolog adalah ”ada” atau ”tidak ada” penyakit 1 . Statistik atau ukuran paling dasar yang sering digunakan untuk melihat besarnya permasalahan dalam epidemiologi adalah banyaknya kejadian atau frekuensi kejadian (sakit, meninggal, dsb.). Namun ukuran ini sangat bergantung pada besar populasi dan lama periode pengamatan. Ukuran yang tidak bergantung pada besar populasi dan lama periode pengamatan yang banyak digunakan adalah prevalensi ( prevalence) dan insidensi ( incidence) Prevalensi adalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu pada suatu waktu tertentu. Prevalensi dirumuskan sebagai:
P =
d , N
(3.1)
dengan P adalah prevalensi; d adalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu pada suatu waktu tertentu; N adalah banyaknya subyek pada suatu waktu tersebut. Insidensi adalah banyaknya subyek yang mengalami kejadian baru atau mendapatkan penyakit baru dalam suatu interval waktu tertentu. Jenis ukuran insidensi yang sering dipakai adalah insidensi kumulatif IK dan tingkat insidensi (incidence rate)I . IK dirumuskan sebagai:
IK =
d , N 0
(3.2)
dengan IK adalah insidensi kumulatif; d adalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu; N 0 adalah banyaknya subyek yang belum mengalami kejadian tertentu atau menderita penyakit tertentu pada awal interval waktu tersebut. Jenis insidensi yang lain berdasarkan pada pengertian tingkat ( rate), yaitu banyaknya perubahan kuantitatif yang terjadi yang terkait dengan waktu. Insidensi ( Incidence rate) dirumuskan sebagai:
I =
d , N T
(3.3)
dengan I adalah insidensi; d adalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu; N T 1
Meskipun demikian penelitian dalam bidang Biostatistika dan Epidemiologi saat ini mengarah pada pengukuran hal-hal yang lebih soft daripada hanya sakit dan tidak sakit seperti well-being dan quality of life, dan seterusnya.
17
3.2. Prevalensi dan insidensi
naik karena
turun karena
durasi penyakit yg panjang pasien hidup lama insidensi meningkat in-migrasi kasus out-migrasi penduduk sehat in-migrasi orang yg rentan meningkatnya diagnosis
durasi penyakit yg pendek pasien hidup singkat insidensi menurun in-migrasi penduduk sehat out-migrasi kasus out-migrasi orang yg rentan meningkatnya kesembuhan
Gambar 3.1: Faktor-faktor yang mempengaruhi estimasi prevalensi (Beaglehole et al., 2000). adalah total waktu subyek yang belum mengalami kejadian tertentu atau menderita penyakit tertentu dalam interval waktu tersebut (sering juga disebut sebagai person-time atau risk-time) Istilah lain yang sering digunakan untuk insidensi adalah person-time incidence rate, instantaneous incidence rate, force of morbidity, incidence-density, hazard ). Prevalensi sangat dipengaruhi oleh banyak faktor yang tidak berhubungan langsung dengan penyebab penyakit, misalnya in-migrasi dan out-migrasi dan perbaikan cara diagnosis (lihat Gambar 3.1). Oleh karena itu prevalensi tidak dianjurkan untuk menunjukkan kausalitas. Tapi prevalensi sangat membantu untuk menunjukkan besarnya masalah kesehatan. Prevalensi dan insidensi saling berkaitan, secara umum hubungannya dapat ditunjukkan seperti persamaan (3.4), asalkan prevalensi kecil dan tidak berubah menurut waktu.
prevalensi ≈ insidensi × durasi
3.2.1
(3.4)
Model untuk Prevalensi
Dasar analisis untuk prevalensi adalah Model Bernoulli (Lihat Gambar 3.2) yang mempunyai asumsi sebagai berikut :
18
3.2. Prevalensi dan insidensi
π
1−π
S
G
Gambar 3.2: Model Bernoulli.
• tiap usaha ( trial) menghasilkan satu dari dua hasil yang mungkin, dinamakan sukses ( S ) dan gagal ( G); • peluang sukses, P (S ) = π dan peluang gagal P (G) = 1 − π • usaha-usaha tersebut independen Fungsi probabilitas Bernoulli adalah
P (X = x; π) = π x (1 − π)1−x ,
(3.5)
dengan π adalah probabilitas sukses dan x = 0, 1 (gagal, sukses). Dalam konteks Epidemiologi, definisi sukses misalnya terkena penyakit tertentu atau meninggal. Untuk melakukan inferensi berdasarkan model ini dapat digunakan fungsi likelihood berdasarkan data yang diperoleh. Contoh 3.1 Dari n = 10 orang diketahui outcome sukses (S) dan gagal (G) SSGSGGGSGG (misalnya sukses adalah terkena penyakit tertentu dan gagal adalah tidak terkena penyakit tertentu). Seberapa mungkin data ini berasal dari model binomial dengan (i) π = 0,1; (ii) π = 0,5? Jawab: (i) π = 0,1:
L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π) = 0,14 × 0,96 = 5,31 × 10−5 (ii) π = 0,5
L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π) = 0,54 × 0,56 = 9,77 × 10−4
19
3.2. Prevalensi dan insidensi
2 1 0 0 . 0
d o o h i l e k i L
8 0 0 0 . 0 4 0 0 0 . 0
L(0.5)
0 0 0 0 . 0
L(0.1) 0.0
0.2
0.4
0.6
0.8
1.0
π
Gambar 3.3: Fungsi likelihood untuk data biner SSGSGGGSGG dengan π = 0,1 dan π = 0,5. Terlihat bahwa likelihood untuk π = 0,5 lebih besar daripada π = 0,1 sehingga dapat disimpulkan bahwa data lebih mungkin berasal dari model Bernoulli dengan π = 0,5 daripada π = 0,1 (Lihat Gambar 3.3). Nilai maksimum likelihood untuk data ini diperoleh pada π = 0,4 (Gambar 3.4). Nilai inilah yang sebenarnya paling didukung oleh data. Cara seperti ini dikenal dalam Statistika sebagai cara untuk mencari estimator dengan Metode Maximum Likelihood .
Inferensi untuk prevalensi dapat dilakukan berdasarkan tiga prinsip yaitu interval konfidensi (confidence interval), menurut teori frequentist ; supported range untuk parameter berdasarkan likelihood ratio menurut teori likelihood; dan credible interval menurut teori Bayesian (Clayton and Hills, 1993). Metode yang paling sering digunakan dan diterima di komunitas peneliti di bidang epidemiologi adalah interval konfidensi menggunakan pendekatan Teorema Limit Sentral. Dalam perkembangannya kedua metode yang lain mulai berkembang dan mendapatkan perhatian.
20
3.2. Prevalensi dan insidensi
2 1 0 0 . 0
d o o h i l e k i L
0.00119
8 0 0 0 . 0 4 0 0 0 . 0 0 0 0 0 . 0
0.0
0.2
0.4
0.6
0.8
1.0
π
Gambar 3.4: Maksimum Likelihood untuk data biner SSGSGGGSGG adalah pada π = 0,4.
3.2.2
Model untuk Insidensi
Model untuk insidensi kumulatif pada prinsipnya sama seperti prevalensi, yaitu berdasarkan pada model Bernoulli. Di sini akan dibahas model untuk insidensi, khususnya incidence rate (3.3). Pada bagian sebelumnya, prevalensi dapat dipandang sebagai eksperimen Bernoulli, dengan sukses adalah kejadian yang menjadi perhatian, seperti sakit dan lainnya. Model ini dapat dikembangkan untuk insidensi. Dalam insidensi, khususnya incidence rate (3.3), seorang individu diamati dalam suatu periode waktu tertentu. yang dapat dibagi dalam beberapa interval. Misalnya, seseorang yang diamati selama 3 tahun dapat dibagi menjadi 3 satu tahun interval waktu pengamatan. Pada Gambar 3.5 seseorang diamati sampai M (meninggal) yang juga merupakan titik akhir ( end-point ) pengamatan, selama 3 tahun. Apabila dalam 3 tahun tersebut probabilitas meninggal sama, misalnya π , maka model yang dapat digunakan adalah Bernoulli seperti yang telah dibahas di muka. Namun apabila dalam setiap interval waktu probabilitas meninggal berbeda, misalnya π1 , π 2 , π 3 seperti terlihat pada Gambar, maka probabilitas M untuk tiap akhir interval akan berbeda dan merupakan probabilitas bersyarat. Sebagai contoh pada Gambar 3.6 diketahui nilai π1 , π2 , π3 . Probabilitas
21
3.2. Prevalensi dan insidensi
M π 1
M π 2
1 −
M
π
1
H
π 3
1 − π
2
H
1 − π
3
1
3
H
5
Gambar 3.5: Insidensi sebagai satu urutan beberapa model probabilitas biner, dengan sukses M (mati) dan gagal H (hidup). meninggal pada akhir tahun pertama adalah 0,3. Probabilitas meninggal pada akhir tahun kedua merupakan probabilitas bersyarat, karena untuk meninggal pada akhir tahun kedua individu ini harus hidup pada akhir tahun pertama, sehingga probabilitasnya adalah 0,7 × 0,2 = 0,14. Demikian pula untuk probabilitas meninggal pada akhir tahun ketiga, 0,7 × 0,8 × 0,1= 0,056. Selanjutnya, untuk interval yang semakin sempit, probabilitas kondisional (untuk M) menjadi semakin kecil pula, dan konvergen ke hazard rate ( force of mortality)
P (t ≤ T < t + h | T ≥ t) h→0 h
λ = lim
(3.6)
Likelihood untuk λ dapat diturunkan dari likelihood binomial dengan menganggap bahwa probabilitas sukses adalah λh dengan h kecil,
L(λ) = λ D exp(−λY )
(3.7)
dengan D adalah banyaknya kejadian, Y adalah total waktu observasi. Log-likelihood untuk λ
ℓ(λ) = D log(λ) − λY
(3.8)
Persamaan (3.7) dan (3.8) adalah fungsi likelihood dan log-likelihood untuk distribusi Poisson. Dapat dengan mudah ditunjukkan bahwa penduga untuk λ adalah
ˆ D λ = Y
(3.9)
22
3.2. Prevalensi dan insidensi
, 0 3
M
, 0 2
M
0 ,7
0, 1
H
M
0 ,8
H 0 ,9
H 3
1
5
Gambar 3.6: Contoh satu urutan beberapa model probabilitas biner dan penghitungan probabilitas bersyarat). Contoh 3.2 Misalkan ada 7 observasi dengan total waktu observasi 500 orang-tahun ( person-years). Log-likelihood untuk λ
ℓ(λ) = 7 log(λ) − 500λ Nilai maksimum untuk fungsi Log-likelihood ini diperoleh pada λ = 0,014 (Gambar 3.7)
d o o h i l e k i l g o l
5 . 7 3 −
5 . 8 3 −
5 . 9 3 −
0.005
0.010
0.015
0.020
0.025
0.030
λ
Gambar 3.7: Log-likelihood untuk λ dan nilai maksimumnya
23
3.3. Faktor Resiko
Contoh 3.3 Sebuah studi tentang akibat buruk merokok bagi kesehatan dilakukan di Inggris pada tahun 1951. Diperoleh data berupa kematian akibat penyakit jantung koroner dikategorikan menurut umur dan status merokok (Tabel 3.1).
Tabel 3.1: Kematian akibat jantung koroner menurut umur dan status merokok Kel. Umur 35 – 44 45 – 54 55 – 64 65 – 74 75 – 84
perokok kematian person-years 32 52407 104 43248 206 28612 186 12663 102 5317
bukan perokok kematian person-years 2 18790 12 10673 28 5710 28 2585 31 1462
Insidensi untuk kematian akibat penyakit jantung koroner dapat dihitung menggunakan rumus (3.9). Insidensi keseluruhan tanpa melihat status merokok dan usia adalah
ˆ = λ =
32 + 104 + 206 + . . . + 31 52407 + 43248 + 28612 + . . . + 1462 731 = 0,004 181467
karena bilangan insidensi biasanya kecil, nilai estimasinya dikalikan bilangan yang agak besar misalnya 1000. Jadi insidensi kematian di atas adalah 4 kematian per 1000 orang. Dengan cara yang sama insidensi untuk tiap tingkat faktor resiko dapat dihitung. Misalnya insidensi dalam kelompok perokok adalah
ˆ1 = λ =
32 + 104 + 206 + 186 + 102 52407 + 43248 + 28612 + 12663 + 5317 630 per 1000 orang, = 4,43 142247
ˆ 0 =101/39220= 2,58 per 1000 orang. Kematian dan untuk kelompok bukan perokok λ dalam kelompok perokok terlihat lebih tinggi.
3.3
Faktor Resiko
Bagian di muka membahas statistik dan ukuran tanpa memandang adanya faktor atau variabel yang mempengaruhi statistik atau ukuran tersebut. Dengan kata lain dalam notasi statistika di muka, sementara hanya dilihat variabel Y saja tanpa melihat adanya X (variabel independen, penjelas, paparan). Dalam bagian ini akan dibahas statistik dan ukuran yang melibatkan pengaruh faktor. Ukuran
24
3.3. Faktor Resiko
ini, seperti yang akan dijelaskan lebih lanjut, sangat bergantung pada pada desain penelitian yang digunakan. Beberapa ukuran yang dapat digunakan untuk melihat faktor resiko diantaranya:
• Selisih resiko (risk difference) • Rasio resiko ( risk ratio) • Odds ratio Misalkan π1 adalah probabilitas atau resiko untuk subyek yang terpapar dan π2 untuk subyek yang tidak terpapar. Sebagai contoh, π 1 adalah probabilitas subyek terkena kanker paru jika diketahui subyek merokok, dan π1 adalah probabilitas subyek terkena kanker paru jika diketahui subyek tidak merokok. Selisih resiko, rasio resiko dan odds ratio akan dijelaskan berdasarkan π1 dan π2 di atas. Selisih resiko didefinisikan sebagai
RD = π 1 − π2 .
(3.10)
yaitu selisih antara dua probabilitas π1 dan π2 . Karena π1 = RD + π 2 , selisih resiko mengukur perubahan pada skala aditif. Jika RD > 0, paparan berkaitan dengan kenaikan probabilitas terkena penyakit. Sebaliknya jika RD 1, paparan berkaitan dengan kenaikan probabilitas terkena penyakit. Jika RR 0. Bila
25
3.4. Inferensi Inferensi untuk untuk RD, RR dan dan OR
Tabel 3.2: Data dan Model Probabilitas untuk Desain Cohort (a) Data pada tabel 2 × 2
(b) Model probabilitas
D E 1 2
D
1
2
n11 n21
n12 n22
E N 1 N 2
1 2
1
2
π1 π2
1 − π1 1 − π2
1 1
didefinisikan ω 1 = π1 /(1 − π1 ) dan ω 2 = π2 /(1 − π2 ), Odds ratio adalah rasio antara dua odds ω 1 dan ω2
OR = OR =
ω1 π1 (1 − π2 ) = . ω2 π2 (1 − π1 )
(3.13)
Odds ratio mirip dengan rasio resiko RR dalam hal perubahannya yang diukur secara multiplikatif. Interpretasi nilai OR juga ekivalen dengan RR .
3.4 3.4
Infe Inferren ensi si un untu tuk k RD, RD, RR dan dan OR OR
Untuk desain cohort, semua ukuran faktor resiko RD, RR dan OR dapat diestimasi dari data dan dapat diinterpretasikan. Data dan model probabilitasnya dapat digambarkan seperti pada Table 3.2 able 3.2.. Pada tabel tersebut E adalah variabel paparan ( exposure) atau faktor resiko yang diteliti dan D adalah outcome. Nilai Nilai E = 1 menunjukkan adanya paparan (exposed ) dan E = 2 menunjukkan tidak adanya paparan ( non-exposed ). ) . Misalkan variabel paparan yang akan diteliti adalah status merokok, E = 1 adalah merokok dan E = 2 tidak meroko merokok. k. Nilai D = 1 menunjukkan adanya disease atau outcome yang menjadi perhatian, dan D = 2 menunjukkan tidak adanya disease. Misaln Misalnya ya D = 1 adalah terdiagnosis kanker paru, dan D = 2 tidak terdiagnosis kanker paru. Untuk desain cohort π1 adalah probabilitas mendapatkan mendapatkan disease untuk kelompok yang diketahui sebelumnya sudah mendapatkan paparan, atau dengan notasi P (E = 1 | D = 1). Sedangk probabilitas π 1 = P ( Sedangkan an π 2 adalah probabilitas mendapatkan disease untuk kelompok yang diketahui sebelumnya tidak mendapatkan P (E = 1 | D = 2). Total baris untuk paparan, atau π2 = P ( untuk model probabilitas probabilitas adalah satu karena kelompok paparan diambil dari dua populasi yang berbeda, exposed E non-exposed E E = 1, dan kelompok non-exposed E = 2. yaitu kelompok exposed π1 dan π2 adalah Estimasi titik untuk π
ˆ1 = n 11 /N 1 π π ˆ2 = n 21 /N 2
(3.14)
(3.15)
26
3.4. Inferensi Inferensi untuk untuk RD, RR dan dan OR
RD , RR dan OR O R dapat diperoleh dengan mengganti π 1 dan Estimasi titik untuk RD π2 pada persamaan (3.10 π1 dan ˆπ2. ( 3.10), ), (3.11 ( 3.11)) dan (3.13 ( 3.13)) dengan ˆ Selisih resiko RD pada dasarnya adalah selisih dua sampel independen yang berdistribusi Binomial. Proporsi sampel πˆi mempunyai harga harapan π i dan va i = 1, 2. Sehingga estimasi titik untuk RD RD adalah riansi πi (1 − πi )/N i , dengan i =
RD = RD = πˆ1 − πˆ2
(3.16)
yang mempunyai galat standar ( standard error )
π1(1 − π1 ) π2 (1 − π2 ) + σ RD RD = N 1 N 2
1/2
(3.17)
RD dapat dihitung dengan menggunakan Interval konfidensi konfidensi (1 − α)100% untuk RD pendekatan Normal sebagai berikut:
RD RD ± Z α/2 ˆ RD RD , α/2 σ
(3.18)
σ RD RD adalah σ RD RD namun dengan πi diganti ˆπi . dengan ˆ RR dapat diturunkan dari (3.11 Estimasi titik untuk RR ( 3.11), ), (3.14 ( 3.14)) dan (3.15 ( 3.15)) yaitu RR = RR =
πˆ1 πˆ2
RR sangat menceng ( skewed ), Distribusi untuk RR ), sehingg sehinggaa pendekat pendekatan an NorNorRR. Galat standar untuk mal lebih baik jika menggunakan transformasi log dari RR log RR RR adalah σ log RR RR =
1 − π1 1 − π2 + π1 N 1 π2 N 2
1/2
(3.19)
log RR Diperoleh interval konfidensi konfidensi (1 − α)100% untuk log log RR RR ± Z α/2 RR α/2 σ log RR
(3.20)
Karena Karena interv interval al ini pada pada skala skala transf transform ormas asii log, untuk untuk interp interpret retasi asiny nyaa harus harus dikembalikan pada skala asal dari RR dengan mengambil eksponensial, baik untuk batas interval bawah maupun atas. Seperti Seperti halnya halnya RR, estima estimasi si titik titik untuk untuk OR dapat diturunkan dari (3.13 ( 3.13), ), (3.14) 3.14) dan (3.15 ( 3.15)) yaitu
ˆ2 ) πˆ1 (1 − π πˆ2 (1 − π ˆ1 ) n11 n22 = , n12 n21
OR = OR
(3.21)
27
3.4. Inferensi Inferensi untuk untuk RD, RR dan dan OR
Untuk menghindari masalah bila ada nij = 0 dapat digunakan allternatif untuk (3.21), 3.21),
(n11 + 0,5)(n )(n22 + 0,5) (n12 + 0,5)(n )(n21 + 0,5)
OR = OR =
(3.22)
OR ini juga sangat menceng seperti RR RR, sehingga diperlukan Distribusi untuk OR transformasi log untuk membentuk interval konfidensi OR . log OR OR adalah Estimasi galat standar untuk log σ ˆ log OR OR =
1 1 1 1 + + + n11 n12 n21 n22
1/2
,
(3.23)
log OR Sehingga interval konfidensi konfidensi (1 − α)100% untuk log OR adalah log OR OR ± Z α/2 ˆ log OR OR α/2 σ
(3.24)
Interpretasinya harus dikembalikan pada skala asal dari OR dengan mengambil eksponensial baik untuk batas bawah maupun batas atas dari interval konfidensi OR . Contoh 3.4 Diperoleh data tentang hubungan antara penyakit jantung koroner dengan tekanan peker jaan seperti pada Tabel 3.3. abel 3.3. Tabel 3.3: Data studi tentang tentang hubungan hubungan penyakit jantung jantung koroner dengan tekanan pekerjaan Tertekan ertekan krn. Pekerjaan Ya Tidak
Penyakit Penyakit jantung jantung koroner koroner Ya Tidak 97 307 200 1409
Total 404 1609
Estimasi titik resiko terkena penyakit jantung koroner untuk masing-masing kelompok orang yang tertekan karena pekerjaan dan yang tidak tertekan adalah
π ˆ1 = 97 97/ /404 = 0, 0,240
dan
π ˆ2 = 200/ 200/1609 = 0, 0,124
Estimasi titik untuk RR dari log RR RR dan standard error dari RR dapat dihitung menggunakan ˆ π1 π2, yaitu: dan ˆ
RR RR = π ˆ 1 /π ˆ2 = 0,240 240//0,124 = 1,932
σ log RR RR
=
1 − π1 1 − π2 + π1 N 1 π2 N 2
1/2
1 − 0,240 1 − 0,124 = + 0,240(404) 0,124(1609) = 0,1105
1/2
28
3.4. Inferensi untuk RD, RR dan OR
Batas bawah interval konfidensi 95% adalah exp log(RR) − 1,96 × σ log RR
=
1,555; dan batas atas interval exp log(RR) + 1,96 × σ log RR = 2,399. Diperoleh estimasi RR dan interval konfidensinya adalah : 1,932 (1,555 — 2,399 ). Estimasi titik untuk OR dan σ log OR :
π ˆ1 /(1 − π ˆ1 ) π ˆ2 /(1 − π ˆ2 ) = 0,316/0,142
OR =
σ ˆ log OR
=
1/2
1 1 1 1 + + + n11 n12 n21 n22
1 1 1 1 = + + + = 2,225 97 307 200 1409 = 0,1388 Batas bawah interval konfidensi 95% adalah exp log(OR) − 1,96 × σ log OR
1/2
=
1,696; dan batas atas interval exp log(OR) + 1,96 × σ log OR = 2,922. Diperoleh estimasi OR dan interval konfidensinya adalah : 2,225 (1,696 — 2,922 ). Estimasi titik untuk RD adalah
ˆ1 − π ˆ2 RD = π = 0,240 − 0,124 = 0,116
σ RD
π1 (1 − π1 ) π 2 (1 − π2 ) = + N 1 N 2 = 0,0228
1/2
Batas bawah interval konfidensi 95% (ˆ π1 − π ˆ2 ) − 1,96 × σ RD = 0,071; dan batas atas
intervalnya (ˆ π1 − ˆπ2 ) + 1,96 × σ RD
= 0,161. Diperoleh estimasi RD dan interval
konfidensinya adalah : 0,116 (0,071 — 0,161 ).
Pada desain case-control, Data dan model probabilitasnya dapat digambarkan seperti pada Tabel 3.4. Dalam tabel ini M 1 dan M 2 adalah banyaknya sampel yang diperoleh dari kelompok sampel yang mendapatkan disease ( D = 1) dan dari kelompok yang tidak mendapatkan disease ( D = 2). Dari masing-masing kelompok diambil informasi secara retrospektif apakah sampel telah terpapar ( E = 1 atau tidak E = 2. Model probabilitasnya juga berbeda dengan desain Cohort karena probabilitas kondisionalnya adalah terhadap disease D bukan terhadap paparan E , yaitu probabilitas φ1 = P (E = 1 | D = 1) dan φ2 = P (E = 1 | D = 2). Berdasarkan model ini, tidak mungkin diperoleh estimasi untuk π i , i = 1, 2 seperti pada desain Cohort. Sehingga estimasi untuk RD dan RR tidak dapat diperoleh. Bagaimana dengan OR? Apabila estimasi OR dihitung untuk odds paparan dalam kelompok diseased dibagi odds paparan dalam kelompok non-
29
3.5. Latihan
Tabel 3.4: Data dan Model Probabilitas untuk Desain Case-Control. (a) Data pada tabel 2 × 2
(b) Model probabilitas
D E 1 2
D
1
2
n11 n21 M 1
n12 n22 M 2
E 1 2
1
2
φ1 1 − φ1
φ2 1 − φ2
1
1
diseased maka dapat diperoleh
φˆ1 (1 − φˆ2 ) OR = φˆ2 (1 − φˆ1 ) n11 n22 = , n12 n21
(3.25)
ˆ1 = n 11 /M 1 dan φˆ2 = n 12 /M 2 . Ternyata OR = OR, yang implikasinya dengan φ adalah OR dapat diestimasi untuk desain Case-Control. Pada desain cross-sectional statistik yang dapat diinterpretasikan dengan valid hanyalah prevalensi, oleh karena itu desain cross-sectional sering disebut studi prevalensi. Meskipun RD , RR dan OR dapat dihitung dari data yang diperoleh dari studi cross-sectional, kesimpulan atau interpretasi yang diperoleh kemungkinan akan tidak valid.
3.5
Latihan
3.1. Hitunglah odds S (Sukses) terhadap G (Gagal), dengan sukses misalnya adalah terkena suatu penyakit dan gagal adalah tidak terkena suatu penyakit), bila probabilitas S diketahui adalah: (a) 0,75 (b) 0,50 (c) 0,25 3.2. Hitunglah probabilitas sukses S bila diketahui odds S terhadap gagal G adalah: (a) 0,3 (b) 3,0 3.3. Diketahui dari 8 orang pasien kanker rahim, 2 pasien meninggal dunia. Bila kita tertarik pada parameter π , yaitu probabilitas pasien meninggal, nilai manakah yang lebih didukung oleh data, π = 0,2 atau π = 0,6? Jelaskan! Carilah estimator untuk parameter π ! 3.4. Diketahui data penderita tuberkulosis (tb) di suatu sekolah sebagai berikut:
30
3.5. Latihan
Paparan tinggi rendah
banyaknya siswa yang diperiksa 129 325
banyaknya siswa yang posisif tb 63 36
Hitung risk difference, risk ratio dan odds ratio untuk paparan tinggi beserta interval interval konfidensinya. Interpretasikan hasilnya. 3.5. Merujuk soal no 2.8 (halaman 12), hitung risk difference, risk ratio dan odds ratio untuk paparan tinggi beserta interval interval konfidensinya. Interpretasikan hasilnya. 3.6. Suatu studi dilakukan untuk menguji hipotesis yang menyatakan bahwa ada hubungan antara konsumsi teh dan sindroma pra-menstruasi. Satu grup yang terdiri dari 120 pelajar dan 80 pekerja pabrik menjadi subyek penelitian dan mengisi kuesioner tentang sindroma pra-menstruasi. Prevalensi sindroma pra-menstruasi di antara pelajar adalah 40% dan di antara pekerja pabrik adalah 75%. Berapa subyek dalam studi ini yang mengalami sindroma pra-menstruasi? 3.7. Buktikan persamaan (3.21) pada halaman 26 dan (3.25) pada halaman 29!
4 Perancuan dan Interaksi 4.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan pengertian perancuan ( confounder ) dan interaksi dan menyebutkan contohnya dalam penelitian epidemiologi 2. Mengidentifikasi adanya perancuan dalam suatu permasalahan atau data penelitian epidemiologi 3. Mengidentifikasi adanya interaksi dalam suatu permasalahan atau data penelitian epidemiologi
4.2
Konsep dan Identifikasi Perancuan
Variable perancu adalah variabel yang memenuhi dua kondisi:
• merupakan faktor resiko • mempunyai hubungan dengan variabel paparan tapi bukan merupakan konsekuensi dari variabel paparan Secara konseptual perancuan dapat digambarkan seperti pada Gambar 4.1 dan 4.2. Pada gambar pertama variabel F mempengaruhi baik variabel D maupun E, sedangkan pada gambar kedua F tidak mempengaruhi D dan E sekaligus. Contoh 4.1 Manula yang mengalami kecelakaan, seperti terjatuh, seringkali menjadi tidak dapat bangun dan bergerak dalam waktu lama. Hal ini dapat mengakibatkan bedsores, yaitu luka
31
32
4.2. Konsep dan Identifikasi Perancuan
Tabel 4.1: Data Bedsores study
Bedsore tidak Bedsore Total
E
Meninggal 79 286 365
E
hidup 745 8.290 9.035
Total 824 8.576 9.400
E
D
D
F
F
D
F
Gambar 4.1: Variabel F adalah perancu antara D (variabel respon) dengan E (variabel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah
E
E D
D
F
F
E
E D
F
D F
Gambar 4.2: Variabel F bukan perancu antara D dengan E (variabel respon) dengan E (variabel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah
33
4.2. Konsep dan Identifikasi Perancuan
Tabel 4.2: Data Bedsores study distratifikasi menurut tingkat keparahan Tingkat keparahan tinggi akibat penyakit lain: Meninggal hidup Total Bedsore 55 51 106 tidak Bedsore 5 5 10 Total 60 56 116 Tingkat keparahan rendah akibat penyakit lain: Meninggal hidup Total Bedsore 24 694 718 tidak Bedsore 281 8.285 8.566 Total 305 8.979 9.284 pada kulit yang dapat berlanjut ke otot dan tulang dan dapat berakibat fatal. Diperoleh data seperti pada Tabel 4.1. Rasio resiko dari data ini adalah
79/824 = 2,9 286/8576
RR =
Nilai RR tersebut cukup tinggi menunjukkan bahwa bedsore mungkin dapat mengakibatkan kematian. Untuk melihat apakah ada variabel perancu pada data ini diperoleh data seperti pada Tabel 4.2. Data distratifikasi menurut tingkat keparahan penyakit lain. Dari stratifikasi ini diperoleh RR untuk masing-masing tingkat adalah
RR =
55/106 = 1,04 5/10
untuk tingkat keparahan tinggi dan
RR =
24/718 = 1,02 281/8566
untuk tingkat keparahan rendah. Dari hasil stratifikasi ini terlihat bahwa bedsore tidak terlalu berpengaruh terhadap kematian karena nilai RR cukup dekat dengan satu. Artinya bahwa tingkat keparahan merupakan variabel perancu dalam hubungan antara bedsore dengan kematian.
Contoh 4.2 Contoh ini berkebalikan dengan contoh sebelumnya. Ketika tidak ada confounder, terlihat tidak ada pengaruh faktor resiko (Tabel 4.3). Namun ketika di-stratifikasi menurut confounder, terlihat ada pengaruh faktor resiko terhadap disease.
4.3. Metode Standarisasi dan Mantel-Haenszel
34
Tabel 4.3: Data faktor resiko dengan disease
+
E E −
D+
D−
240 200
420 350
Total 660 550
πˆ1 = 0,3636 πˆ2 = 0,3636 RR = πˆ1 /ˆ π2 = 1
Tabel 4.4: Data faktor resiko dengan disease distratifikasi menurut variabel lain (confounder )
D+ E + E −
135 5
Variabel F = 0: Total π ˆ1 = 0,2455 415 550 ˆ2 = 0,1000 45 50π
D−
RR = πˆ1 /ˆ π2 = 2,45 Variabel F = 1: D D− Total ˆ1 = 0,9545 105 5 110 π ˆ2 = 0,3900 195 305 500 π +
E + E −
RR = π ˆ1 /ˆ π2 = 2,45
4.3
Metode Standarisasi dan Mantel-Haenszel
Metode standarisasi digunakan untuk mengatasi confounding dengan cara membandingkan atau melakukan standarisasi dengan suatu populasi pembanding (standar). Metode ini biasa digunakan dalam Demografi. Variabel atau faktor yang biasanya digunakan dalam standarisasi adalah usia dan jenis kelamin. Dikenal dua jenis standarisasi yaitu (1) standarisasi langsung ( direct standardization); dan (2) standarisasi tidak langsung ( indirect standardization)
4.3.1
Standarisasi Langsung
Standarisasi langsung dibentuk dari hasil estimasi banyaknya kejadian ( event ) yang diperoleh dari model (distribusi) populasi studi ( study population), dikenakan pada populasi standar ( standard / reference population). Variabel yang biasa digunakan untuk standarisasi adalah kelompok umur. Data yang diperlukan untuk penghitungan standarisasi dapat disusun seperti pada Tabel 4.5, dengan n i adalah banyaknya kejadian (misalnya kematian) dalam interval (kelompok umur) i untuk populasi studi; N i adalah ukuran (banyaknya) populasi studi dalam interval i dan M i : ukuran populasi pembanding. Standarisasi langsung untuk rate banyaknya kejadian adalah
35
4.3. Metode Standarisasi dan Mantel-Haenszel
Tabel 4.5: Data untuk Standarisasi Kel. umur 1 2 .. .
Populasi studi
Populasi pembanding
n1 N 1 n2 N 2
M 1 M 2
.. .
.. .
i
ni N i
M i
.. .
.. .
nk N k
M k
.. .
k
r = C
k ni i=1 N i M i , k M i i=1
(4.1)
dengan C suatu konstanta yang digunakan agar bilangan yang diperoleh tidak terlalu kecil. Biasanya C = 1000, sehingga satuan untuk r adalah banyaknya kejadian per 1000 orang. Deviasi standar untuk r adalah
SE (r) =
k
C
k i=1
M i
ni
i=1
M i N i
2
(4.2)
yang dapat digunakan untuk menghitung interval konfidensi 95%, yaitu: r ±1,96× SE (r).
4.3.2
Standarisasi Tidak Langsung
Metode ini menggunakan dua tahapan proses. Pertama model dari populasi pembanding yang biasanya berupa ASDR ( Age Specific Deaths Rate) dikenakan pada studi populasi. Untuk penghitungan ini diperlukan informasi banyaknya kejadian (kematian) di populasi pembanding (dinotasikan sebagai mi ) karena ASDR = m i /M i . Harga harapan banyaknya kematian dalam populasi studi berdasarkan k model populasi pembanding adalah E = i=1 N i (mi /M i ). Diperoleh standardized event ratio (ser ) atau standardized mortality ratio (smr ) jika event yang men jadi perhatian adalah mortalitas sebagai berikut,
smr =
k i=1
E
ni
,
(4.3)
36
4.3. Metode Standarisasi dan Mantel-Haenszel
Tabel 4.6: Data Tabel 2 × 2 untuk strata ke- i Status Sakit/Event +
D E ai E − ci Total ai + ci
D bi di bi + di
+
dengan standard error SE (smr) =
Total
−
(
ai + bi ci + di ni
k i=1
ni )
E
(4.4)
Pada tahapan kedua dapat dihitung standarisasi tidak langsung sebagai berikut
rindirect = C × smr × dengan standard error
SE (rindirect ) = C ×
4.3.3
(
k i=1
k i=1 mi , k M i i=1
ni )
E
×
Mantel-Haenszel
(4.5)
k i=1 mi k i=1 Mi
(4.6)
Untuk data yang distratifikasi menurut variabel perancu, dapat dihitung odds ratio gabungan dari masing-masing strata. Estimator ini disebut Mantel-Haenszel odds ratio yang
ˆ MH = Ψ
k i=1 ai di /ni k i=1 bi ci /ni
(4.7)
ˆ MH ) adalah dengan standar error untuk log(Ψ ˆ MH )) = SE (log(Ψ untuk setiap stratum i,
P i Ri + 2( Ri )2
P i = (ai + di )/ni , Ri = a i di /ni ,
P i S i + 2 Ri
Qi Ri Qi S i + S i 2( S i )2
Qi = (bi + ci )/ni , S i = b i ci /ni ,
(4.8)
37
4.4. Interaksi
(a) tidak ada interaksi e s a e s i
B
E
B
=
E
d
g n a u l e p
e s a e s i d
+
=
(b) interaksi unilateral
B
=
E
=
A = E −
(d) interaksi antagonis
g n a u l e p
E
−
B
A = E +
A = E −
e s a e s i d
+
E
B = E −
A = E +
(c) interaksi sinergis
g n a u l e p
B
g n a u l e p
−
A = E −
e s a e s i d
+
=
A = E +
+
B
E
=
B
=
E
−
A = E −
A = E +
Gambar 4.3: Jenis Interaksi untuk Dua Faktor Resiko A dan B
ˆ MH ) adalah Interval konfidensi 95% untuk log(Ψ ˆ MH ) ± 1,96 SE (log(Ψ ˆ MH )), log(Ψ
(4.9)
ˆ MH sendiri dapat dihitung dengan mengambil niInterval konfidensi 95% untuk Ψ lai eksponensial dari masing-masing batas interval tersebut.
4.4
Interaksi
Dua faktor dikatakan berinteraksi bila efek satu faktor terhadap suatu kejadian penyakit berbeda tingkatnya untuk beberapa strata atau nilai yang berbeda dari faktor yang lain. Istilah lain untuk interaksi yang lebih dikenal dalam epidemiologi adalah modifikasi efek ( effect modification). Bila tidak ada interaksi, setiap faktor resiko akan mempunyai efek yang tetap (homogen) pada tingkat yang berbeda-beda dari faktor yang lain. Interaksi dan jenisnya dapat digambarkan seperti pada Gambar 4.3. Misalkan ada dua faktor A dan B yang menjadi perhatian dan masing-masing mempunyai dua tingkat faktor yaitu terpapar ( exposed E + ) dan tidak terpapar ( non-exposed E − ). Bila tidak ada interaksi antara faktor A dan B, peluang terjadinya disease (efek dari faktor) dari non-exposed ke exposed akan sama tingkat kenaikannya (Gambar 4.3 (a)). Untuk faktor B tidak terpapar (B = E − ), pengaruh faktor A akan naik dari ketika A = E − ke A = E + yang mana tingkat kenaikannya sama
38
4.4. Interaksi
(kemiringannya) untuk faktor B terpapar (B = E + ). Untuk interaksi unilateral (Gambar 4.3 (b)), efek dari faktor A ada jika faktor B terpapar (B = E + ). Namun bila B tidak terpapar faktor A tidak berpengaruh. Interaksi sinergis terjadi bila pengaruh faktor A searah atau sama-sama naik dari A = E − ke A = E + , tapi kenaikan akan makin besar bila ada B terpapar ( B = E + ). Interaksi antagonis berlawanan dengan interaksi sinergis. Jenis interaksi variabel ini terjadi bila pengaruh faktor A menjadi berkebalikan ketika B berubah. Jika B tidak terpapar (B = E − ), pengaruh A akan menurun dari ketika tidak terpapar ( A = E − ) ke terpapar (A = E + ). Sebaliknya jika B terpapar (B = E + ), pengaruh A akan naik. Untuk mengidentifikasi adanya interaksi, perlu dilakukan analisis baik secara deskriptif berupa diagram interaksi maupun dengan uji statistik. Pengetahuan tentang substansi variabel atau faktor yang diteliti sudah t entu diperlukan untuk identifikasi awal variabel atau faktor apa saja yang mungkin berinteraksi. Untuk menguji interaksi dapat digunakan statistik berdasarkan risk rasio (RR), risk difference (RD) maupun odds ratio (OR). Misalkan ada dua faktor A dan B seperti digunakan di atas. Untuk menyederhanakan notasi, terpapar oleh faktor A atau A = E + dituliskan sebagai A1 , tidak terpapar oleh faktor A atau A = E − dituliskan sebagai A 0 , demikian pula untuk faktor B . Kemudian didefinisikan kombinasi dari faktor A dan B sebagai berikut A 1 B1 , A 1 B0 , A 0 B1 dan A0 B0 . Notasi A1B1 adalah terpapar baik oleh faktor A maupun B , kombinasi yang lain dapat diartikan dengan cara yang sama. Didefinisikan pula probabilitas kondisional mendapatkan penyakit ( D+ ) dengan diberikan kombinasi faktor A dan B sebagai berikut:
π11 = P (D+ | A1 B1 ) π01 = P (D+ | A0 B1 )
π10 = P (D + | A1 B0) π00 = P (D + | A0 B0)
Empat macam resiko terkena penyakit dinyatakan sebagai probabilitas bersyarat terhadap kombinasi antara faktor A dan B ini dapat dilihat seperti pada Tabel 4.7 (a). Menggunakan RR (Tabel 4.7 (b)), faktor A dan B dikatakan tidak ada interaksi bila RRAB = RR A RRB , (4.10) dengan RR AB adalah risk ratio antara resiko mendapatkan penyakit jika terpapar oleh A dan terpapar B , dengan resiko mendapat penyakit jika tidak terpapar oleh A maupun B ; atau RR AB = π11 /π00 . Dengan interpretasi yang sama didefinisikan pula RR A = π10 /π00 dan RR B = π01 /π00 . Pernyataan (??) dinamakan interaksi pada skala multiplikatif ( interaction on multiplicative scale). Berdasarkan skala multiplikatif, tidak ada interaksi berarti rasio resiko paparan bersama A dan B sama dengan hasil kali rasio resiko masing-masing faktor.
39
4.5. Latihan
Tabel 4.7: Interaksi menurut RR, OR dan RD (a) Resiko, diketahui faktor A dan B faktor B − B = E + faktor A B = E
(b) Menggunakan RR faktor B B = E + faktor A B = E −
A = E − A = E +
A = E − A = E +
π00 π10
π01 π11
RRB RRAB
1 RRA
tdk ada interaksi: RR AB = RR A RRB
(c) Menggunakan OR faktor B B = E + faktor A B = E −
(c) Menggunakan RD faktor B B = E + faktor A B = E −
A = E − A = E +
A = E − A = E +
1 ORA
ORB ORAB
tdk ada interaksi: ORAB = OR A ORB
RDB RDAB
0 RDA
tdk ada interaksi: RD AB = RD A + RDB
Pengujian interaksi secara multiplikatif dapat pula dilakukan menggunakan OR (Tabel 4.7 (c)) sebagai berikut
ORAB = ORA ORB ,
(4.11)
dengan OR AB , ORA dan OR B didefinisikan dan diinterpretasikan serupa seperti RR di atas. Misalnya ORA = [π10 /(1 − π10 )]/[π00 /(1 − π00 )] adalah odds ratio antara odds mendapatkan penyakit jika terpapar oleh A dan tidak terpapar B , dengan odds mendapatkan penyakit jika tidak terpapar oleh A maupun B . Interaksi dapat pula terjadi pada skala aditif ( interaction on additive scale) dengan menggunakan RD (Tabel 4.7 (d)). Dengan cara ini, faktor A dan B dikatakan tidak ada interaksi bila
RDAB = RDA + RDB (π11 − π00 ) = (π10 − π00 ) + (π01 − π00 )
(4.12)
yaitu selisih resiko antara paparan bersama A dan B sama dengan total selisih resiko antara masing-masing faktor. Apabila faktor yang menjadi perhatian lebih dari dua maka diperlukan modelmodel regresi yang akan dibahas pada Bab-Bab selanjutnya.
4.5
Latihan
1. Diberikan tabel 2 × 2 seperti di bawah yang diperoleh dari studi prospektif dengan variabel paparan E dan variabel penyakit D .
40
4.5. Latihan
E + E −
D+
D−
205 65
76 116
(a) Stratifikasilah tabel di atas menjadi dua buah tabel 2 × 2 sedemikian sehingga variabel ketiga yang men-stratifikasi tabel di atas merupakan variabel confounder (berikan nama variabelnya F dan kategorinya F 0 dan F 1 ) (b) Hitunglah OR Mantel-Haenszel dari data tabel yang saudara buat di atas 2. Dalam suatu studi tentang faktor resiko suatu penyakit, variabel status merokok dan konsumsi lemak menjadi perhatian. Misalkan diperoleh data resiko relatif (RR) untuk kombinasi status merokok dan tingkat konsumsi lemak adalah sebagai berikut: konsumi status merokok lemak tidak pernah mantan ringan berat rendah 1 1.5 2.0 3.0 medium 1.2 1.8 2.4 3.6 tinggi 1.5 2.3 3.0 4.5 sangat tinggi 2.0 3.5 4.0 6.0 Dalam penelitian ini yang dianggap sebagai tingkat paparan yang terendah adalah tidak pernah merokok dan mengkonsumsi makanan rendah lemak, dan yang tertinggi adalah perokok berat dan menkonsumsi lemak sangat tinggi. Terlihat bahwa resiko semakin naik seiring dengan kenaikan tingkat paparan. Apakah data ini menunjukkan adanya perancuan ( confounding)? Apakah data ini menunjukkan adanya interaksi antara konsumsi lemak dengan merokok kaitannya dalam mengakibatkan penyakit?
5 Model Linear Tergeneralisasi 5.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan konsep Model Linear Tergeneralisasi ( Generalized Linear Model) dan kaitannya dengan model statistika lain seperti Regresi Linear, ANAVA, Regresi Logistik dan Regresi Poisson. 2. Melakukan inferensi Regresi Logistik. 3. Melakukan inferensi Regresi Poisson. 4. Mengidentifikasi model yang tepat untuk permasalahan dalam epidemiologi dan penelitian kesehatan. 5. Memberi contoh model GLM yang lain selain Regresi Linear, ANAVA, Regresi Logistik dan Regresi Poisson.
5.2
Generalisasi Model Linear
Model Linear yang sudah dikenal seperi Regresi Linear dan ANAVA juga beberapa metode regresi lain yang cukup populer seperti regresi logistik sebenarnya merupakan satu keluarga model regresi yang lebih luas yang dinamakan Model Linear Terumumkan (GLM : Generalized Linear Model). Ada tiga komponen utama yang membentuk GLM yaitu
• Variabel random Y 1 , Y 2 , . . . , Yn dengan E (Y i ) = µi dengan fungsi densitas dari keluarga eksponensial ( exponential family) 41
42
5.2. Generalisasi Model Linear
• Prediktor linear ηi =
x i
β = β 0 + β 1 xi1 + . . . + β p xip
• Fungsi penghubung ( link function), yang menghubungkan E (Y i ) = µi dengan x i β
g(µi ) = x i β
• Fungsi variansi Vi Fungsi densitas f (y; θ) disebut sebagai Keluarga eksponensial ( exponential family) bila:
f (y; θ) = s(y)t(θ)ea(y)b(θ) = exp(a(y)b(θ) + c(θ) + d(y)) dengan s(y) = exp(d(y)) dan t(θ) = exp(c(θ)).
• jika a(y) = y , f (y; θ) disebut bentuk standar ( canonical, standard form) • b(θ) sering disebut parameter natural Beberapa contoh keluarga eksponensial Distribusi parameter natural c d log θ −θ − log y! Poisson µ µ y 1 − 2σ − 2 log(2πσ 2 ) − 2σ Normal σ n log(1 − π) log ny Binomial log( 1−π π ) Beberapa contoh GLM: Model Jenis respon Y distribusi fungsi penghubung Model linear Normal kontinu Normal identitas: g(µ) = µ Regresi Logistik proporsi binomial logit: g(µ) = log 1−µµ Regresi Poisson cacah Poisson log : g(µ) = log µ Model Gamma kontinu, positif Gamma log: g(µ) = log µ Beberapa contoh fungsi penghubung: 2
2
2
2
2
• identitas : g(µ) = µ • logit: g(µ) = log 1−µµ • probit: g(µ) = Φ−1 (µ), Φ distribusi kumulatif Normal standar • power: g(µ) =
µλ =0 jika λ log(µ) jika λ = 0
• log: g(µ) = log µ • complementary log log: g(µ) = log(− log(1 − µ))
43
5.3. Regresi Logistik
5.3
Regresi Logistik
Pada Bagian 3.3 dipelajari analisis untuk tabel 2 × 2. Dalam tabel 2 × 2 ini baik respon Y maupun variabel penjelas atau faktor X hanya terdiri atas dua jenis kategori. Penelitian dalam bidang kesehatan maupun epidemiologi biasanya mempunyai lebih dari satu variabel penjelas atau faktor X . Untuk data penelitian semacam ini dapat digunakan regresi logistik.
5.3.1
Model dan Estimasi Parameter
Misalkan Y i adalah variabel random Bernoulli untuk individu i , distribusi probabilitas Y I adalah
P (Y i = y i ) = πiy (1 − πi )1−y , i
i
yi = 0, 1
(5.1)
Setiap individu i mempunyai karakteristik berupa variabel xi yang mempengaruhi πi dalam bentuk
πi =
1 1 + exp(−(β 0 + β 1xi ))
(5.2)
Fungsi seperti π i dalam persamaan (5.2) dinamakan fungsi logistik. Untuk variabel independen atau faktor yang lebih dari satu, fungsi untuk π i dapat diperluas menjadi
1 eZ πi = , atau πi = 1 + e−Z 1 + eZ
(5.3)
dengan Z = β 0 + β 1 x1 + β 1 x1 + · · · + β p adalah fungsi linear dari p variabel penjelas. Model (5.3) dapat dituliskan sebagai kombinasi linear dari variabel independen seperti halnya pada model linear sebagai berikut
log
πi = β 0 + β 1x1i + β 2 x2i + · · · + β p x pi 1 − πi
(5.4)
atau
logit(πi ) = β 0 + β 1 x1i + β 2 x2i + · · · + β p x pi
(5.5)
dengan x1i , x2i , . . . , x pi adalah variabel independen, faktor atau kovariat; dan β 0 , β 1 , . . . , β p adalah parameter model.
44
5.3. Regresi Logistik
Estimasi untuk β = (β 0 , β 1 , . . . , β p ) dapat diperoleh dengan MLE untuk fungsi likelihood berikut ini n
L(β) =
P (Y i = y i )
i=1
[exp(β 0 + β 1 x1i + β 2 x2i + · · · + β pi )]y = 1 + exp(β 0 + β 1 x1i + β 2 x2i + · · · + β pi ) i
(5.6)
Program statistika seperti R, SPSS, Epi-Info, STATA menyediakan fasilitas untuk ˆ dan kesalahan standarnya SE (β ˆ ). estimasi β
5.3.2
Interpretasi Parameter Model
Untuk model regresi logistik sederhana
logit(πi ) = β 0 + β 1xi
(5.7)
dengan
xi =
0 i tdk terpapar 1 i terpapar
dapat dituliskan
log
πi = β 0 + β 1 xi 1 − πi πi = exp [β 0 + β 1 xi ] 1 − πi
atau oddsxi = exp [β 0 + β 1 xi ] ,
yang diinterpretasikan sebagai odds seseorang yang mempunyai karakteristik x i . Untuk orang yang terpapar ( exposed ), nilai x i = 1 dan odds-nya ditulis sebagai oddsx =1. Demikian juga untuk orang yang tidak terpapar, odds-nya ditulis sebagai oddsx =0. Sehingga odds ratio antara orang yang terpapar ( xi = 1) dengan yang tidak terpapar (xi = 0) adalah i
i
OR =
oddsxi =1 oddsxi =0
= eβ . 1
=
eβ +β ×1 eβ +β = eβ +β ×0 eβ 0
1
0
1
0
1
0
(5.8)
45
5.3. Regresi Logistik
Atau dapat disimpulkan bahwa eksponen dari parameter model regresi logistik sederhana adalah OR . Jika variabel X kontinu, kenaikan m -unit untuk satu variabel penjelas X , misalnya X = x + m dibandingkan dengan X = x mempunyai OR sama dengan exp(mβ 1 ). Estimasi titik dan interval konfidensi (1 − α)100% untuk OR dapat dihitung ˆ1 dan standar error-nya ˆσ (β ˆ1 ) diperoleh. asalkan estimasi β
ˆ1 ) OR = exp(β
ˆ1 ± Z α/2 σ ˆ1 )) exp(β ˆ (β
(5.9)
(5.10)
Interpretasi ini dapat diperluas untuk model regresi logistik ganda dengan variabel penjelas bertipe kontinu maupun kategori. Secara umum OR antara individu atau kelompok yang mempunyai karakteristik x 1 dengan individu atau kelompok yang mempunyai karakteristik x 0 adalah sebagai berikut: OR =
odds(π ) x 1
odds(π ) x 0
=
exp(β 0 + β 1 x11 + β 2 x12 + . . . + β p x1 p ) exp(β 0 + β 1 x01 + β 2 x02 + . . . + β p x0 p )
p
= exp
β j (x1 j − x0 j ) .
j=1
(5.11)
Untuk menyederhanakan penulisan, indeks i yang biasa digunakan untuk menunjukkan suatu individu dihilangkan. Karakteristik x 1 adalah vektor yang bernilai (x11 , x12 , . . . , x1 p ) dan karakteristik x 0 adalah vektor yang bernilai (x01 , x02 , . . . , x0 p ). Untuk menghitung interval konfidensi (1 − α)100% OR diperlukan nilai standard error dari log(OR) yang mempunyai bentuk umum
p
SE[log(OR)] =
β j (x1 j − x0 j ) .
Var
(5.12)
j=1
Sehingga interval konfidensi 95% nya adalah
exp log(OR) ± 1,96 × SE[log(OR)]
(5.13)
Bentuk umum di atas dapat juga digunakan untuk menyusun interval konfidensi suatu model regresi logistik yang memuat interaksi. Dalam Bagian 4.4 telah dibahas pengertian interaksi dan metode inferensinya. Namun metode yang
46
5.3. Regresi Logistik
dibahas mempunyai keterbatasan hanya dua faktor atau variabel saja yang terlibat dalam model interaksi. Dengan menggunakan model regresi, termasuk model regresi logistik, masalah tersebut dapat diatasi. Misalkan variabel atau faktor yang terlibat lebih dari dua yaitu X 1 , X 2 , X 3 . Model yang menjadi perhatian adalah
logit(π) = β 0 + β 1 X 1 + β 2X 1 + β 3 X 3
(5.14)
dengan X 1 bernilai (0 = tidak terpapar, 1 = terpapar) dan merupakan variabel yang menjadi perhatian, X 2 dan X 3 dianggap sebagai confounder . Variabel X 2 dan X 3 dapat bertipe kontinu maupun kategori, misal X 2 adalah usia dalam tahun, dan X 3 adalah jenis kelamin dengan X 3 = 0 jika perempuan, X 3 = 1 jika lakilaki. Variabel X 1 kemungkinan berinteraksi dengan salah satu X 2 atau X 3 . Misal ingin dihitung OR antara seorang laki-laki yang terpapar dan berusia 40 tahun dengan seorang laki-laki yang tidak terpapar dan berusia 40 tahun. Dalam hal ini nilai x 1 = (X 11 = 1, X 12 = 40, X 13 = 1) dan x 0 = (X 01 = 0, X 02 = 40, X 03 = 1). Menggunakan (5.11) OR x 1 terhadap x 0 adalah:
3
OR = exp
β j (X 1 j − X 0 j )
j=1
= exp {β 1 (X 11 − X 01 ) + β 2 (X 12 − X 02 ) + β 3 (X 13 − X 03 )} = exp {β 1 (1 − 0) + β 2 (40 − 40) + β 3 (1 − 1)} = exp {β 1 } (5.15) Meskipun rumusan OR yang diperoleh pada regresi logistik ganda (5.15) sama dengan yang diperoleh pada regresi logistik sederhana ( 5.8) namun nilainya berbeda. Dalam (5.15) nilai OR dikatakan sudah diselaraskan ( adjusted , controlled ) dengan variabel X 2 dan X 3 sedangkan pada (5.8) tidak diselaraskan, perhitungan hanya dari variabel utama X 1 saja. Interval konfidensi 95% dapat menggunakan ˆ1 ), yaitu exp(log(OR) ± 1,96 × σ ˆ1)). standard error untuk log(OR) atau SE(β ˆ (β Misalkan model yang menjadi perhatian sekarang adalah model dengan interaksi
logit(π) = β 0 + β 1 X 1 + β 2 X 1 + β 3 X 3 + β 4X 1 X 2 + β 5 X 1 X 3 .
(5.16)
Rumusan OR antara seorang laki-laki yang terpapar dan berusia 40 tahun dengan seorang laki-laki yang tidak terpapar dan berusia 40 tahun menjadi:
3
OR = exp
j=1
β j (X 1 j − X 0 j )
= exp{β 1 (X 11 − X 01 ) + β 2 (X 12 − X 02 ) + β 3 (X 13 − X 03 ) + β 4 (X 11 X 12 − X 01 X 02 ) + β 4 (X 11 X 13 − X 01 X 03 )}
47
5.3. Regresi Logistik
= exp{β 1 (1 − 0) + β 2 (40 − 40) + β 3 (1 − 1) + β 4(1 × 40 − 0 × 40) + β 5 (1 × 1 − 0 × 1)} = exp{β 1 + 40β 4 + β 5 }
(5.17)
Estimasi OR untuk model regresi logistik dengan interaksi ini tidak sama dengan OR untuk model regresi logistik tanpa interaksi. Estimasi standard error log(OR) juga berbeda dan lebih rumit.
Var[log(OR)] = Var (β 1 + 40β 4 + β 5 ) = Var(β 1 ) + 402Var(β 4 ) + Var(β 5 ) + 2(40)Kov(β 1, β 4 ) + 2Kov(β 1 , β 5 ), (5.18)
jadi SE[log(OR)] = Var[log(OR)] memerlukan nilai Variansi estimator β 1 , β 4 , β 5 dan Kovariannya. ˆ maupun Kov(β ˆ) Program statistik standar biasanya mampu menghitung β yang diperlukan untuk interval konfidensi. Beberapa program sudah dilengkapi pula dengan output batas interval konfidensi untuk OR -nya. Contoh 5.1 Merujuk data pada Tabel 3.4 tentang hubungan antara penyakit jantung koroner dengan tekanan pekerjaan, telah dihitung estimasi untuk RR , OR dan RD sebagai berikut:
Risk ratio ( RR) Odds ratio ( RR) Risk difference ( RD )
Estimasi titik 1,932 2,225 0,116
Interval Konfidensi 95% 1,555 — 2,399 1,696 — 2,922 0,071 — 0,161
Estimasi seperti tabel di atas juga dapat diperoleh dengan model regresi logistik sederhana logit(πi ) = β 0 + β 1 xi , i = 1, . . . , 2013 (ada 97 + 307 + 200 + 1409 = 2013 subyek dalam studi tersebut). Variabel respon Y i bernilai 1 jika i terkena penyakit jantung koroner, bernilai 0 jika tidak; variabel dependen (faktor) X i bernilai 1 jika i tertekan karena pekerjaan, bernilai 0 jika tidak. Estimasi β 0 dan β 1 dapat dilakukan dengan menggunakan alat bantu paket statistik.Output regresi logistik suatu paket statistik minimal menampilkan hasil estimasi β dan standard error nya. Untuk data di atas diperoleh hasil sebagai berikut:
Insersep Tertekan karena pekerjaan
Estimasi titik
standard error
ˆ0 = −1,952 β ˆ1 = 0,800 β
ˆ0 ) = 0,0756 σ ˆ (β ˆ1 ) = 0,1388 σ ˆ (β
Untuk menghitung RR antara subyek atau kelompok yang tertekan karena pekerjaan dengan subyek yang tidak tertekan karena pekerjaan dapat digunakan estimasi πi dari model logistik logit(πi ) = −1,952 + 0,800xi .
48
5.4. Regresi Poisson
Resiko atau probabilitas kondisional subyek terkena jantung koroner jika dia tertekan karena pekerjaan adalah
π ˆx =1 = P (yi = 1 | xi = 1) i
= alogit(−1,952 + 0,800xi ) = alogit(−1,952 + 0,800 × 1) = alogit(−1,152) = 0,240 dengan alogit adalah fungsi invers dari logit
alogit(u) =
exp(u) 1 + exp(u)
(5.19)
Dengan cara yang sama dapat dihitung resiko subyek terkena jantung koroner jika dia ˆxi =0 = 0,124. Estimasi titik untuk risk ratio, tidak tertekan karena pekerjaan, yaitu π πxi =1 dan ˆ πxi =0 . odds ratio dan risk difference dapat dihitung menggunakan ˆ Estimasi odds ratio juga dapat dihitung menggunakan persamaan (5.8) atau secara umum (5.11). Dalam contoh ini OR = exp(0,800) = 2,225. Interval konfidensi untuk OR dapat ˆ1 ) karena dalam model ini OR = exp(β ˆ1 ), atau log(OR) = dihitung menggunakan ˆ σ (β ˆ1 . Diperoleh interval konfidensi untuk OR dengan batas bawah exp(0,800 − 1,96 × β 0,1388) dan batas atas exp(0,800 + 1,96 × 0,1388) atau (1,696 – 2,292), yang sama dengan hasil yang diperoleh pada contoh 3.4 di muka.
πxi =1 dan ˆ πxi =0 seStandard error untuk RR dan RD tidak mudah dihitung berdasarkan ˆ hingga dalam praktek estimasi dan interval konfidensi untuk RR dan RD dengan menggunakan regresi logistik tidak banyak digunakan.
5.4 5.4.1
Regresi Poisson Model dan Estimasi Parameter
Distribusi Poisson biasanya digunakan untuk memodelkan cacah kejadian dalam suatu unit interval waktu, atau daerah tertentu. Distribusi probabilitas Poisson mempunyai fungsi probabilitas sebagai berikut
θx e−µ P (Y = y | µ) = , y!
y = 0, 1, 2, . . .
(5.20)
yang mempunyai mean dan variansi sama yaitu µ. Banyaknya pasien yang datang di unit gawat darurat per hari, banyaknya kematian akibat kanker per orang-tahun ( person-years), banyaknya kematian bayi per 1000 kelahiran merupakan contoh fenomena yang dapat dimodelkan dengan
49
5.4. Regresi Poisson
distribusi Poisson. Dalam contoh tersebut ada dua komponen yang mencirikan distribusi Poisson, yaitu banyaknya sukses atau cacah kejadian ( events) dan unit dimana banyaknya sukses tersebut terjadi. Mean µ dari distribusi Poisson adalah rate banyaknya sukses dibagi total unit. Regresi Poisson memodelkan mean µ sebagai fungsi dari variabel independen dan besarnya unit. Regresi Poisson dengan satu variabel independen dituliskan sebagai berikut:
E (Y i | X i ) = µ i = si λ(xi ) = si exp(β 0 + β 1 xi ), atau log µi = log si + β 0 + β 1 xi
(5.21) (5.22)
dengan Y i adalah banyaknya sukses pada unit i, si adalah ukuran besarnya tiap unit i, λ(xi ) dinamakan resiko unit i dan x i adalah variabel independen, i = 1, 2, . . . , n. Ukuran unit si dapat berupa banyaknya anggota populasi, interval waktu, luasan, exposure time dan sebagainya. Dalam model regresi Poisson ini karakteristik suatu unit yang dinyatakan dengan variabel independen xi mempengaruhi µ melalui probabilitas resiko λ. Dengan asumsi Y i berdistribusi Poisson, diperoleh fungsi likelihood: n
L(β) =
i=1 n
=
i=1 n
=
i=1
P (Y i = y i ) [si λ(xi )]y exp[−si λ(xi )] yi ! i
[si exp(β 0 + β 1 xi )]y exp[−si exp(β 0 + β 1 xi )] yi ! i
(5.23)
ˆ ) dapat digunakan bebeUntuk mengestimasi β dan kesalahan standarnya SE( β rapa program statistika seperti R, STATA, SPSS atau SAS.
5.4.2
Interpretasi Parameter Model
Untuk model regresi Poisson sederhana
log µi = log si + β 0 + β 1 xi dengan
xi =
0 i tdk terpapar 1 i terpapar
(5.24)
50
5.4. Regresi Poisson
Dapat dihitung rasio antara mean antara unit i yang terpapar dengan yang tidak terpapar sebagai berikut
E (Y i | X i = 1) E (Y i | X i = 0) si exp(β 0 + β 1 ) = si exp(β 0 ) = eβ
RR =
(5.25)
1
Dengan menggunakan pendekatan Poisson untuk Binomial, rasio di atas dapat diinterpretasikan sebagai relative risk atau risk ratio RR. Pendekatan ini akan cukup baik jika probabilitas atau resiko kejadian kecil ( rare events) dengan ukuran unit yang cukup besar. Contoh 5.2 Merujuk pada Contoh 3.3 tentang pengaruh rokok pada kematian, telah dihitung insidensi untuk kelompok perokok dan bukan perokok dalam satuan per 1000 orang, yaitu untuk perokok adalah 4,43 dan untuk bukan perokok adalah 2,58. Rasio resiko untuk meninggal antara perokok dan bukan perokok adalah RR = 4,43/2,58 = 1,72. Regresi Poisson sederhana dapat digunakan untuk menghitung RR beserta interval konfidensinya. Dengan menggunakan paket program statistik diperoleh estimasi untuk β 0 dan β 1 beserta standard ˆ0 = −5,9618, SE(β ˆ0 ) = 0,0995 dan β ˆ1 = 0,5422, SE(β ˆ1 ) = error nya sebagai berikut β 0,1072.
ˆ1 ) = exp(0,5422) = 1,72 RR = exp(β
ˆ1 ) atau Interval konfidensi 95% untuk RR adalah eksponensial dari log( RR) ± 1,96SE(β (1,4 – 2,1).
Seperti model regresi logistik, regresi Poisson dapat diperluas untuk banyak variabel (regresi Poisson ganda) sebagai berikut:
log µi = log si + β 0 + β 1 xi + . . . + β p x p
(5.26)
dengan x1 , x2 , . . . , x p adalah variabel dependen dan β 1 , β 2 , . . . , β p adalah koefisien regresi Poisson. Model regresi Poisson juga dapat digunakan untuk menganalisis interaksi seperti halnya pada model regresi logistik. Cara penghitungan RR dan interval konfidensi pada regresi Poisson juga mengikuti prinsip penghitungan OR dan interval konfidensinya pada regresi logistik. Contoh 5.3 Merujuk kembali pada Contoh 3.3, insidensi untuk tiap kelompok umur dan status merokok pada Tabel 3.1 dapat dihitung menggunakan rumus (3.9). Misalnya untuk perokok dalam kelompok umur 35 − 44, estimasi insidensi kematian adalah 32/52407 =
51
5.4. Regresi Poisson
0,00061061 atau karena bilangan insidensi kecil biasanya dikalikan dengan suatu konstan besar misalnya 100.000, jadi insidensinya adalah 61,06 kematian per seratus ribu orang. Dengan cara yang sama dapat dihitung nilai insidensi yang lain seperti pada Tabel 5.1. Untuk membandingkan insidensi dapat dihitung RR perokok dan bukan perokok dalam kelompok umur yang sama. Misalnya RR untuk perokok dibanding bukan perokok dalam kelompok umur 35 − 44 adalah 61,06/10,64 = 5,74. Nilai RR yang lain dapat dilihat pada Tabel. Plot insidensi menurut status merokok dan usia dapat dilihat pada Gambar 5.1. Dapat dilihat pada Tabel 5.1 dan Gambar 5.1 bahwa tingkat kematian untuk perokok lebih tinggi dibandingkan dengan tingkat kematian bukan perokok, kecuali untuk kelompok usia lanjut. Tabel 5.1: Insidensi dan RR kematian akibat jantung koroner menurut umur dan status merokok Kel. Umur 35 – 44 45 – 54 55 – 64 65 – 74 75 – 84
n u h a t r e p 0 0 0 . 0 0 1 r e p n a i t a m e k
Insidensi Rasio Resiko perokok bukan perokok ( RR) 61,06 10,64 5,74 240,47 112,43 2,14 719,98 490,37 1,47 1468,85 1083,17 1,36 1918,38 2120,38 0,90
0 0 0 2 0 0 5 1 0 0 0 1 0 0 5
0
35−44
45−54
55−64
65−74
75−84
kelompok umur
Gambar 5.1: Tingkat kematian akibat penyakit jantung koroner per 100.000 person-years untuk perokok dan bukan perokok •
52
5.4. Regresi Poisson Tabel 5.2: Estimasi parameter model (5.27) Parameter
β 0 β 1 β 2 β 3 β 4 β 5 β 6 β 7 β 8 β 9
Estimasi β -9,15 1,75 2,36 3,83 4,62 5,29 -0,99 -1,36 -1,44 -1,85
SE 0,71 0,73 0,76 0,73 0,73 0,73 0,79 0,76 0,76 0,76
Untuk menganalisis data ini dapat digunakan beberapa alternatif model regresi Poisson ganda. Model pertama memuat semua kombinasi tingkat faktor dari status merokok maupun kelompok umur. model ini disebut sebagai saturated model karena banyaknya data sama dengan banyaknya parameter. Model dibentuk dengan membuat variabel-variabel boneka (dummy) untuk kelompok umur dengan interaksi variabel-variabel tersebut dengan status merokok. Modelnya adalah sebagai berikut:
log µi = log(si ) + β 0 + β 1 x1i + β 2 x2i + β 3 x3i + β 4 x4i + β 5 x5i + β 6 x1i x2i + β 7 x1i x3i + β 8 x1i x4i + β 9 x1i x5i i = 1, 2, . . . , 10
(5.27)
dengan
• µi : mean dari kematian • si : person-years • x1i : perokok atau bukan; • xki , k = 2, 3, . . . , 5: kelompok umur 35 − 44, 45 − 54, . . ., 75 − 84 • x1i xki , h = 2, 3, . . . , 5: interaksi (hasil kali) antara x1i dengan kelompok umur xki Diperoleh estimasi seperti pada Tabel 5.2. Untuk mengestimasi insidensi untuk tiaptiap kombinasi status merokok dan kelompok umur dapat digunakan nilai estimasi (β 0 , . . . , β9 ) dan nilai variabelnya. Misalnya untuk perokok dalam kelompok umur 35 – 44 akan dihitung estimasinya menggunakan model (5.27). Dalam kelompok ini x1 = 1 (perokok), x2 = 0 (kelompok usia 35 – 44) dan interaksinya x 1 x2 = 0, nilai variabel
53
5.4. Regresi Poisson
yang lain adalah 0, jadi estimasinya adalah
ˆ0 + β ˆ1 xi + . . . + β ˆ9 x1 x5 ) µ = exp(β = exp(−9,15 + (1,75)(1) + (2,36)(0) + (3,83)(0) + (4,62)(0) + (5,29)(0) + (−0, 99)(0) + (−1, 36)(0) + (−1, 44)(0) + (−1, 85)(0)) = exp(−7,40) = 0,0006106 atau 61,06 per 100.000 orang seperti pada Tabel 5.1. Untuk mengestimasi banyaknya kematian, nilai estimasi ini dikalikan dengan s i ( person years) pada kelompok tersebut. Untuk perokok dalam kelompok umur 35 – 44 diketahui si = 52407, atau 0,0006106(52407) = 32 yang nilainya sama dengan data pada Tabel 3.1. Nilai insidensi pada kombinasi tingkat faktor yang lain dapat dihitung dengan cara serupa. Resiko relatif antara perokok dan bukan perokok ( RR) untuk setiap kelompok dapat pula dihitung berdasarkan model regresi Poisson (5.27) dengan hasil estimasi pada Tabel 5.2. Misalnya untuk kelompok usia 45 – 54,
RR =
estimasi insidensi untuk kelompok perokok usia 45 – 54 estimasi insidensi untuk kelompok bukan perokok usia 45 – 54
Estimasi insidensi untuk kelompok perokok usia 45 – 54 adalah
ˆ0 + β ˆ1 (1) + β ˆ2 (1) + β ˆ3 (0) + β ˆ4 (0) + β ˆ5 (0)+ exp β
ˆ6 (1)(1) + β ˆ7 (1)(0) + β ˆ8 (1)(0) + β ˆ9 (1)(0) β
ˆ0 + β ˆ1 + β ˆ2 + β ˆ6 ) = exp(β
Sedangkan untuk kelompok bukan perokok usia 45 – 54 adalah
ˆ0 + β ˆ1 (0) + β ˆ2 (1) + β ˆ3 (0) + β ˆ4 (0) + β ˆ5 (0)+ exp β
ˆ6 (0)(1) + β ˆ7 (0)(0) + β ˆ8 (0)(0) + β ˆ9 (0)(0) β
Menggunakan nilai estimasi β 1 dan β 6 diperoleh
RR =
ˆ0 + β ˆ2 ) = exp(β
ˆ0 + β ˆ1 + β ˆ2 + β ˆ6 ) exp(β ˆ0 + β ˆ2 ) exp(β
ˆ1 + β ˆ6 ) = exp(β = exp(1,75 + (−0,99)) = exp(0,76) = 2,14.
Nilai RR ini sama seperti pada Tabel 5.1 untuk kelompok umur 45 – 54. Interval konfidensinya dapat dihitung dengan terlebih dahulu menghitung standard error dari log RR yaitu
SE(log RR) =
=
ˆ1 + β ˆ6 ) Var(β ˆ1 ) + Var(β ˆ6 ) + 2Kov(β ˆ1 , ˆ Var(β β 6 )
54
5.4. Regresi Poisson
Program statistik standar biasanya menghitung matriks variansi dan kovariansi dari ˆ1 ) = 0,5313, estimator β selain nilai estimasi β nya sendiri. Diperoleh Var(β ˆ6 ) = 0,6242 dan Kov(β ˆ1 , ˆ Var(β β 6 ) = −0,5313, jadi SE(log RR) = 0,5313 + 0,6242 + 2(−0,5313) = 0,0930. Interval konfidensi 95% untuk RR pada kelompok usia 45 – 54 adalah exp(log RR ± 1,96SE(log RR)) atau exp(log(2,14) ± 1,96(0,0930)), yaitu (1,782 – 2.566). Cara penghitungan RR dan interval konfidensi nya untuk kelompok usia yang lain dapat dilakukan dengan cara yang sama.
Contoh 5.4 Alternatif model regresi Poisson (5.27) adalah menganggap kelompok usia sebagai variabel kontinu, misalnya dengan mengambil nilai median interval masing-masing kelompok umur, sehingga dapat dimodelkan pula kuadrat dari umur dan interaksinya dengan status merokok. Asumsi ini masuk akal karena usia seperti terlihat pada Gambar 5.1 menampilkan bentuk kuadratik dan bersilangan pada usia lanjut yang menunjukkan adanya interaksi.
log µi = log(si ) + β 0 + β 1 x1i + β 2 x2i + β 3 x1i × x2i + β 4 x21i , i = 1, . . . , 10 (5.28) dengan
• µi : mean dari kematian • si : person-years • x1i : perokok atau bukan; • x2i : usia 1, 2, 3, 4, 5 ; • x1i × x2i : interaksi (hasil kali) antara x1i dengan x2i ; • x21i : kuadrat umur Diperoleh hasil estimasi β dan standard error nya seperti pada Tabel 5.3. Model (5.28) Tabel 5.3: Estimasi parameter model (5.28) Parameter
β 0 β 1 β 2 β 3 β 4
Estimasi β -19,700 2,364 0,356 -0,002 -0,0308
SE 1,2530 0,6562 0,0363 0,0003 0,0097
memiliki lebih sedikit parameter dibandingkan model (5.27) dan kecocokan yang lebih baik dilihat dari nilai AIC ( Akaike Information Criterion) yaitu nilai AIC 66,70, lebih kecil dibanding model (5.27) yaitu 75.07. Namun memberi nilai numerik pada variabel
55
5.5. Latihan
kelompok umur terkadang dapat menyesatkan, karena pengubahan skala pengukuran dari interval ke rasio. Apabila umur sebenarnya dari setiap individu diketahui, lebih baik digunakan nilai variabel umur ini dalam model. Resiko relatif dapat dihitung dengan cara yang sama seperti contoh 5.3. Misalkan ingin diestimasi RR antara perokok dan bukan perokok untuk usia 50 tahun, maka
RR
= =
estimasi insidensi untuk kelompok perokok usia 50 estimasi insidensi untuk kelompok bukan perokok usia 50
ˆ0 + β ˆ1 (1) + β ˆ2 (50) + β ˆ3 (1)(50) + β ˆ4 502 ) exp(β ˆ0 + β ˆ1 (0) + β ˆ2 (50) + β ˆ3 (0)(50) + β ˆ4 502 ) exp(β
ˆ1 (1) + β ˆ3 (1)(50)) = exp(β = exp(2,364 + (−0,002)(50)) = 9,622
Interval konfidensi untuk RR dihitung dengan terlebih dahulu menghitung nilai SE(log RR), yaitu
ˆ1 ) + 502 Var(β ˆ3 ) + 2Kov(β ˆ1 D, ˆ Var(β β 3 )
SE(log RR) =
Batas bawah dan atas interval konfidensi 95% adalah (exp(log RR ± 1,96SE(log RR))), yang dapat dihitung asalkan nilai matrik variansi-kovariansi β diketahui.
5.5
Latihan
5.1. Mengacu soal nomor 2.8, misalkan digunakan regresi logistik logit (π) = β 0 + β 1 X , dengan X bernilai 1, jika menggunakan helm, 0 jika tidak; (a) Hitung nilai estimasi β 0 (b) Hitung nilai estimasi β 1 5.2. Diberikan model regresi logistik logit(πi ) = β 0 + β 1 xi , dengan
X i =
−1 jika subyek i tidak terpapar 1 jika subyek i terpapar
Berapakah OR antara individu yang terpapar dengan yang tidak terpapar? 5.3. Respiratory Distress Syndrome (RDS) merupakan salah satu penyakit penyebab utama kematian bayi. Gangguan fisiologis seperti kekurangan oksigen dan tingkat keasaman tinggi dalam darah diperkirakan menjadi penyebab RDS. Suatu penelitian cross-sectional tentang RDS dilakukan pada 50 bayi dengan variabel respon adalah SURVIVAL (1: mati, 0: hidup) dan variabel penjelas TREATMNT (tipe tritmen untuk menetralisasi asam dalam
56
5.5. Latihan
darah, 1: THAM, 0: sodium carbonate); TIME (lama waktu yang diperlukan bayi untuk bernapas kembali, dalam menit), WEIGHT (Berat lahir, kilogram), RESP (Terapi pernafasan, 1: Ya, 0:Tidak), AGE (usia gestasional atau lama bayi/janin dalam kandungan, minggu). Diperoleh output regresi logistik dari sebuah paket statistik sebagai berikut: Variable TREATMNT TIME WEIGHT RESP AGE Constant
B .94 .04 3.94 -1.88 -.35 4.10
S.E. .78 .10 1.62 .82 .24 5.80
Wald 1.44 .14 5.85 5.26 2.05 .50
df 1 1 1 1 1 1
Sig .22 .70 .91 .02 .15 .47
R .00 .00 .24 -.22 -.02
Exp(B) 2.56 1.04 51.50 .15 .69
(a) Hitung estimasi probabilitas untuk bayi yang mendapatkan tritmen 1, lama waktu bernafas kembali 2 menit, berat lahir 1,05 kg, tidak mendapat terapi pernafasan dan usia gestasional 28 minggu! (b) Hitung interval konfidensi 95% untuk OR ( odds ratio) antara tritmen (TREATMNT ) 1: THAM dengan 0: sodium carbonate! (c) Hitung estimasi RR (risk ratio) antara tritmen (TREATMNT ) 1: THAM dengan 0: sodium carbonate dan nilai variabel yang lain sama untuk masing-masing tritmen, yaitu TIME=2, WEIGHT=1,05 , RESP=0 AGE=28! 5.4. Ingin diteliti apakah status sosial (variabel SOC, 1= kelas sosial tinggi, 0=kelas sosial rendah) berpengaruh terhadap mortalitas akibat penyakit jantung (variabel CVD, 1=meninggal karena penyakit jantung, 0=meninggal bukan karena penyakit jantung). Variabel lain yang dipandang penting adalah status merokok (variabel SMK, 0=tidak merokok, 1=merokok) dan tekanan darah sistolik (SBP, variabel kontinu). Dari follow-up study selama 12 tahun terhadap 200 pria yang berusia 50 tahun atau lebih diperoleh estimasi parameter model logistik sebagai berikut: Model 1: Model 2: Variable Estimasi β Variable Estimasi β 1,1800 − Intersep −1,1900 Intersep −0,5200 SOC −0,5000 SOC 0,0400 SBP 0,0100 SBP −0,5600 SMK −0,4200 SMK −0,0330 SOC × SBP 0,1750 SOC × SMK (a) Tuliskan formulasi model logistik untuk Model 1 dan Model 2!
57
5.5. Latihan
(b) Hitung Risk Ratio meninggal karena CVD untuk status sosial tinggi terhadap status sosial rendah berdasarkan Model 1 dan Model 2, untuk perokok yang tekanan darah sistoliknya 150! (c) Berapakah Odds Ratio meninggal karena CVD untuk status sosial tinggi terhadap status sosial rendah setelah diselaraskan oleh variabel yang lain (adjusted for other variables) berdasarkan Model 1 dan Model 2? 5.5. Diberikan model regresi Poisson log(µi ) = log si + −6,757 + 0,304xi , dengan si adalah ukuran tiap unit i , µi adalah unit ke- i dan
X i =
−1 jika subyek i tidak terpapar 1 jika subyek i terpapar
Hitung estimasi RR antara individu yang terpapar dengan yang tidak terpapar! 5.6. Diperoleh data banyak kasus (N) kanker kulit untuk dua daerah A dan B dan untuk kelompok umur sebagai berikut: Daerah A Daerah B Kel. umur N populasi N populasi 15 – 24 1 172 675 4 181 343 25 – 34 16 123 065 38 146 207 35 – 44 30 96 216 119 121 374 Lakukan analisis dengan menggunakan regresi Poisson untuk data di atas (gunakan paket statistik)!
6 Uji Diagnostik 6.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan Sensitivitas, Spesifisitas dan Nilai Prediksi beserta teori yang mendasarinya 2. Menghitung dan menginterpretasikan kurva ROC, untuk suatu data diagnosis
6.2
Sensitivitas, Spesifisitas dan Nilai Prediksi
Untuk menentukan sakit atau tidaknya seseorang diperlukan diagnosa medis yang tepat. Dapat dikatakan diagnosis adalah langkah awal yang penting dalam pengobatan. Kesalahan diagnosa dapat berakibat kesalahan pengobatan dan tidak mustahil berakibat fatal. Diagnosa juga merupakan tahap yang penting dalam program preventif penyakit. Dalam hal ini diagnosis sering disebut sebagai screening, yaitu menjaring orang yang mungkin berpotensi untuk menderita suatu penyakit tertentu. Dalam diagnosis ataupun screening digunakan suatu prosedur atau tes untuk melihat apakah seseorang menderita penyakit tertentu atau tidak. Kegiatan diagnostik dapat dipandang sebagai probabilitas peristiwa-peristiwa sebagai berikut: T + : diagnosa atau screening menunjukkan tes positif T − : diagnosa atau screening menunjukkan tes negatif D+ : kenyataannya positif ada penyakit D − : kenyataannya tidak ada penyakit (negatif) Baik atau tidaknya suatu prosedur atau tes diagnostik dapat dilihat berdasarkan probabilitas-probabilitas bersyarat di bawah ini: 58
59
6.2. Sensitivitas, Spesifisitas dan Nilai Prediksi
Sensitivitas (sensitivity): Yaitu probabilitas tes akan positif jika seseorang pada kenyataannya memang sakit, Sens = P (T + | D+) Spesifisitas (specificity): Yaitu probabilitas tes akan negatif jika seseorang pada kenyataannya memang tidak sakit, Spec = P (T − | D −) Nilai Prediksi + (Predictive Value +): Yaitu probabilitas seseorang sakit jika hasil tes menunjukkan hasil positif, PV + = P (D+ | T +) Nilai Prediksi - (Predictive Value -): Yaitu probabilitas seseorang tidak sakit jika hasil tes menunjukkan hasil negatif, PV − = P (D− | T −)
Suatu alat yang ideal seharusnya mempunyai nilai sensitivitas dan spesifisitas yang cukup tinggi (mendekati 1). Namun pada prakteknya nilai sensitivitas dan spesifisitas tidak dapat diestimasi, karena memerlukan pengetahuan apakah kenyataannya seseorang menderita penyakit atau tidak. Sedangkan jika sudah diketahui ada tidaknya suatu penyakit tentu saja tidak lagi diperlukan adanya tes diagnostik! Nilai sensitivitas dan spesifisitas hanya dapat diestimasi dengan cara dibandingkan dengan tes lain yang dianggap paling tepat ( gold standar test ). Dalam praktek yang ingin diketahui melalui suatu prosedur diagnostik adalah, apakah suatu tes yang diketahui positif akan dapat memprediksi adanya suatu penyakit, yaitu PV+ prosedur diagnostik tersebut; dan juga PV- dari prosedur diagnostik tersebut. Nilai prediksi positif dapat diturunkan menggunakan Teorema Bayes: PV + = P (D+ | T +)
P (D+ ∩ T +) P (T +) P (D+)P (T + | D+) = P (D+)P (T + | D+) + P (D −)P (T + | D −) Prevalence × Sensitivity = . prev. × sens. + (1 − prev.) × (1 − spec.)
(6.1)
=
(6.2)
(6.3) (6.4)
Demikian pula untuk Nilai prediksi negatif, PV − = P (D− | T −)
P (D− ∩ T −) P (T −) P (D−)P (T − | D−) = P (D−)P (T − | D−) + P (D+)P (T − | D+) (1 − Prevalence) × Specificity = . (1 − prev.) × spec. + prev. × (1 − sens.)
(6.5)
=
(6.6)
(6.7) (6.8)
60
6.2. Sensitivitas, Spesifisitas dan Nilai Prediksi Tabel 6.1: Hasil cytological test
T − D− 23.362 225 D+
T + Total 362 154
23.724 379
Contoh 6.1 Suatu tes sitologi (cytological test ) dilakukan untuk screening kanker rahim pada wanita. Diperoleh data 24.103 wanita yang terdiri atas 379 wanita yang diketahui sudah menderita kanker rahim (dengan tes yang dianggap sebagai gold standar ). Diperoleh data seperti pada Tabel 6.1. Hitung sensitivity dan specificity tes tersebut! Jawab:
sens
154 = 0,406 379 = 40,6%
=
23,362 = 0,985 23,724 = 98,5%
spec =
Hasil estimasi sens dan spec tersebut dapat diinterpretasikan sebagai berikut:
• Jika tes digunakan untuk wanita yang tidak menderita kanker rahim, tes hampir pasti akan negatif ( specificity = 98,5% cukup besar)
• Jika tes digunakan untuk wanita yang menderita kanker rahim, peluang tidak terdeteksi besar ( sensitivity = 40,6 % rendah; false negatif 59,4%)
Suatu alat atau prosedur diagnostik biasnya sudah dilengkapi dengan nilai sensitivitas dan spesifisitas sehingga ketika digunakan untuk diagnosis, nilai prediktivitas positif (PV +) maupun nilai prediktivitas negatif ( PV −) dapat dihitung asalkan nilai prevalensi juga diketahui. Untuk nilai sensitivitas dan spesifisitas yang tertentu dan tetap, semakin besar prevalensi nilai PV + akan semakin besar sedangkan PV − akan semakin kecil. Contoh 6.2 Table 6.2 menyajikan PV + dan PV − yang dihitung berdasarkan persamaan (6.1) dan (6.5) untuk berbagai nilai prevalensi dengan spec=98,5% dan sens=40,6%. Terlihat bahwa PV + dan PV − nilainya terpengaruh oleh prevalensi, semakin besar prevalensi PV + akan semakin besar sedangkan PV − akan semakin kecil.
61
6.3. Kurva ROC Tabel 6.2: Nilai PV + dan PV - untuk berbagai nilai prevalensi prevalensi 0,0010 0,0157 0,0500 0,1000 0,5000
6.3
PV + 0,0264 0,3015 0,5876 0,7505 0,9644
PV 0,999 0,990 0,969 0,937 0,624
Kurva ROC
Kurva ROC (receiver operating characteristic) digunakan apabila respon diagnosis atau (screening test ) lebih dari dua jenis respon atau berupa bilangan kontinu. Kurva ini pada awalnya digunakan di dunia militer untuk penyelidikan tentang deteksi sinyal oleh radar. Kurva ini menghubungkan nilai sensitivitas dengan 1- spesifisitas, dimana titik pada kurva bersesuaian dengan batas cut-off point yang digunakan untuk menentukan tes positif. Area di bawah kurva ROC dapat digunakan untuk menilai keakuratan suatu diagnosis. Semakin besar luasan di bawah kurva ROC, semakin akurat suatu diagnosis. Contoh 6.3 Dari 109 pasien syaraf diperoleh skor hasil interpretasi CT image (computed tomographic image) oleh seorang radiolog seperti pada Tabel 6.3. Status penyakit untuk setiap pasien telah diketahui berdasarkan diagnosis yang dianggap paling benar (gold standard ). Tidak Tabel 6.3: Skor dari radiolog untuk hasil CT image pasien syaraf Status Penyakit (D ) Normal (D−) Abnormal (D+) Abnormal (D+) ∗
(1) 33 3 36
Skor dari radiolog ∗ (2) (3) (4) 6 6 11 2 2 11 8 8 22
(5) 2 33 35
Total 58 51 109
(1) hampir pasti normal; (2) mungkin normal; (3) tidak dapat ditentukan (4) mungkin abnormal;
(5) hampir pasti abnormal
seperti contoh sebelumnya, dalam data ini tidak diberikan kriteria untuk menentukan tes positif atau negatif. Sehingga untuk menentukan sensitivitas maupun spesifitasnya digunakan titik batas (cut-off point ) yang berbeda-beda. Misalnya jika digunakan titik batas suatu pasien dikatakan positif sakit adalah skor 4 ke atas (skor 4 atau 5) maka sensitivitas tes adalah (11 + 33)/51 = 0,86, sedangkan spesifitasnya adalah (33+ 6+ 6)/58 = 0,78. Dengan cara yang sama dapat dihitung sensitivitas maupun spesifitas untuk titik batas yang lain seperti pada Tabel 6.4. Plot antara sensitivitas dengan 1 − spesifisitas adalah kurva ROC untuk skor radiolog ini (Gambar 6.1).
62
6.3. Kurva ROC Tabel 6.4: Sensitivitas dan Specifisitas berdasarkan beberapa kriteria tes positif Kriteria tes positif sensitivitas 1 ≤ skor 1,00 2 ≤ skor 0,94 3 ≤ skor 0,90 4 ≤ skor 0,86 5 ≤ skor 0,65 5 < skor 0,00
spesifitas 0,00 0,57 0,67 0,78 0,97 1,00
(0.43, 0.94)
1-spesifitas 1,00 0,43 0,33 0,22 0,03 0,00 (1.00, 1.00)
(0.33, 0.90) (0.22, 0.86)
s a t i v i t i s n e s
(0.03, 0.65)
(0.00, 0.00)
1-specifisitas Gambar 6.1: Kurva ROC untuk skor radiolog. Hasil suatu tes atau prosedur diagnostikyang berupa data ordinal, interval atau kontinu dapat dianalisis sensitivitas dan sepesifitasnya dengan kurva ROC seperti pada contoh 6.3. Kurva ROC juga dapat digunakan untuk membandingkan beberapa prosedur diagnostik. Prosedur yang paling baik adalah yang mempunyai luas area di bawah kurva ROC yang paling besar. Sebagai contoh pada Gambar 6.2, prosedur diagnostik yang lebih baik adalah yang berupa kurva ROC garis penuh. Luas di bawah kurva ROC dapat dihitung dengan aturan trapezoid. Contoh 6.4 Merujuk contoh 6.3, hitung luas area di bawah kurva ROC dan interpretasinya! Jawab: Luas area LROC di bawah kurva ROC adalah
LROC = 0,5(0 + 0,65)0,03 + 0,5(0,65 + 0,86)(0,22 − 0,03) + 0,5(0,86 + 0,90)(0,33 − 0,22) +0,5(0,90 + 0,94)(0,43 − 0,33) + 0,5(0,94 + 1,0)(1,0 − 0,43) = 0,895
63
6.4. Latihan
s a t i v i t i s n e s
1-specifisitas
Gambar 6.2: Perbandingan Kurva ROC. Dapat disimpulkan bahwa radiolog tersebut dapat membedakan individu yang normal dengan yang abnormal berdasarkan skor CT nya dengan probabilitas sebesar 89,5%.
6.4
Latihan
6.1. Dalam diagnostik atau screening ukuran apakah yang terpengaruh oleh prevalensi? Jelaskan! 6.2. Cara pembandingan apakah yang paling tepat untuk dua macam tes diagnostik yang hasilnya berupa suatu bilangan kontinu nonnegatif (seperti misalnya serum kolesterol, tekanan darah, dst)? Jelaskan! 6.3. Tabel di bawah menunjukkan hasil penggunaan x-ray sebagai tes screening untuk tuberkulosis: Tuberkulosis X-ray Tidak Ya Negatif 1739 8 Positif 51 22 Hitung sensitivitas, spesifisitas dan prevalensi berdasarkan tabel di atas! 6.4. Suatu tes digunakan untuk mendiagnosis pasien Alzheimer’s dan demen-
6.4. Latihan
64
tia. Disease atau D+ pada tabel di bawah ini adalah dementia (kepikunan). skor Tes D− D+ 0–5 0 2 6–10 0 1 11–15 3 4 16–20 9 5 21–25 16 3 26–30 18 1 46 16 (a) Jika digunakan titik batas skor ≤ 20 untuk mengidentifikasi dementia, hitung sensitivitas dan spesifitas tes ini! (b) Buatlah kurva ROC dari tabel data di atas! (c) Hitung area di bawah kurva ROC dan interpretasikan hasilnya!
7 Analisis Data Longitudinal 7.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Mengidentifikasi data longitudinal dalam permasalahan epidemiologi dan penelitian kesehatan 2. Melakukan statistika deskriptif (ringkasan statistik dan grafik) untuk data longitudinal 3. Melakukan inferensi menggunakan model regresi untuk data longitudinal
7.2
Deskripsi Data longitudinal
Banyak penelitian dalam bidang kedokteran, kesehatan dan epidemiologi yang menggunakan desain pengumpulan data longitudinal. Yang dimaksud dengan data longitudinal adalah
• Individu (subyek, unit sampel) diamati dalam suatu periode waktu tertentu lebih dari satu kali
• Pengukuran berulang pada suatu individu (subyek, unit sampel) Data longitudinal mempunyai kelebihan dibandingkan data yang hanya dikumpulkan satu kali saja ( cross-sectional). Keuntungan ini dapat diilustrasikan seperti pada Gambar 7.1. Akan lebih mudah melihat informasi bahwa kemampuan membaca semakin naik atau semakin menurun seiring dengan umur bila individu diamati lebih dari satu kali. Jenis data yang berkaitan dengan data longitudinal diantaranya adalah: 65
66
7.2. Deskripsi Data longitudinal
a c a b m e M n a u p m a m e K
a c a b m e M n a u p m a m e K
Umur Gambar 7.1: Data longitudinal
Umur
• Data Panel • Data Survival, Antar Kejadian ( Event History) • Data Runtun Waktu Beberapa keuntungan menggunakan data longitudinal dibandingkan dengan data cross-sectional:
• Dapat digunakan untuk mengetahui pola perubahan • Setiap individu dapat menjadi kontrol bagi dirinya sendiri • Dapat membedakan efek dari umur dengan efek dari cohort maupun efek dari periode
• Memungkinkan untuk meneliti kausalitas Secara umum data longitudinal mempunyai struktur seperti pada Tabel 7.1. Seperti halnya dalam semua metode statistika, sebelum melakukan analisis perlu dilakukan eksplorasi data. Prinsip eksplorasi data longitudinal di antaranya adalah:
• tampilkan sebanyak mungkin data mentah daripada hanya ringkasannya • tonjolkan pola atau ringkasannya • identifikasilah baik pola cross-sectional maupun longitudinal • identifikasilah individu atau observasi yang tidak biasa ( outliers)
67
7.2. Deskripsi Data longitudinal
Tabel 7.1: Bentuk umum data longitudinal subyek
observasi
waktu
response
kovariat
1 1 .. .
1 2 .. .
t11 t12
y11 y12
x111 x121
... ...
1 2 2 .. .
n1
t1n t21 t22
y1n y21 y22
x1n 1 x211 x221
... ... ...
2 .. .
n1
t2n
y2n
x2n
1
...
t21 t22
ym1 ym2
xm11 xm21
... ...
t2n
ymn
x2m
. . . x mn p
1 2 .. .
m m .. .
.. . 1 2 .. .
m
nm
.. .
1
.. .
1
.. .
.. .
1
.. .
.. .
1
.. .
1
.. .
1
.. .
1
.. .
.. .
1
.. .
1
1
.. .
.. . .. .
.. .
x11 p x12 p .. .
x1n p x21 p x22 p 1
.. .
x2n p 1
.. .
xm1 p xm2 p .. .
1
Paket statistik standard biasanya menyediakan fasilitas untuk data eksplorasi seperti scatter plot matrix dan lowess plot . Dalam bagian ini penggunaan dan interpretasi eksplorasi data longitudinal akan dijelaskan dalam contoh namun teknis pengerjaannya tidak dibahas secara khusus. Contoh 7.1 Suatu studi dilakukan untuk merehabilitasi pasien stroke. Ada 3 perlakuan dalam studi ini, yaitu: A Terapi yang baru B Program rehabilitasi yang sekarang digunakan dalam rumah sakit yang sama C Program perawatan biasa yang dilakukan dalam rumah sakit yang lain Setiap kelompok perlakuan terdiri dari 8 pasien yang diamati selama 8 minggu. Respon yang diperoleh adalah Bartel index, yaitu skor yang menunjukkan kemampuan fungsional pasien, nilai yang tinggi menunjukkan kemampuan yang baik (maksimum 100). Data longitudinal dapat disusun seperti dalam bentuk melebar, yaitu satu baris data menunjukkan satu individu yang dapat diobservasi beberapa kali seperti pada Tabel 7.2. Data longitudinal dapat pula disusun memanjang yang mana satu baris menunjukkan satu observasi pada suatu individu (Tabel 7.3). Bentuk data memanjang ini merupakan bentuk yang biasa digunakan dalam komputasi data longitudinal yang notasi secara umum adalah seperti pada Tabel 7.1.
68
7.2. Deskripsi Data longitudinal Tabel 7.2: Data longitudinal bentuk melebar satu baris per-individu subyek 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
kovariat (perlakuan) A A A A A A A A B B B B B B B B C C C C C C C C
1 45 20 50 25 100 20 30 30 40 65 30 25 45 15 35 40 20 35 35 45 45 25 25 15
respon (pada minggu ke-) 2 3 4 5 6 7 45 45 45 80 80 80 25 25 25 30 35 30 50 55 70 70 75 90 25 35 40 60 60 70 100 100 100 100 100 100 20 30 50 50 60 85 35 35 40 50 60 75 35 45 50 55 65 65 55 60 70 80 85 90 65 70 70 80 80 80 30 40 45 65 85 85 35 35 35 40 45 45 45 80 80 80 80 80 15 10 10 10 20 20 35 35 45 45 45 50 40 40 55 55 55 60 20 30 30 30 30 30 35 35 40 40 40 40 35 35 40 40 40 45 65 65 65 80 85 95 65 70 90 90 95 95 30 30 35 40 40 40 25 30 30 30 30 35 35 35 35 40 50 65
8 90 50 90 80 100 95 85 70 90 80 85 45 80 20 50 65 30 40 45 100 100 40 40 65
0 0 1
A
0 8
B
r 0 o 6 k s
C
0 4 0 2
2
4
6
8
minggu Gambar 7.2: Profile plot Bartel Index selama waktu penelitian dan lowess plot setiap kelompok terapi
69
7.2. Deskripsi Data longitudinal Tabel 7.3: Data longitudinal bentuk memanjang satu baris satu observasi subyek 1 1 1 1 1 1 1 1 .. . 9 9 9 9 9 9 9 9 .. .
observasi (minggu ke-) 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
respon
kovariat (perlakuan)
45 45 45 45 80 80 80 90
A A A A A A A A
... 40 55 60 70 80 85 90 90
B B B B B B B B
...
Respon dari data longitudinal yang berupa Bartel index ini dapat ditampilkan berupa profile plot yaitu plot nilai respon untuk tiap-tiap individu. Untuk melihat kecenderungan kelompok-kelompok dalam data, yang dalam contoh ini adalah jenis terapi A, B dan C, dapat ditampilkan plot yang mewakili masing-masing kelompok menggunakan fungsi penghalusan (smoothing) nonparametrik lowess. Gambar 7.2 adalah profile plot dari respon Bartel index dengan lowess plot untuk kelompok terapi A, B dan C. Terlihat bahwa terapi A mempunyai kemiringan yang paling menonjol dibandingkan terapi yang lain. Untuk melihat korelasi antar minggu pengamatan dihitung korelasi bivariat untuk 8 minggu dan scatterplot matrix nya seperti pada Gambar 7.3. Terlihat bahwa pada minggu pengamatan yang berdekatan korelasi linear antara nilai Bartel index cukup besar.
Untuk data yang berukuran cukup besar, baik banyaknya individu maupun observasi berulangnya dapat digunakan profile plot untuk semua individu dan plot beberapa individu yang dipilih secara random. Sebagai contoh, Gambar 7.4 adalah plot antara banyaknya sel CD4+ dengan waktu sejak zeroconversion untuk penderita AIDS. Karena individu cukup banyak (369 individu dengan total observasi 2376) dalam plot itu selain plot untuk keseluruhan individu, plot untuk beberapa individu yang dipilih secara random juga ditampilkan. Lowess plot keseluruhan individu untuk melihat kecenderungan banyaknya del CD4 juga ditam-
70
7.3. Model Regresi Data longitudinal 20
m1 0 0 1 0 2
80
20 80
20
80
20
80
0,93
0,88
0,83
0,79
0,71
0,62
0,55
m2
0,92
0,88
0,85
0,79
0,70
0,64
m3
0,95
0,91
0,85
0,77
0,70
m4
0,92
0,88
0,83
0,77
m5
0,97
0,91
0,88
m6
0,96
0,93
0 2
0 0 1 0 2
m7 0 0 1
0,98
0 0 1 0 2
0 2
0 2
0 0 1 0 2
m8
0 2
20
80
20 80
20 80
20
80
Gambar 7.3: Scatterplot matrix Bartel Index untuk pasangan 8 minggu pengamatan dan nilai korelasinya
pilkan. Terlihat bahwa banyaknya sel CD4+ menurun sejak pertama kali pasien AIDS didiagnosis menderita penyakit tersebut.
7.3
Model Regresi Data longitudinal
Seperti halnya model regresi biasa, permasalahan ilmiah diformulasikan sebagai model regresi yang terdiri dari variabel respon dan variabel penjelas. Dua hal penting yang perlu diperhatikan, secara alamiah dalam data longitudinal terdapat variabel yang berubah sepanjang waktu ( time-varying explanatory variables) dan korelasi (asosiasi) karena pengukuran berulang pada individu yang sama, atau observasi berulang. Dua hal ini harus dimasukkan dalam pemodelan. Berikut adalah notasi yang digunakan dalam analisis data longitudinal meru juk pada bentuk umum data longitudinal (Tabel 7.1):
71
7.3. Model Regresi Data longitudinal
+ 4 D C l e s a y n k a y n a B
0 0 5 2 0 0 5 1
0 0 5 0
−2
0
2
4
Lama (tahun) sejak seroconversion
Gambar 7.4: Contoh eksplorasi data dengan plot
• Individu: i = 1, . . . , m • Observasi pada individu i: j h = 1, . . . , ni • Total observasi: N =
m i=1
ni
• Waktu observasi aktual: tij • Variabel respon: variabel random
respon observasi
Y ij
yij
i) Yi = (Y i1 , . . . , Yin Y = (Y1 , . . . , Ym )
yi = (yi1 , . . . , yini ) y = (y1 , . . . , ym )
• Variabel independen: T x ij = (xij1 , . . . , x ijp ) , vektor berukuran p × 1 Xi = (xi1 , . . . , xin ), matriks berukuran n i × p i
• Mean Yi untuk individu i: E(Yi ) = µ i
72
7.3. Model Regresi Data longitudinal
• Variansi Yi ; Matriks Kovariansi ni × ni untuk individu i:
vi11 . . . vi1n Var(Yi ) = . . . vijk . . . vin 1 . . . vin n dengan vijk = Cov(Y ij , Y ik )
7.3.1
i
i
i
i
Naive Model
Model ini mengasumsikan semua observasi independen, kemudian model dianalisis seperti regresi linear ganda biasa. Model ini sering disebut pula sebagai pooled analysis, Contoh 7.2 Merujuk ke contoh 7.1, naive model untuk data Bartel index dari hasil terapi pasien stroke adalah sebagai berikut
E(Y i |
Xi )
= β 0 + β 1 X 1i + β 2 X 2i + β 3 X 3i ,
dengan
X 1i =
X 2i =
i = 1, . . . , N
(7.1)
1 i mendapat perlakuan B 0 i mendapat perlakuan selain B 1 i mendapat perlakuan C 0 i mendapat perlakuan selain C
dan X 3i = 1, 2, . . . , 8 adalah minggu pengamatan; banyaknya observasi N = 24 × 8 = 192, yang diperoleh dari 24 pasien (terbagi dalam 3 grup perlakuan) dan diamati selama 8 minggu. Struktur data yang digunakan adalah seperti pada Tabel 7.1 atau 7.3. Karena terapi kemungkinan berinteraksi dengan lamanya minggu pengamatan, model yang memuat interaksi antara terapi dengan waktu menjadi alternatif naive model yang lain seperti di bawah ini:
E(Y i |
Xi )
= β 0 + β 1 X 1i + β 2 X 2i + β 3 X 3i + β 4 (X 1i × X 3i ) + β 5 (X 2i × X 3i ),
(7.2)
i = 1, . . . , N
dengan (X 1i × X 3i ) dan (X 2i × X 3i ) adalah interaksi antara perlakuan dengan waktu. Tabel 7.4 adalah hasil estimasi parameter kedua model tersebut di atas.
73
7.3. Model Regresi Data longitudinal Tabel 7.4: Hasil estimasi naive model (7.1) dan model (7.2) Parameter Model (7.1):
β 0 β 1 β 2 β 3
Estimasi
SE
36,84 -5,63 -12,11 4,76
3,971 3,715 3,715 0,662
29,82 3,35 -0,02 6,32 -1,99 -2,69
5,774 8,166 8,166 1,143 1,617 1,617
Model (7.2):
β 0 β 1 β 2 β 3 β 4 β 5
7.3.2
Model Linear Umum untuk Data Longitudinal
Model linear umum merupakan perluasan dari model linear (ANAVA, Regresi, ANACOVA) dengan bentuk variansi-kovariansi yang lebih umum. Estimasi parameter untuk model ini dapat dilakukan dengan Generalized Least-Squares atau dengan Maximum Likelihood Estimation atau perluasan dari kedua metode tersebut, terutama dalam memodelkan matriks variansi-kovariansinya. Dalam model linear umum ini, data observasi yi merupakan realisasi dari variabel random Yi yang dimodelkan sebagaimana berikut Yi = Xi β + ǫi
(7.3)
dengan Xi adalah ni × p matriks variabel independen β adalah vektor- p koefisien regresi, ǫ i adalah vektor n i sesatan ( error ) yang berdistribusi N (0, V i ) dengan V i adalah ni × ni matriks kovariansi untuk individu i . Model (7.3) dapat ditulis sebagai satu model (tidak menunjuk ke i tertentu) dengan menggabungkan semua observasi menurut kolom (variabel independen dan respon) menjadi Y = Xβ + ǫ
(7.4)
dengan ǫ ∼ N (0, V). Karena antar subyek dianggap independen maka σ 2 V adalah blok diagonal matriks yang terdiri atas n × n blok σ 2 Vi (matriks variansi vektor observasi pada suatu subyek). Dikenal banyak bentuk korelasi antar dua observasi pada satu subyek misalnya korelasi uniform dan eksponensial. Korelasi Uniform mempunyai bentuk Vi = (1 − ρ)I + ρI
(7.5)
74
7.3. Model Regresi Data longitudinal
dengan ρ adalah korelasi I adalah matrik identitas, Jb adalah matriks ni × ni dengan anggota semuanya 1. Dalam model korelasi ini ini antar observasi pada satu individu dianggap tidak independen namun besar korelasinya sama yang diekspresikan sebagai ρ. Korelasi Eksponensial mempunyai bentuk
v jk = σ 2 exp(−φ(| t j − tk |))
(7.6)
dengan v jk = Cov(Y ij , Y ik ). Korelasi eksponensial mengasumsikan bahwa korelasi antar dua pengukuran akan menurun menuju nol seiring dengan membesarnya jarak antar observasi. Contoh 7.3 Merujuk ke contoh 7.1 dan 7.2, dalam contoh ini digunakan model (7.4) untuk menganalisis data Bartel index pada pasien stroke. Model yang digunakan sama seperti (7.1) dan (7.2) namun model korlasinya ditentukan uniform dan eksponensial bukan model korelasi independen Hasil estimasinya dapat dilihat pada Tabel 7.5 ditampilkan bersama dengan estimasi naive model contoh 7.2. Nilai AIC model (7.2) dengan korelasi eksponensial Tabel 7.5: Hasil estimasi naive model dan model linear umum dengan bentuk korelasi uniform dan eksponensial Parameter Naive
Estimasi (SE) korelasi uniform korelasi eksponensial
Model (7.1):
β 0 β 1 β 2 β 3
36,84 (3,971) -5,63 (3,715) -12,11 (3,715) 4,76 (0,662) (AIC=1707,897)
36,84( 7,308) -5,63(10,177) -12,11(10,177) 4,76( 0,282) (AIC=1467,559)
39,96 (7,363) -9,75 (9,935) -16,30 (9,935) 4,62 (0,490) (AIC=1324,897)
29,82 (5,774) 3,35 (8,166) -0,02 (8,166) 6,32 (1,143) -1,99 (1,617) -2,69 (1,617) (AIC=1703,614)
29,82( 7,497) 3,35(10,603) -0,02(10,603) 6,32( 0,467) -1,99( 0,661) -2,69( 0,661) (AIC=1452,715)
33,39( 7,937) -0,12(11,225) -6,23(11,225) 6,08( 0,844) -2,14( 1,193) -2,24( 1,193) (AIC=1320,321)
Model (7.2):
β 0 β 1 β 2 β 3 β 4 β 5
adalah yang terkecil dibandingkan yang lain. Jadi model dengan interaksi antara terapi dengan lama minggun pengamatan dan dengan korelasi antar pengamatan yang semakin mengecil (korelasi eksponensial) adalah yang terbaik.
Data dengan distribusi respon yang lain, misalnya respon biner, cacah dapat dianalisis dengam metode GLM untuk data berkorelasi (data longitudinal) mi-
75
7.4. Latihan
salnya Generalized Estimating Equation (GEE). Alternatif pemodelan yang lain seperti random effects model juga dimungkinkan.
7.4
Latihan
7.1. Mengacu soal nomor 2.6 pada halaman 11, dengan anggapan ada interaksi antara perlakuan dengan waktu, tuliskan model regresi data longitudinal yang perlu untuk dianalisis! 7.2. Tinjau model
Y ij = β 0 + βx ij + ǫij ,
j = 1, . . . , n; i = 1, . . . , m
dengan variabel random ǫ ij mempunyai mean 0.
ˆ, yaitu estimasi kuadrat terkecil untuk β (a) Carilah β ˆ merupakan estimasi yang bias bila model yang (b) Tunjukkan bahwa β benar adalah Y ij = β 0 + β C xi1 + β L (xij − xi1 ) + ǫij 7.3. Diketahui data 30 tikus percobaan yang diberi perlakuan secara random ke dalam tiga grup perlakuan (Tabel 7.6). Grup 1 adalah kontrol berupa air minum biasa, grup 2 adalah thiouracil dalam air minum tikus, grup 3 adalah thyroxin dalam air minum tikus. Thyroxin berpengaruh meningkatkan metabolisme tubuh. Sebailknya thiouracil akan menurunkan metabolisme tubuh. Berat badan tikus diukur dalam interval waktu mingguan sampai mingggu ke-empat. Variabel grup adalah perlakuan, tikus adalah nomor identitas tikus dalam grup bb0, bb1, bb2, bb3, bb4 adalah berat badan tikus mulai awal penelitian samapi minggu ke-empat. (a) Lakukan eksplorasi pada data longitudinal tersebut! (b) Lakukan analisis data longitudinal dan ambil kesimpulan analisisnya!
76
7.4. Latihan
Tabel 7.6: Data berat badan tikus grup 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
tikus 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7
bb0 57 60 52 49 56 46 51 63 49 57 61 59 53 59 51 51 56 58 46 53 59 54 56 59 57 52 52
bb1 86 93 77 67 81 70 71 91 67 82 86 80 79 88 75 75 78 69 61 72 85 71 75 85 72 73 70
bb2 114 123 111 100 104 102 94 112 90 110 109 101 100 100 101 92 95 93 78 89 121 90 108 116 97 97 105
bb3 139 146 144 129 121 131 110 130 112 139 120 111 106 111 123 100 103 114 90 104 146 110 151 148 120 116 138
bb4 172 177 185 164 151 153 141 154 140 169 129 122 133 122 140 119 108 138 107 122 181 138 189 177 144 140 171
8 Analisis Data Survival 8.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Mengidentifikasi data survival dalam permasalahan epidemiologi dan penelitian kesehatan 2. Menjelaskan fungsi-fungsi yang digunakan dalam data survival 3. Melakukan inferensi untuk fungsi survival menggunakan metode KaplanMeier 4. Melakukan analisis data menggunakan regresi parametrik untuk data survival misalnya dengan model regresi Weibull 5. Melakukan analisis data menggunakan regresi Cox untuk data survival
8.2
Fungsi Survival dan Hazard
Fungsi Survival adalah probabilitas satu individu hidup (tinggal dalam suatu status) lebih lama daripada t S (t) = P (T > t) (8.1)
S (t) adalah fungsi non-increasing terhadap waktu t dengan sifat S (t) =
1 0
untuk t = 0 untuk t = ∞
77
(8.1)
78
8.2. Fungsi Survival dan Hazard
0 . 1
8 . 0
) t ( S
6 . 0
4 . 0
2 . 0
0 . 0
0.0
0.5
1.0
1.5
2.0
t
Gambar 8.1: Grafik dua fungsi survival Fungsi survival S (t) mempunyai hubungan dengan distribusi kumulatif F (t) sebagai berikut S (t) = 1 − F (t) (8.1) Penduga untuk S (t) bila data tidak tersensor
ˆ(t) = s S N
(8.2)
dimana s adalah banyaknya individu yang masih hidup lebih lama dari t ; N adalah total banyaknya individu Fungsi Hazard menunjukkan tingkat ( rate) terjadinya suatu event yang didefinisikan sebagai
P (t ≤ T < t + ∆t | T ≥ t) ∆t→0 ∆t
h(t) = lim
(8.2)
Tidak seperti probabilitas yang nilainya antara 0 sampai dengan 1, fungsi hazard dapat bernilai berapa saja asalkan non-negative, h(t) ≥ 0. Gambar 8.2, 8.3, 8.4 dan 8.5 adalah contoh beberapa macam fungsi hazard.
79
8.2. Fungsi Survival dan Hazard
5
4
3 ) t ( h 2
1
0
0.0
0.5
1.0
1.5
2.0
t
Gambar 8.2: Fungsi hazard konstan
5
4
3 ) t ( h 2
1
0
0.0
0.5
1.0
1.5
t
Gambar 8.3: Fungsi hazard naik
2.0
80
8.2. Fungsi Survival dan Hazard
5
4
3 ) t ( h 2
1
0
0.0
0.5
1.0
1.5
2.0
t
Gambar 8.4: Fungsi hazard naik-turun
5
4
3 ) t ( h 2
1
0
0.0
0.5
1.0
1.5
2.0
t
Gambar 8.5: Fungsi hazard bathtub Fungsi hazard h(t), survival S (t) dan fungsi densitas f (t) mempunyai hubungan sebagai berikut
h(t) =
f (t) S (t)
(8.2)
81
8.3. Kaplan-Meier dan Life Table
Kumulatif integral dari fungsi hazards disebut sebagai Hazard Kumulatif
t
H (t) =
h(x)dx
(8.2)
(8.2)
0
Fungsi ini mempunyai hubungan dengan S (t) sebagai berikut
H (t) = − log S (t)
8.3
Kaplan-Meier dan Life Table
Kaplan-Meier merupakan estimator non-parametrik untuk S (t) (sering disebut juga sebagai Product-Limit estimator)
ˆ(t) = S
1
ti ≤t (1
−
jika t < t1 jika ti ≤ t
di ) Y i
dimana d i adalah banyaknya event dan Y i adalah banyaknya individu yang beresiko (number at risk ) Variansi dari KM estimator, sering disebut sebagai Greenwood’s formula, adalah
ˆ(t)] = S ˆ(t)2 var[S
ti ≤t
di Y i (Y i − di )
(8.3)
ˆ(t)] dapat diestimasi dari formulasi berikut Sebagai alternatif (8.3), var[S ˆ(t)] = S ˆ(t)2 var[S
ˆ(t)] [1 − S Y (t)
(8.4)
Nelson-Aalen merupakan estimator untuk fungsi hazard kumulatif H (t) yang merupakan kumulatif dari tingkat kejadian (hazard) sampai periode ke- t:
ˆ (t) = H yang mempunyai variansi
0
di ti ≤t Y i
ˆ H ˆ (t)) = Var(
jika t < t1 jika t i ≤ t
ti ≤t
di Y i2
(8.5)
82
8.3. Kaplan-Meier dan Life Table
Contoh 8.1 Diketahui data survival yang dihitung mulai dari awal pemberian perlakuan sampai pasien meninggal sebagai berikut: 10,12,13,15,16,20,20,24,24,26,26,27,39,42, 45,45,48,52,58,60,61,62,73,75,77,104,120
Hitung estimasi Kaplan-Meier dan Nelson-Aalen! Jawab: Hasil hitungan estimasi Kaplan-Meier dan Nelson-Aalen untuk data di atas ada pada Tabel 8.1. Kolom t , d dan Y pada Tabel adalah seperti yang didefinisikan pada rumus KaplanMeier (8.3) maupun Nelson-Aalen (8.5). Tabel 8.1: Estimasi Kaplan-Meier (KM) dan Nelson-Aalen (NA) No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
t
Y
d
1 − d/Y
ˆ(t) (KM) S
ˆ (t) H
ˆ(t) (NA) S
0 10 12 13 15 16 20 24 26 27 39 42 45 48 52 58 60 61 62 73 75 77 104 120
27 27 26 25 24 23 22 20 18 16 15 14 13 11 10 9 8 7 6 5 4 3 2 1
0 1 1 1 1 1 2 2 2 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1
1 0,963 0,962 0,960 0,958 0,957 0,909 0,900 0,889 0,938 0,933 0,929 0,846 0,909 0,900 0,889 0,875 0,857 0,833 0,800 0,750 0,667 0,500 0,000
1 0,963 0,926 0,889 0,852 0,815 0,741 0,667 0,593 0,556 0,519 0,481 0,407 0,370 0,333 0,296 0,259 0,222 0,185 0,148 0,111 0,074 0,037 0,000
0 0,037 0,075 0,115 0,157 0,201 0,292 0,392 0,503 0,565 0,632 0,703 0,857 0,948 1,048 1,159 1,284 1,427 1,594 1,794 2,044 2,377 2,877 3,877
0,963 0,927 0,890 0,854 0,818 0,747 0,676 0,604 0,568 0,531 0,495 0,424 0,387 0,350 0,313 0,276 0,240 0,203 0,166 0,129 0,092 0,056 0,020
Pertama data survival diurutkan, kemudian diambil hanya nilai tunggalnya saja (unique values). Misalnya 20 yang muncul dua kali, hanya diambil satu saja. Sebagai contoh perhitungan, diambil baris kedua dari Tabel 8.1. Pada saat t = 10 masih ada 27 pasien yang belum mendapatkan kejadian dan hanya ada satu saja yang meninggal, jadi Y = 27 ˆ( 10) = 1 × 0, 963 = 0, 963. dan d = 1. Estimasi Kaplan-Meier saat t = 10 adalah S ˆ ( 10) = 1/27 = 0,037, estimasi Nilai estimasi hazard kumulatif saat t = 10 adalah H
83
8.3. Kaplan-Meier dan Life Table
4 8 . 0 ) t ( S
3 ) t ( H
4 . 0
2 1
0 . 0
0
0 20
60 t
100
0 20
60
100
t
Gambar 8.6: Plot Estimasi Kaplan-Meier dan Nelson-Aalen. nilai survival dengan Nelson-Aalen menggunakan hubungan antara S (t) dan H (t), yaitu ˆ(t) = exp( −H ˆ (t)), atau S ˆ(t) = exp( −0,037) = 0,9636. Plot Kaplan-Meier dan S Nelson-Aalen dapat dilihat pada Gambar 8.6.
Salah satu permasalahan dalam analisis data survival adalah adanya observasi yang tidak lengkap yang dinamakan tersensor ( censored ) dan terpotong ( truncated ). Permasalahan yang sering muncul dalam penelitian prospektif atau cohort biasanya adalah tersensor kanan ( right censored ), yaitu pada saat akhir penelitian, subyek belum mendapatkan kejadian. Estimasi Kaplan-Meier maupun NelsonAalen dapat digunakan untuk data yang tidak lengkap seperti ini tanpa perlu mengestimasi terlebih dahulu data yang tersensor. Contoh 8.2 Dipunyai data survival pasien untuk dua kelompok perlakuan sebagai berikut: Grup 1 (n = 21) perlakuan Grup 2 (n = 21) placebo 6, 6, 6, 7, 10, 13, 16, 22, 23, 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 6+, 9+, 10+, 11+, 17+, 19+, 20+, 11, 11, 12, 12, 15, 17, 22, 23 25+, 32+, 32+, 34+, 35+ tanda + menunjukkan tersensor kanan Dapat dihitung estimasi Kaplan-Meier untuk kelompok terapi adalah seperti pada Tabel 8.2. Pada data yang tersensor kanan, nilai t diambil untuk yang mendapatkan kejadian saja, dengan kata lain nilai t yang diberi tanda + tidak dipakai dalam penghitungan Kaplan-Meier (kecuali ada nilai yang sama yang tidak tersensor, misalnya 6 dan 10 dalam contoh ini).
84
8.4. Membandingkan Distribusi Survival Tabel 8.2: Estimasi Kaplan-Meier untuk grup terapi
t
Y
d
ˆ(t) S
6 7 10 13 16 22 23
21 17 15 12 11 7 6
3 1 1 1 1 1 1
0.857 0.807 0.753 0.690 0.627 0.538 0.448
0 . 1 8 . 0
terapi ) t ( S
6 . 0 4 . 0 2 . 0
placebo
0 . 0
0
5
10
15
20
t
Gambar 8.7: Plot Estimasi Kaplan-Meier untuk terapi dan placebo data tersensor kanan. Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat pada Gambar 8.7. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih tinggi,dibandingkan grup placebo.
8.4
Membandingkan Distribusi Survival
Membandingkan dua populasi yang masing-masing mempunyai fungsi survival S 1 (t) dan S 2(t). Hipotesis nol untuk uji ini adalah H 0 : S 1 (t) = S 2(t) dengan
8.4. Membandingkan Distribusi Survival
85
hipotesis alternatif
H 1 : S 1 (t) > S 2 (t) H 1 : S 1 (t) < S 2 (t) H 1 : S 1 (t) = S 2 (t) Untuk menguji hipotesis tersebut beberapa Metode Non-parametrik untuk data yang tidak tersensor seperti metode Wilcoxon, Mann-Whitney dan Sign test dapat digunakan. Sedangkan untuk data tersensor prosedur yang dapat digunakan diantaranya: Gehan’s generalized Wilcoxon test , the Cox-Mantel test , the logrank test, Peto and Peto’s generalized Wilcoxon test , Cox’s F-test , Gehan’s generalized Wilcoxon test , the Cox-Mantel test , the logrank test (1972), Peto and Peto’s generalized Wilcoxon test , dan Cox’s F-test . Satu metode yang akan dibahas dalam bagian ini adalah Log-rank Test . Log-rank Test
Prosedur ini didasarkan pada banyaknya observed dan expected event pada setiap event-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistik pengujinya adalah:
(O1 − E 1 )2 (O2 − E 2 )2 W = + E 1 E 2
(8.6)
dengan W ∼ χ2 (df = 1). H 0 ditolak dengan tingkat signifikasni α bila W > χ2 (1 − α, df = 1). Contoh 8.3 Merujuk ke Contoh 8.2, akan diuji apakah fungsi survival grup terapi berbeda dengan grup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 8.3 untuk digunakan dalam penghitungan 8.6. Ekspektasi e 1 dan e 2 diperoleh dengan cara mengalikan probabilitas kematian pada tiap-tiap grup ( Y 1 /(Y 1 + Y 2 ) dan Y 2 /(Y 1 + Y 2 ) ) dikalikan total kejadian (d1 + d2 ), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian pada baris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup. Diperoleh statistik
W = =
(O1 − E 1 )2 (O2 − E 2 )2 + E 1 E 2 2 (9 − 19, 26) (21 − 10, 74)2 + = 15,267 19, 26 10, 74
yang jauh lebih besar dari nilai daerah kritik 3,8414 atau mempunyai p-value yang cukup kecil. jadi dapat disimpulkan H 0 ditolak atau dua kurva survival tersebut berbeda.
86
8.5. Model Regresi Data Survival Tabel 8.3: Penghitungan untuk Uji log-rank
8.5
t
d1
d2
Y 1
Y 2
1 2 3 4 5 6 7 8 10 11 12 13 15 16 17 22 23 Total
0 0 0 0 0 3 1 0 1 0 0 1 0 1 0 1 1 9
2 2 1 2 2 0 0 4 0 2 2 0 1 0 1 1 1 21
21 21 21 21 21 21 17 16 15 13 12 12 11 11 10 7 6
21 19 17 16 14 12 12 12 8 8 6 4 4 3 3 2 1
e1 (21/42) × 2 (21/40) × 2 (21/38) × 1 (21/37) × 2 (21/35) × 2 (21/33) × 3 (17/29) × 1 (16/28) × 4 (15/23) × 1 (13/21) × 2 (12/18) × 2 (12/16) × 1 (11/15) × 1 (11/14) × 1 (10/13) × 1 (7/9) × 2 (6/7) × 2
e2 (21/42) × 2 (19/40) × 2 (17/38) × 1 (16/37) × 2 (14/35) × 2 (12/33) × 3 (12/29) × 1 (12/28) × 4 (8/23) × 1 (8/21) × 2 (6/18) × 2 (4/16) × 1 (4/15) × 1 (3/14) × 1 (3/13) × 1 (2/9) × 2 (1/7) × 2
19,26
10,74
Model Regresi Data Survival
Permasalahan dalam biostatistika dan epidemiologi biasanya melibatkan lebih dari satu variabel atau faktor. Demikian pula untuk data survival, diperlukan model regresi untuk data survival yang dapat digunakan untuk permasalahan yang lebih luas dari hanya pembandingan kurva survival saja. Model regresi data survival tersebut di antaranya
• AFT (accelerated failure-time model) • model hazard proporsional • model hazard aditif Dalam bagian ini akan dibahas dua model regresi survival yaitu AFT dan model hazard proporsional, khususnya model regresi Cox. Setiap model regresi survival dapat direpresentasikan sebagai fungsi hazard, fungsi survival maupun fungsi hazard kumulatif. Berikut ini berturut-turut adalah fungsi hazard, survival dan hazard kumulatif untuk model AFT.
h(t | X) = h 0 (exp(Xβ)t) exp(Xβ), S (t | X) = S 0 (exp(Xβ)t),
(8.7) (8.8)
87
8.5. Model Regresi Data Survival
H (t | X) = H 0 (exp(Xβ)t)
(8.9)
dengan X adalah matriks ( n × p) dari variabel penjelas; β T = (β 1 . . . β p ) adalah vektor ( p × 1) parameter regresi; h0 adalah baseline hazard, H 0 adalah baseline hazard kumulatif dan S 0 adalah baseline survival. Model AFT juga dapat direpresentasikan sebagai log T sebagai berikut
log T = µ + Xα + σǫ
(8.10)
dengan αT = (α1 . . . α p ) dan µ adalah parameter regresi; ǫ adalah suku error berdistribusi tertentu dan σ > 0 adalah suatu parameter skala. Model hazard proporsional didasarkan pada asumsi bahwa proporsi antara dua kelompok atau dua orang mempunyai hazard yang tetap dan independen terhadap waktu. Misalkan ada dua orang yang masing-masing mempunyai hazard λ1 = 0, 1 dan λ 2 = 0, 3, maka hazard ratio antara dua orang tersebut adalah:
λ2 λ1 0, 3 = =3 0, 1
HR =
Model hazard proporsional dapat dimodelkan secara paramterik maupun non tau semi-parametrik. Model hazard proporsional semi-parametrik sering dinamakan sebagai Model regresi Cox. Berikut ini berturut-turut adalah fungsi hazard, survival dan hazard kumulatif untuk model regresi Cox.
h(t | X) = h0 (t)exp(Xβ)
(8.11)
S (t | X) = S 0 (t)exp(Xβ) H (t | X) = H 0 (t) exp(Xβ)
(8.12)
(8.13)
dengan X, β , h0 , S 0 dan H 0 sama seperti yang didefinisikan pada model AFT. Parameter dalam regresi Cox dapat diinterpretasikan sebagai hazard ratio. Misalkan diberikan model regresi Cox dengan satu variabel independen
h(t | x) = h0 (t)exp(xβ ) dengan
x =
0 placebo 1 obat baru
88
8.6. Latihan
maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah
h(t | x = 1) h(t | x = 0) h0 (t)exp(1 × β ) = h0 (t)exp(0 × β ) = exp(β )
HR =
Interpretasinya, jika β = 0 maka obat baru dan placebo sama efeknya. Namun jika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo (resiko kematian lebih rendah). Kemudian jika β > 0 obat baru memberikan efek yang lebih buruk daripada placebo (resiko kematian lebih tinggi) Secara umum nilai estimasi β dapat digunakan untuk mengidentifikasi faktor resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen time-to-event T . Kebanyakan program statistik standar seperti SPSS, R, STATA, SAS dan ˆ dan standard error nya. Minitab dapat mengestimasi nilai β
8.6
Latihan
8.1. Diketahui T berdistribusi Uniform
f (t) =
1/θ untuk 0 ≤ t ≤ θ 0 t yang lain
(i) fungsi survival S (t); dan (ii) fungsi hazard h(t) untuk variabel random tersebut! Carilah:
8.2. Diketahui data survival sebagai berikut: grup 1 : 5 1 2 2 7 6 grup 2 : 8+ 10 4+ 4 3+ dengan ”+” adalah tanda untuk data tersensor kanan. (a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan Nelson-Aalen untuk masing-masing grup (b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan menggunakan logrank test ( α = 0,025) 8.3. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik. Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit kronis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kronis (grup 1) diperoleh data
8.6. Latihan
89
Grup 1 (n = 25) Grup 2 (n = 25) 12,3+, 5,4, 8,2, 12,2+, 11,7, 5,8, 2,9, 8,4, 8,3, 9,1, 4,2, 4,1, 10,0, 5,7, 9,8, 2,6, 11,0, 9,2, 1,8, 3,1, 11,4, 2,4, 1,4, 5,9, 1,6, 12,1+, 6,6, 2,2, 1,8, 10,2, 10,7, 2,8, 4,9, 3,5, 6,5, 9,9, 3,6, 5,2, 11,1, 5,3, 3,5, 9,2, 2,5, 8,7, 3,8, 8,8, 7,8, 4,7, 3,9 3,0 tanda + menunjukkan tersensor kanan
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan gambarlah estimasi fungsinya (b) Ujilah bahwa survival kedua grup tersebut berbeda dengan menggunakan logrank test ( α = 0,025) (c) Gunakan regresi Cox untuk menganalisis data tersebut, dan bandingkan hasilnya dengan uji log-rank 8.4. Data di bawah ini adalah lama hidup 42 pasien leukemia yang mana setengah di antaranya mendapatkan terapi baru dan yang lainnya mendapatkan terapi standar. Variabel ID adalah nomor identitas pasien; lama adalah lama survival dalam minggu; relapse adalah indikator meninggal atau tidak (1=meninggal, 0=tidak); jk adalah jenis kelamin (1=laki-laki, 0=perempuan); log WBC adalah nilai log dari banyaknya sel darah putih; dan Rx adalah terapi (1=terapi standar, 0=terapi baru). (a) Lakukan analisis KM untuk variabel terapi! (b) Kategorikan variable log WBC menjadi: rendah jika (02,30), sedang jika (2,313,00) atau tinggi jika (> 3,00). Lakukan analisis KM untuk variabel bentukan dari log WBC ini! (c) Gunakan regresi untuk data survival (regresi Cox atau yang lain) untuk menganalisis pengaruh terapi, log WBC dan jenis kelamin!
90
8.6. Latihan
Tabel 8.4: Data lama survival pasien lekuemia ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
lama 35 34 32 32 25 23 22 20 19 17 16 13 11 10 10 9 7 6 6 6 6 23 22 17 15 12 12 11 11 8 8 8 8 5 5 4 4 3 2 2 1 1
relapse 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
jk 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 1 1 1
log WBC 1.45 1.47 2.20 2.53 1.78 2.57 2.32 2.01 2.05 2.16 3.60 2.88 2.60 2.70 2.96 2.80 4.43 3.20 2.31 4.06 3.28 1.97 2.73 2.95 2.30 1.50 3.06 3.49 2.12 3.52 3.05 2.32 3.26 3.49 3.97 4.36 2.42 4.01 4.91 4.48 2.80 5.00
Rx 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
9 Konsultasi Statistika 9.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan aktivitas konsultasi statistik 2. Melakukan konsultasi statistik dengan klien adalah pelaku penelitian di bidang epidemiologi, kesehatan dan ilmu hayati 3. Melakukan analisis data dengan menggunakan suatu paket statistik 4. Memanfaatkan teknologi informasi dalam kegiatan konsultasi statistik 5. Mengidentikasi metode yang tepat untuk suatu permasalahan atau data dalam bidang epidemiologi, kesehatan dan ilmu hayati, melakukan analisis data dan mengkomunikasikannya hasilnya
9.2
Konsultan Statistik
Konsultan Statistik merupakan profesi yang mungkin akan menjadi pilihan lulusan program studi Statistika. Permasalahan yang dikonsultasikan oleh klien biasanya adalah:
• Desain penelitian dan ukuran sampel • Prosedur analisis statistik yang tepat • Penggunaan program komputer • Interpretasi hasil analisis statistik 91
9.3. Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi
92
Selain konsultasi ( consulting) dikenal juga istilah kolaborasi ( collaboration). Permasalahan dalam pekerjaan kolaborasi hampir sama dengan konsultasi tetapi dalam kolaborasi biasanya statistisi lebih terlibat dan bertanggung-jawab secara penuh. Dalam suatu proyek penelitian sebagai kolaborator, statistisi biasanya berhak mendapatkan authorship dalam penulisan laporan atau artikel ilmiah. Dari semua aktivitas konsultasi, komunikasi informasi statistik ke bidang lain merupakan tantangan bagi statistisi.
9.3
Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi
Dalam pekerjaan konsultasi, statistisi sering memerlukan alat bantu seperti perangkat lunak ( software) statistik dan teknologi informasi. Banyak perangkat lunak statistik yang dapat membantu seperti SPSS, Minitab, STATA, SPLUS, SAS, R yang lebih merupakan perangkat lunak untuk keperluan analisis data secara umum, termasuk untuk biostatistika dan epidemiologi. Ada pula perangkat lunak yang khusus untuk pekerjaan di bidang biostatistika dan epidemiologi seperti misalnya EPI-INFO. Tentang penggunakan perangkat lunak ini, ada komentar yang perlu mendapat perhatian The good news is that statistical analysis is becoming easier and cheaper. The bad news is that statistical analysis is becoming easier and cheaper. (Hofacker, 1983) Yang memberi peringatan kepada pengguna perangkat lunak statistik bahwa perangkat lunak hanyalah alat, bisa berguna dan bisa justru berbahaya. Oleh karena itu statistisi seharusnya benar-benar menguasai alat dan metode yang digunakan. Keuntungan menggunakan perangkat lunak statistik dibandingkan melakukan secara manual di antaranya:
• Akurasi dan kecepatan • Fasilitas dan metode yang digunakan lebih banyak • Grafik • Fleksibel • Manipulasi variabel mudah • Volume data besar
9.3. Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi
Akses
93
Olah
Data
Presentasi
Analisis
Gambar 9.1: Fasilitas atau Kemampuan yang diperlukan dari Perangkat Lunak Statistik
• Transfer data mudah Secara umum perangkat lunak statistik setidaknya mempunyai kemampuan Akses: Memasukkan data (entry data), mengambil data (dari format data yang lain) Olah: Mengurutkan, menyeleksi, mentransformasi, mengambil subset data, menambah data Presentasi: Membuat deskripsi data, tabel, grafik, ringkasan-ringkasan statistik Analisis: Melakukan analisis data berdasarkan teori, metode-metode statistika tertentu atau metode-metode kuantitatif yang lain
yang dapat digambarkan seperti pada Gambar refgb:alat Tahapan analisis data menggunakan komputer meliputi: 1. Data collection 2. Data entry 3. Data checking 4. Data screening 5. Data analysis
9.4. Ringkasan Metode dan Topik Lanjut
94
6. Checking results 7. Interpretation Selain itu sebagai konsultan statistik di bidang epidemiologi, kedokteran dan ilmu hayati, statistisi setidaknya mengenal berbagai sumber informasi di bidang tersebut, misalnya berupa online-reference dari interner seperti http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed
Informasi lain pada jaman teknologi informasi ini lebih mudah dan dapat diakses melalui berbagai fasilitas pencarian di internet.
9.4
Ringkasan Metode dan Topik Lanjut
Sebagian besar metode statistik yang digunakan sebagai alat analisis dalam penelitian di bidang kedokteran, ilmu hayati dan epidemiologi dan sebagian diantaranya sudah dibahas dalam diktat ini dapat diringkas seperti pada Tabel 9.1. Masih banyak metode lain yang tidak semuanya disebutkan dalam ringkasan. Misalnya metode-metode nonparametrik padanan metode parametrik di atas. Selain itu, masih banyak masalah yang memerlukan pengembangan metode baru atau modifikasi metode. Misalnya beberapa desain seperti case-cohort , casecontrol memerlukan modifikasi metode regresi logistik dan regresi Cox.
9.5
Latihan
9.1. Apakah saudara pernah melakukan kegiatan semacam konsultasi statistika (profit maupun non-profit)? Bila pernah, sebutkan dalam bidang masalah apa (epidemologi, pertanian, teknik, dst.) dan metode statistik yang digunakan (Pilih satu saja bila pernah melakukan lebih dari satu kali kegiatan konsultasi). 9.2. Carilah klien yang mempunyai permasalahan penelitian atau pekerjaan di bidang epidemiologi, kedokteran atau ilmu hayati. Untuk lingkungan di perguruan tinggi klien dapat berasal dari fakultas kedokteran, kesehatan masyarakat, keperawatan, farmasi, kedokteran gigi, biologi dan kedokteran hewan. Dapat juga dari instansi atau lembaga penelitian di bidang kesehatan. Lakukan konsultasi dengan klien, tuliskan laporan dan presentasikan. 9.3. Sebuah studi akan dilakukan untuk mengetahui apakah manajemen (penanganan) terpadu untuk anak balita sakit memang efektif meningkatkan cakupan banyaknya anak yang tertangani di puskesmas, meningkatkan kepuasan
9.5. Latihan
95
pasien terhadap pelayanan kesehatan di puskesmas dan mengurangi mortalitas balita. Apabila saudara diminta menjadi konsultan statistik studi ini apa saja yang direncanakan mulai dari desain studi sampai dengan kemungkinan analisis yang dapat digunakan 9.4. Dari hasil pencarian di pubmed central1 , metode statistik apa yang saudara temukan paling populer? Menurut saudara mengapa metode tersebut populer digunakan di bidang epidemiologi dan penelitian kesehatan?
1
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed
96
9.5. Latihan
Tabel 9.1: Ringkasan Metode Respon Kontinu
Biner
Variabel penjelas Biner Nominal, 2 kategori atau lebih Ordinal Kontinu Nominal dan kontinu Kategorik dan kontinu Kategorik Kontinu
Nominal, 2 kategori atau lebih Ordinal Cacah
Durasi (survival) Respon berkorelasi
Kategorik dan kontinu Nominal Kategorik dan kontinu Kategorik dan kontinu Kategorik Kategorik dan kontinu Biner Kategorik dan kontinu Kategorik dan kontinu
Metode t-test, z-test ANAVA ANAVA Regresi Ganda Analisis Kovariansi Regresi Ganda Tabel kontingensi Regresi Logistik Regresi Logistik, probit atau model dose-response Regresi Logistik Tabel kontingensi Regresi Logistik Nominal Regresi Logistik Ordinal Model Log-linear, Regresi Poisson Regresi Poisson Log-rank test Survival analysis Generalized Estimating equation Multilevels model Analisis Data Longitudinal Analisis Data Panel
View more...
Comments