Statistik Deskriptif
September 17, 2022 | Author: Anonymous | Category: N/A
Short Description
Download Statistik Deskriptif...
Description
BIOSTATISTIK I (DESKRIPTIF) – (DESKRIPTIF) – SEMESTER SEMESTER 3 A. Pengantar Biostatistik Pengertian Statistik Ilmu, prinsip, dan metode dalam pengumpulan, analisis, penyajian, dan interpretasi data. Data merupakan informasi yang digunakan untuk menggambarkan situasi dari suatu peristiwa. Data juga dapat digunakan untuk menyimpulkan suatu hal. Metode Statistik Statistik Matematik (Mathematica (Mathematicall Statistics) Statistics) Statistik Terapan ( Applied Applied Statistics) Statistics) -> Biostatistik Jenis Analisis Statistik Statistik Analisis Deskriptif - To describe untuk describe untuk menggambarkan data - To summarize untuk summarize untuk merangkum data - To present untuk untuk menyajikan data - To interprete untuk interprete untuk interpretasi data Jadi analisis deskriptif hanya terbatas pada 4 hal tersebut saja. Contoh pertanyaan yg dpt dijawab dgn analisis deskriptif “Berapa jumlah kunjungan kunjungan di Poli KIA-KB Puskesmas Puskesmas X dalam sa satu tu bulan? ”” “Berapa lama waktu kerja perawat di RS X selama seminggu?” Hal2 yg perlu diperhatikan dalam statistik deskriptif antara lain nilai yg paling mewakili, distribusi data, variasi/sebaran data, penyajian data, perbandingan data, dan interpretasi data yang informatif. Analisis Inferensial - To infer untuk untuk mengambil kesimpulan - To explore relation untuk mencari/menganalisis hubungan antar variabel - To compare untuk compare untuk membandingkan membandingkan - To explore causality untuk untuk mencari/menganalisis hub sebab-akibat antar variabel Jadi, analisis inferensial diperlukan ketika kita memerlukan keempat hal tsb di atas. Contoh pertanyaan yg dpt dijawab dgn analisis inferensial i nferensial ” Apakah perilaku perilaku merokok merokok dapat meningkatkan meningkatkan risiko penyakit jantung koroner?” “Apakah ada peningkatan pengetahuan ibu tentang ASI dari sebelum dan sesudah diberikan penyuluhan?” Poin2 penting dalam statistik inferensial antara lain dapat menggambarkan keadaan dari populasi secara keseluruhan meskipun hanya berdasarkan data dari sampel, data sampel yang digunakan utk generalisasi harus representatif, cara atau metode yg digunakan adalah estimasi dan uji hipotesis, konsep peluang/probabilitas merupakan konsep dasar dari statistik inferensial. Peranan Statistik dalam Kesehatan Masyarakat
Menentukan derajat kesmas
Menentukan determinan faktor Identifikasi faktor risiko
Surveilans
Perencanaan/evaluasii program kesehatan Perencanaan/evaluas
B. Pengenalan Populasi, Sampel, Data, dan Variabel Pengertian Populasi Populasi adalah kumpulan individu atau obyek lain yg memiliki setidaknya satu karakteristik yg sama dan pada suatu waktu menjadi kelompok yang diminati oleh peneliti. Populasi dapat dibagi menjadi 2 yaitu populasi target dan populasi terjangkau. terj angkau.
Populasi Target
Merupakan populasi yang memenuhi kriteria yang diinginkan peneliti. Nantinya peneliti berharap hasil penelitiannya dapat digeneralisasikan pada populasi target.
Populasi Terjangkau
Merupakan sebagian dari populasi target yang dapat dijangkau oleh peneliti. Umumnya dibatasi oleh wilayah administrasi seperti kabupaten/kota, kecamatan, desa atau institusi seperti rumah sakit, puskesmas, dan klinik. Beberapa populasi terjangkau nantinya akan diambil untuk dijadikan sampel dalam penelitian Pengertian Sampel dan Istilah Lain yang Terkait Terkait Sampel merupakan bagian dari populasi terjangkau yang dipilih oleh peneliti untuk diikutsertakan dalam penelitian. Sampel juga sering disebut subyek penelitian, responden, atau peserta.
Sampling
Proses pemilihan sampel untuk diikutsertakan dalam penelitian Sampling Frame Frame Daftar dari semua individu dalam populasi dimana sampel itu diambil
Random/ Acak Acak
Masing-masing individu pada populasi memiliki kesempatan/peluang yang sama untuk terpilih menjadi sampel dalam penelitian
Representatif
Sampel dapat mewakili keseluruhan individu dalam populasi
Parameter
populasi.. Ingat P untuk parameter dan Nilai angka atau hasil pengukuran/perhitungan dari suatu populasi populasi
Statistik
sampel.. Ingat S untuk statistik dan sampel Nilai angka atau hasil pengukuran/perhitungan pengukuran/perhitungan dari suatu sampel Hubungan Populasi Target, Populasi Terjangkau, dan Sampel Contoh: peneliti ingin mengetahui lama waktu sembuh pasien katarak pasca-operasi Populasi Target : Semua pasien katarak Populasi Terjangkau : Semua pasien katarak yang dirawat di RSUP Sanglah Bulan Juli – Juli – Desember Desember 2018 Sampel : Pasien katarak yang dipilih dari pop terjangkau. Misal dari 200 pasien hanya diambil 80 sampel
Representativitas Sampel Representativitas sampel bergantung dari
Teknik sampling Jumlah sampel yg tetap bertahan/merespon dalam penelitian (lost to follow up/response rate) Makin besar sampel, maka sampel tersebut semakin representatif meskipun tidak selalu
Langkah-langkah Langkah-langk ah paling efektif untuk menjaga representativitas sampel antara llain ain
Randomization
Random selection Random assignment
Intinya sampel dipilih secara random utk menjaga sampel tetap representatif. Teknik Sampling
1. 2. 3. 4. 5. 6.
Random Sampling Setiap orang dalam populasi memiliki peluang yang sama untuk terpilih menjadi sampel dalam penelitian. Random sampling dapat meningkatkan representativitas sampel pada populasi Simple Random Sampling Stratified R.S. Systematic R.S. Multistage R.S. Cluster S. PPS
Non-random Sampling Setiap individu dalam populasi tidak memiliki peluang yg sama utk jadi sampel dalam penelitian. Tidak ada kerangka sampel. Mengurangi representativitas sampel Purposive Sampling Convenient S. Consecutive S. Quota S. Snowballing etc
Besar Sampel Besar sampel sangat bergantung dari desain penelitian, variasi dalam populasi, teknik sampling, response level, tingkat kepercayaan (confidence level). Kriteria Sampel Inklusi : mewakili atau menggambarkan populasi target Eksklusi : kontraindikasi, kontrol variabel perancu, menjamin kualitas data Pengertian Data Bahan dasar (raw material) dari data adalah angka. Angka tersebut dapat diperoleh dari hasil pengukuran atau perhitungan. Berdasarkan Berdasarkan sumbernya, data dapat dibagi menjadi 2 yaitu data primer dan data sekunder. Data Primer Merupakan data yang dikumpulkan langsung oleh peneliti dari sumber pertama atau di lokasi penelitian. Data primer dikumpulkan melalui wawancara, survei, observasi. Data Sekunder Merupakan data yang dikumpulkan oleh pihak lain atau dari sumber yang sudah ada. Contohnya rekam medis, data register pasien di RS.
Pengertian Variabel Variabel Variabel adalah seluruh karakteristik dari individu yang diukur, diobservasi atau dicatat. Contoh variabel yaitu umur, tinggi badan, dan berat badan. Perbandingan Variabel, Data, dan Statistik Statistik
Jenis-jenis Variabel Variabel
*skala interval = tidak punya 0 absolut shg nilainya bs dibawah nol seperti suhu skala rasio = punya nilai 0 absolut shg nilainya tidak bs dibawah nol contoh BB dan TB Statistik Deskriptif Nominal : Frekuensi, distribusi, dan proporsi Ordinal : Sama spt nominal namun ditambah median Interval & Ratio : Ditambah lagi dengan Mean dan SD
Jenis Data Menurut Hubungan
2 =================================== ================================= End of Chapter 2 ===================================
C. Analisis Deskriptif dan Penyajian Data Numerikal Analisis Statistik Deskriptif Data Numerik Beberapa jenis statistik deskriptif yang digunakan untuk menganalisis data numerikal adalah sebagai berikut. Mean (rerata) dipakai (rerata) dipakai meringkas data numerikal berdistribusi normal nor mal Median dipakai Median dipakai meringkas data yang tidak berdistribusi normal Standar Deviasi/SD (simpang Deviasi/SD (simpang baku) dipakai meringkas sebaran data yang berdistribusi normal IQR (inter IQR (inter quartile range) dipakai menggambarkan sebaran data tidak normal Penyajian Data Numerikal Numerikal Statistik Tendensi sentral, sebaran, percentile, decile, quartil Tabel Distribusi Frekuensi tunggal Distribusi Frekuensi berkelompok
Grafik Histogram, Boxplot, Scatter plot, stem and leaf plot Penjelasan Lanjutan Statistik Deskriptif 1. Tendensi Sentral Mean (Rerata/Average) (Rerata/Average) Ciri-ciri dari mean yaitu, unik dan hanya ada satu dalam data, mudah dimengerti, sangat dipengaruhi oleh nilai ekstrim. Mean digunakan dalam analisis deskriptif data numerik yang berdistribusi normal normal Median (Nilai Tengah) Tengah) Rumus: Median = data ke (n+1)/2 ; n adalah jumlah data data Cth: Diketahui n = 15, maka median dari data tersebut terletak pada data ke (15+1)/2 = data ke 8 Diketahui n = 10, maka median dari data tersebut terletak pada data ke (10+1)/2 = data ke 5,5 Ciri median yaitu unik, mudah dimengerti dan dihitung, tidak terlalu dipengaruhi oleh nilai ekstrim. Median digunakan untuk analisis deskriptif data numerik yang tidak berdistribusi normal Modus (Nilai yang Paling Sering Muncul) Modus Muncul) Modus menggambarkan data kualitatif, misalnya pasien pada klinik kesehatan jiwa dalam satu tahun datang dengan bermacam2 diagnosis, ada yang mental retardation, organis brain syndrome, neurosis dan personality disorder. Diagnosis yang paling sering ditemukan padasemua pasien yg datang dalam 1 tahun tersebut disebut modus. 2. Distribusi Data Data Distribusi data adalah…. Fungsinya adalah…. adalah…. Indikator Distribusi Data Data berdistribusi normal jika mean, median, dan modus berhimpit atau nilainya sama. Selain itu, data yg berdistribusi normal juga dapat ditunjukkan oleh bentuk kurva yang simetris seperti contoh di bawah
Sebaliknya, data tidak berdistribusi normal jika mean, median, dan modus tidak berhimpit atau nilainya tidak sama. Selain sama. Selain itu, data yg tidak berdistribusi normal juga dapat ditunjukkan oleh bentuk kurva yang tidak simetris (skewed (skewed ) seperti contoh di bawah
Distribusi data menceng ke kanan jika mean lebih besar dari median. Arah menceng/skew bisa dilihat dari ekor kurva tersebut (positive skewed)
Distribusi data menceng ke kiri jika mean lebih kecil dari median. Arah menceng/skew bisa dilihat dari ekor kurva tersebut (negative skewed) Skewness Menunjukkan apakah distribusi datanya simetris atau tidak simetris. Simetris -> distribusi normal (right half and left half of the graph are a mirror mir ror images of each other) Tidak simetris Data menceng kanan/mengekor di kanan (positive skewed) Data menceng kiri/mengekor di kiri (negative skewed) Nilai skewness data yang berdistribusi normal adalah 0 Kurtosis Gampangnya, kurtosis adalah tingkat keruncingan dari suatu kurva distribusi yg biasanya diukur relatif terhadap kurva distribusi normal (berbentuk bell). Data yg berdistribusi normal biasanya memiliki nilai kurtosis 3 3. Ukuran Sebaran/Variabilitas Kenapa perlu sebaran? Memahami variasi data dan karakteristik data (menyebar dgn lebar atau cenderung menyempit). Variasi nilai satu ke lainnya atau ke titik pusatnya. Range Range Range= nilai terbesar-terkecil Standar Deviasi/SD Deviasi/SD Mengukur variasi/ sebaran nilai setiap observasi terhadap mean. Contoh SD 5 mean 3 artinya data terdistribusi pada mean +/- 5 yaitu atara 3 sampai 8 atau -2 sampai 3.
RUMUS STANDAR DEVIASI
atau Variance = SD2 Koefisien Variasi/Coefficient Variation (CV) (CV)
Untuk membandingkan variabilitas data dengan 2 unit pengukuran yang berbeda. Contohnya untuk membandingkan data dengan alat ukur yang berbeda (misal bb siswa SD vs bb siswa SMA). Standar Deviasi akan lebih besar pada BB anak SMA daripada SD karena BB nya yg lebih besar, bukan karena sebarannya yg lebih besar/ beragam/bervariasi. Oleh karena itu nilai Standar Deviasi keduanya tidak bisa dibandingkan secara langsung, perbandingan dapat dilakukan dengan mencari koefisien variasi/CV terlebih dahulu. Contoh lain dari penerapan CV adalah sebagai berikut
Dari data tersebut kita bisa melihat bahwa range dan standar deviasi dari variabel tinggi lebih besar daripada variabel berat. Namun, apakah kita bisa langsung menarik kesimpulan jika data dari variabel tinggi lebih bervariasi daripada variabel berat?. Jawabannya tidak karena tinggi dan berat badan memiliki unit pengukuran yang berbeda. Maka dari itu diperlukan koefisien variasi / CV agar kedua variabel tersebut bisa dibandingkan variabilitasnya. Dari hasil penghitungan CV maka dapat disimpulkan jika data berat badan lebih bervariasi dibandingkan data tinggi badan. Quartile dan Inter Quartile Range Range Quartil terdiri dari quartil 1, quartil 2, dan quartil 3. Quartil 1 menyatakan nilai sampel yang ke 25% atau sama dengan nilai persetil 25, quartil 2 menyatakan nilai sampel yang ke 50% atau sama dengan persentil 50 (median), dan quatil 3 menyatakan nilai sampel yang ke 75% atau sama dengan nilai persentil 75. Inter Quartil adalah lebar rentang data antara quartil 1 (Q1) sampai dengan quartil 3 (Q3) atau = Q3 – Q3 – Q1. Q1. Rumus Quartile dan Inter Quartile Range (IQR) Q 1 = (n+1)/4 Q 2 = 2(n+1)/4 (sama spt median) Q 3 = 3(n+1)/4 IQR = Q 3 – Q – Q 1
Quartile 1 (nilai orang ke 25%) = (3+5)/2 = 4 Quartile 2 (nilai orang ke 50%) = (12+15)/2 = 13,5 Quartile 3 (nilai orang ke 75%) = (20+22)/2 = 21 IQR = Q 3 – Q – Q 1 = 17 Penyajian Data dengan Tabel Tabel 1. Tabel Distribusi Frekuensi Tunggal Range data sempit Penting menampilkan individual value Sampel kecil Contoh Contoh
2. Tabel Distribusi Frekuensi Berkelompok Range lebar Bisa dikelompokkan atau sesuai dgn tujuan Cara membuat: - Urutkan data dari terkecil -> terbesar - Tentukan range dari data (data terbesar- data terkecil) - Tentukan jumlah kelas
- Tentukan intervalnya
- Contoh Tabel Tabel Distribusi Konsumsi Protein Keluarga Konsumsi Protein (Xi)
Frekuensi (Fi)
15-24 25-34 35-44 45-54 55-64 65-74 75-84 Jumlah
30 40 100 110 80 30 10 400
Frek. Kumulatif (f.cum) 30 70 170 280 360 390 400
Frek. Relatif Kumulatif (% cum) 7,5 17,5 42,5 70,0 90,0 97,5 100
Penyajian Data dengan Grafik 1. Histogram Histogram Adalah tipe spesial dari bar graph (namun tidak ada jarak antar balok) yang menampilkan distribusi frekuensi. Mampu membantu untuk melihat/memvisualisasikan distribusi data.
2. Scatter Plot
3. Poligon Merupakan tipe lain dari grafik garis. Sebuah titik diletakan di atas nilai tengah interval, tinggi titik menunjukkan frekuensi dari kelas interval tersebut.
4. Stem and and Leaf Untuk menyajikan range dari data, menunjukkan sifat data (apa yg sebenarnya ada dalam suatu data), informasi/data dari setiap individu yang ada pada data. Ini tidak begitu popular digunakan untuk informasi publik atau laporan dan bila sampel besar. Efektif digunakan pada data dengan sampel yang kecil dan tujuan utamanya adalah untuk memudahkan pengambil keputusan atau peneliti untuk memahami sifat, sebaran data.
5. Box Plot (Box (Box and Whisker Plot)
Jika data simetris (berasal dari distribusi normal): garis median akan berada di tengah box dan whisker bagian atas dan bawah akan memiliki panjang yang sama serta tidak terdapat nilai outlier ataupun nilai ekstrim. Diharapkan nilai-nilai pengamatan yang berada di luar whiskers tidak lebih dari 1%. Jika data tidak simetris (miring), median tidak akan berada di tengah box dan salah satu dari whisker lebih panjang dari yang lainnya. Adanya outlier di bagian atas boxplot yang disertai dengan whisker
bagian atas yang lebih panjang, menunjukkan bahwa distribusi data cenderung menjulur ke arah kanan (positive skewness). Sebaliknya, adanya outlier di bagian bawah boxplot yang disertai dengan whisker bagian bawah yang lebih panjang, menunjukkan menunjukkan bahwa distribusi data cenderung menjulur ke arah kiri (negatif skewness). Box-Plot Perbandingan 2 Kelompok
Efektif digunakan bila akan membandingkan antara 2 kelompok. Dapat membantu peneliti untuk menilai data dan melihat apakah terdapat trend, hubungan, identifikasi nilai observasi yang unik dari sebuah set data untuk memfasilitasi dan mengeksplor lebih jauh analysis deskriptif dan ringkasan statistiknya. 6. Outlier dan Nilai Nilai Ekstrim Outlier Observasi dimana nilai x terlalu kecil atau terlalu besar, yang melebihi nilai pada Q3 (lebih dari 1.5(IQR)) atau yang kurang dari nilai pada Q1 (lebih dari 1.5 (IQR)). Yaitu….. Yaitu….. Outlier atas jika nilai x > Q3 + 1.5(IQR) atau Outlier bawah jika nilai x < Q1 -1.5(IQR) Nilai Ekstrim Nilai ekstrim adalah nilai-nilai yang letaknya l etaknya lebih dari 3 x panjang kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak). Ekstrim bagian atas apabila nilai x > Q3 + (3 x IQR) dan Ekstrim bagian bawah apabila nilai x < Q1 – Q1 – (3 (3 x IQR) Related STATA Command Ringkasan statistik sum varlist, detail Tab var Tabstat varlist, option Pengelompokan variabel : Recode var (rule) (rule), gen(newvar)
Kemudian tab var Grafik histogram variable_name, histogram variable_name, normal by (variable_name) Praktik Command STATA pada CHD Data Ringkasan statistik dapat diperoleh dari berbagai command berikut : sum sbp, detail by sex, sort: sum sbp, detail tabstat sbp, by (sex) stat (mean p50 sd iqr skew kurtosis) tab sex, missing tab sex tox -> untuk tabulasi silang Grafik histogram sbp histogram sbp, bin(10) normal by(sex) graph box sbp graph box sbp, by(sex) ================================= End of Chapter 3 =================================== 3 ===================================
D. Analisis Deskriptif dan Penyajian Data Kategorikal Cara Menyajikan Data Kategorikal Tabel - Tabel tunggal - Tabel silang (cross table) Grafik - Grafik batang (bar) - Grafik pie Statistik -- Persentase Rasio Contoh Penyajian Data 1. One Categorical Categorical Variable Variable: Tingkat Pendidikan Bumil Table : Single Frequency Distribution Graph : Bar or Pie Statistics : Percentage Tingkat Pendidikan 16 Sampel Bumil 1. SD 9. SMP 2. SD 10.Tdk Sekolah 3. SMA 11. PT 4. SMP 12. Tdk sekolah
5. SD 6. SMP 7. SMP 8. SMA
13. SD 14. SMP 15. SMA 16. SMA
Tabel Distribusi Frekuensi Tingkat Pendidikan Bumil Tingkat Pendidikan
Frekuensi
Persentase
2 4 5 4 1 16
12,5% 25% 31,25% 25% 6,25% 100%
Tidak SD Sekolah SMP SMA Perguruan Tinggi Total
Grafik Distribusi Frekuensi Tingkat Pendidikan Bumil (Pie dan Bar)
Variable: Anemia Table : Single Frequency Distribution Graph : Bar or Pie Statistics : Percentage Anemia Data (1= anemia; 2=non anemia) 1 2 1 2 2 1
1 2 1 2 1 2 1 1 1 1 2 2
1 2 2 2 2 2
2 2 2 2 2 1
1 2 1 2 2 1
1
2
1
2
1
2
2 1 2 2 1 2 2 1 2 1 1 1 1 2 2 1 2 2 1 1 2 2 2 1 1 2
2
2
1 2 2 2 2 1
2 2 1 2 2 2
1
1
2 2 1 1 2 2 2 1 1 1 2 1 1 2 2 2 1 1 2 1 2 1 2 2 1 2 2 2 2 1 2 2 1 2 2 1 2 1 2 1 1 1 2 1 2 2 2 1 2 2 1 2 2 2 2
2
2
2
2
1
1
2 2
2 2 2 2 2 2 2 1 1 2 1 1 1 2 1 2 1 2 2
1
2
1 2 2 2 2 2 1
2 2 2 2 2
Tabel Distribusi Frekuensi Anemia Anemia
Frekuensi 59 172 231
Anemia Non-anemia Total
Persentase 25,5% 74,5% 100%
Grafik
2. Two Categorical Variable (Jika Hanya Menanyakan Prevalensi) Prevalensi) Variable: Anemia dan District Table : Cross Tabulation (karena dua variabel) Graph : Bar (clustered or stacked bar) Statistics : Percent (specific prevalence), ratio
Districts Gianyar : count % row Karangasem: count Total
% row : count % row
Anemia 33 24,4% 26
Non-Anemia 102 75,6% 70
Total 135 100% 96
27,1% 59 25,5%
72,9% 172 74,5%
100% 231 100%
Grafik (Kiri Clustered Bar; Kanan Stacked Bar)
2. Two Categorical Variable (Jika Menanyakan Hubungan Antara Var Dependen dan Independen) Variable: Smoking (independent) and CHD (dependent) Table : Cross Tabulation (karena dua variabel) Graph : Statistics : Percent (specific prevalence), RR (prospektif) atau OR (retrospektif) ~ Dibahas lebih lanjut di bagian lain nanti 4 =================================== ================================= End of Chapter 4 ===================================
E. Manajemen Data dengan Aplikasi STATA Encoding Merubah data string menjadi numerik, urutan numerik sesuai alphabetical order. Misal Female (1), male (2) (2) encode varname, generate (varnamenew) describe list varname varnamenew list varname varnamenew, nolabel -> lihat apa yg terjadi terjadi labelbook varnamenew -> urutan numerik sesuai abjad abjad Silakan coba pada data lowbirthweight. Masukkan namevar dengan (sex) dan generate dengan nama variabel yg diinginkan, misal sex2. Lakukan dengan langkah tersebut di atas. Walaupun di encoding, data ini tetap bersifat kategorikal, hanya pada stata digunakan dengan angka untuk menyatakan kategori. Sorting and Listing Listing Mengurut data dari nilai terendah ke tertinggi sort namevar -> sort birth_rate (artinya data diurut berdasarkan nilai birth_rate terendah ke tertinggi)
Listing (daftar) Dapat digunakan untuk melihat data yg missing list namevar -> list birth_rate birth_rate By By Analisis stratifikasi Misal ingin mendapatkan mean berdasarkan jenis kelamin. Jenis kelamin harus diurutkan terlebih dahulu bysort sex : sum sbp Tak terbatas pada variabel sex saja, silakan lakukan pada variabel lain, sesuai tujuan penelitian. Qualifier with IF….. IF….. Beberapa command : list sbp if sex ==1 (hanya akan menampikan daftar daftar data sbp pada sex = 1 yaitu female) sum sbp if sex ==2 (menampilkan ==2 (menampilkan statistik sbp pada sex = 2 yaitu male) Tanda : == adalah sama dengan != adalah tidak sama dengan < adalah kurang dari ; > adalah lebih dari = lebih dari sama dengan / adalah sampai misal 1/10 artinya nilai ke 1 sampai ke 10 Replace/Recode Replace/Recode Misal mengganti data sbp 19 menjadi 20 replace sbp = 20 if sbp ==19 Mengganti code sex, 1 menjadi male dan 2 menjadi female recode sex 1 = 2 2 = 1 Kalau takut kehilangan data original maka recode sex 1 = 2 2 = 1, gen (newsex) (newsex) ORGANIZING DATA (additional) Menampilkan hasil analisis tanpa label tab sex tab sex, nolabel disingkat tab sex, nolab Lihat apa bedanya! Menghapus data/variabel drop namevar Generate Misal data lowbirthweight gen apgar5new apgar5new = apgar -> Variabel baru berisi data sesuai apgar (Variabel apgar5 bisa diubah tanpa menghilangkan data apgar original).
gen klp_sbp = 1 if sbp >= 19 & sbp = 27 & sbp = 48 & sbp =54 tab klp_sbp sbp (lihat apa yg terjadi, dan apa ada missing?) Atau : recode sbp (20/40 = 1) (41/47 = 2) (48/52.5 = 3) (52./max = 4), gen(klp_sbp1) tab klp_sbp1 (lihat apa yg terjadi) Misal data worldbank gen populasi = pop_male + pop_female -> dari data worldbank Labelling Labelling Membuat label pada variabel sex = jenis kelamin Label var sex “jenis kelamin” kelamin” Teknik membuat label pada kategori sebuah variabel Membuat label label define sexlab 1 “male” 2 “female” “female” Melampirkan (attach lable) label pada variabel label value sex sexlab sexlab Analisis Deskriptif data Kuantitatif Statistik summarize sbp, detail bysort sex: sum (sbp) atau tab sex, sum (sbp) Tabel frequency tab sex Graph (harus bisa berdiri sendiri -> ada judul, legend, nilai) histogram sbp Histogram sbp, normal -> menampilkan curve normal graph box sbp More graphs -> help graph atau pilih menu graph Analisis Deskriptif Data Kualitatif Statistik frequency dengan tabel tunggal tab sex Statistik frequency dengan tabel silang Tab sex tox, row -> row percentage Tab sex tox, column -> column percentage Tab sex tox, row col chi -> row, r ow, column % dan chisquare Grafik batang dan lingkaran -> pilih menu graph 5 =================================== ================================= End of Chapter 5 ===================================
F. Teori Probabilitas, Risk, dan Odds Pengertian Probabilitas/Peluang Probabilitas/Peluang Probabilitas adalah peluang terjadinya suatu peristiwa. Konsep Ko nsep dalam probabilitas sering dipakai dalam dunia kesehatan. Misalnya, “D” adalah kode yang diberikan bagi penderita Diabetes Mellitus (kode bisa apa saja, pemilihan huruf D hanya untuk mempermudah). Dalam suatu sampel, kita ingin mengetahui peluang terjadinya Diabetes Mellitus pada laki-laki yang berusia di atas 40 tahun. Pada konsep probabilitas, kita dapat mengubah kata-kata kata-kata “peluang terjadinya Diabetes Mellitus pada Laki-laki Laki -laki yang P(D).. Dalam suatu penelitian kita menetapkan sampel laki-laki berusia di atas 40 tahun” dalam notasi P(D) yang berusia di atas 40 tahun sebanyak n. Dari sampel tersebut ada sebanyak x laki-laki yang menderita x penyakit DM. Jadi, probabilitas terjadinya DM pada laki-laki yang berusia 40 tahun adalah P D) = n 1. Mutually Exclusive Events Bila A dan B adalah dua peristiwa, maka A dan B dinyatakan sebagai dua peristiwa yang mutually bersamaan . Misalnya peristiwa munculnya salah exclusive bila A dan B tidak pernah terjadi secara bersamaan. satu muka dari mata uang atau munculnya salah satu muka dari dadu atau dadu atau munculnya outcome suatu penelitian yakni kemungkinan outcomenya adalah mati atau hidup. hidup. Bila E1, E2, E3, ...Ei adalah kemungkinan outcome dari satu percobaan dan E1, E2, E3, ..Ei adalah mutually exclusive events, maka: 1. Probabilitas munculnya munculnya salah satu outcome P(Ei) ≥ 0 0 2. Jumlah probabilitas munculnya setiap outcome akan sama dengan 1 -> P(E1) + P(E2) + P(E3) + ....+ P(Ei) = 1 3. Probabilitas munculnya outcome E1 atau E2 sama dengan jumlah dari probabilitas masing-masing outcome -> P(E1 atau E2) = P(E1) + P(E2) 2. Complementary Events Kemungkinan outcome suatu percobaan disebut komplementer bila jumlah probabilitas dari setiap outcome = 1. Misalnya outcome suatu percobaan adalah sembuh (E1) atau tidak sembuh (E2). E1 dan E2 disebut dua kejadian yang komplementer, maka probablitas munculnya kejadian E1 + probabilitas munculnya kejadian E2 sama dengan 1. P(E1) + P(E2) = 1. 1. Kejadian yang mutually exclusive juga merupakan kejadian yang komplementer 3. Additional Rule Probabilitas munculnya “A” atau “B” dimana A dan B adalah peristiwa yang mutually mutually exclusive exclusive sama dengan penjumlahan dari Probabilitas A ditambah Probabilitas B. P (A or B) = P (A) + P (B) Probabilitas munculnya salah satu kejadian A atau B jika tidak mutually exclusive P(A or B or Both)=P(A)+P(B)-Prob(both) 4. Conditional Probability Probability Pada kenyataan sehari-hari kita dihadapkan kepada keinginan untuk mengetahui probabilitas sampel dengan kondisi tertentu, tertentu , misalnya ingin mengetahui probabilitas orang yang minum es mambo menjadi penderita diare. Probabilitas ini lazim dikenal dengan conditional probability. Bila
kejadian minum es mambo diberi simbol B dan kejadian diare diberi simbol A, maka probabilitas kondisionalnya diberi simbol P(B|A) yang besarnya dapat dihitung sebagai berikut: P (B|A) = P (A dan B)/P (A) Keterangan: P (B|A) = Prob. kejadian B pada kondisi A P (A dan B) = Prob. kejadian A dan B bersamaan P (A) = Prob. kejadian A Contoh: Untuk mempelajari sumber penularan suatu wabah diare di Kota Denpasar tahun 1980 dilakukan studi penelusuran makanan (food hystorical study) dengan rancangan Case-Control. Data yang didapat adalah sebagai berikut:
Dari data ini dapat dihitung: P (A) = 30/60 P (A dan B) = 25/60 P (B|A) = P (A dan B) / P (A) = (25/60) / (30/60) = 25/30 = 0,83 5. Multiplication Rule A dan B adalah dua kejadian yang saling berkaitan (dependence events). Besarnya kemungkinan kedua peristiwa A dan B terjadi secara bersamaan yang bersamaan yang disimbulkan dengan P(A dan B) adalah sama dengan kemungkinan terjadinya B pada kondisi dimana A terjadi, yaitu: P(B|A) dikalikan dengan kemungkinan kejadian A, yaitu: P( A). Dengan contoh di atas, kemungkinan terjadinya A dan B secara bersamaan dapat dihitung sebagai berikut. P (A dan B) = P (B|A) P (A) = 25/30 x 30/60 = 25/60 Bila peristiwa B tidak berkaitan dengan peristiwa A, maka peristiwa A dan B saling tidak ti dak tergantung atau “independence events”, maka P (B|A) = P (B) atau sebaliknya P (A|B) = P (A). P (A). Maka oleh karena itu, probabilitas terjadinya peristiwa A dan B bersamaan dapat dihitung sebagai berikut: P (A dan B) = P (B) P (A)
Contoh: Kalau kejadian diare (A) tidak berkaitan dengan minum es mambo (B), berapa kemungkinan seorang sampel yang dipilih secara random mimum es mambo (B) dan juga menderita diare (A). Dari data pada Tabel 3.3, didapatkan probabilitas menderita diare (kasus) atau P(A) = 30/60 dan probabilitas minum esmambo (B) atau P(B) = 32/60, maka probabilitas sampel minum es mambo dan juga diare adalah sbb: P (A dan B) = P(A) P(B) = 30/60 x 32/60 = 0,267 6 =================================== ================================= End of Chapter 6 ===================================
G. Distribusi Data dan Pemanfaatannya Distribusi Binomial Binomial Distribusi binomial adalah satu distribusi probabilitas munculnya x sukses dari suatu peristiwa yang hanya memiliki dua kategori (binomial) dari n sampel (kecil). Bila suatu trial menghasilkan luaran (outcome) dengan dua kemungkinan yang mutually excusive (binomial), seperti misalnya jenis kelamin bayi yang lahir, dimana jenis kelamin hanya terdapat dua kemungkinan yaitu laki atau perempuan, maka trial tersebut dinamai Bernoulli Trial.Dalam Bernoulli trial, probabilitas munculnya out-come yang diharapkan misalnya probabilitas bayi lahir laki-laki disebut p dan probabilitas bayi lahir perempuan disebut q, maka q = 1 – 1 – p. p. Sebagai contoh, misalnya dalam sebuah penelitian dengan jumlah sampel n = 5 akan dipelajari berapa probabilitas x (x = 0, 1,2 ...5) bayi laki lahir dari 5 sampel tersebut. Dari data sensus penduduk diketahui bahwa probabilitas bayi laki lahir p = 0,51 dan probabilitas bayi perempuan lahir q = 0,49. Penentuan probabilitas lahirnya x bayi dengan jenis kelamin laki dari n sampel ditentukan dengan rumus sbb: f(x) = nCx px q(n-x) Keterangan: f(x) = probabilitas xi bayi laki lahir dari n sampel, dimana x = 0, 1, 2 ...n p = probabilitas bayi laki lahir q = probabilitas bayi perempua lahir, dimana q = 1 – 1 – p p n = jumlah sampel x = jumlah outcome yang diharapkan terjadi nCx = koefisien Bernoulli Koefisien Bernoulli menyatakan jumlah kombinasi yang dapat dibuat dari n objek dengan de ngan x jumlah objek dengan outcome yang diharapkan. Misalnya outcome yang diharapkan adalah bayi laki dan x = jumlah j umlah bayi laki yang lahir serta n adalah jumlah sampel. Berapa kombinasi yang dapat dibuat dari sampel n = 5 dan dari sampel tersebut terdapat bayi laki x = 3. Koefisien Bernoulli untuk x sukses dari n sampel dihitung dengan formula sbb:
Dari contoh di atas diketahui probabilitas bayi laki lahir p = 0,51 dan bayi peremuan q = 0,49, maka probabilitas jumlah bayi laki lahir sebanyak 0, 1, 2, 3, 4, dan 5 dari jumlah sampel n = 5 dapat dihitung sebagai berikut.
Contoh aplikasi distribusi Binomial 1. Dari data survei nasional diketahui bahwa 30% anak memiliki kekebalan terhadap Influensa. Bila dilakukan survei terhadap 10 anak SD di Denpasar yang dipilih secara random, berapa probabilitas 4 dari 10 anak memiliki kekebalan terhadap influensa? Penghitungan probabilitas adalah sbb: F(4) = 10C4 P4Q 6 = 10!/(4!6!) x 0,34 x 0,76 = 0,2001 Hasil analisis menunjukan bahwa sekitar 20,01% kemungkinan dari 10 sampel dengan 4 orang memiliki kekebalan terhadap influensa. 2. Dari data populasi diketahui bahwa sekitar sekitar 10% penduduk mengalami kebut kebutaan. aan. Bila sebanyak 25 orang sampel penduduk dipilih secara random, berapa kemungkinan dari mereka 5 atau kurang dari 5 menderita kebutaan atau P(x≤5). P(x≤5). Untuk menghitung P(x≤5) dapat digunakan additional rule yaitu P(x≤5) = P(x=0) + P(x=1) + P(x=1) + P(x=2) + P(x=3) + P(x=4) + P(x=5), sbb: P(x=0) = 25C0 x P0 x Q 25 = 25!/(0!25!) x (0,1)0 x (0,9)25 = 0.07179 P(x=1) = 25C1 x P1 x Q 24 = 25!/(1!24!) x (0,1)1 x (0,9)24 = 0.19941 P(x=2) = 25C2 x P2 x Q 23 = 25!/(2!23!) x (0,1)2 x (0,9)23 = 0.26588 P(x=3) = 25C3 x P3 x Q 22 = 25!/(3!22!) x (0,1)3 x (0,9)22 = 0.22649 P(x=4) = 25C4 x P4 x Q 21 = 25!/(4!21!) x (0,1)4 x (0,9)21 = 0.13841 P(x=5) = 25C5 x P5 x Q 20 = 25!/(5!20!) x (0,1)5 x (0,9)20 = 0.06459 Total = 0.9666
Distribusi Poisson Distribusi Poisson adalah distribusi probabilitas waktu atau tempat dengan x kejadian tertentu, dimana x adalah variabel diskret (misalnya jumlah kasus bunuh diri dalam sebulan). Misalnya ingin diketahui berapa probabilitas bila dipilih bulan secara random dengan jumlah kasus buhuh diri sebanyak 3. Pada contoh ini, bulan merupakan kesatuan waktu yang diteliti. Contoh lain, berapa kemungkinan satu lapang pandang yang dipilih secara acak ditemukan 10 koloni bakteri. Pada contoh ke dua ini, lapangan pandang sebagai satuan tempat yang diteliti. Apabila x adalah jumlah kasus yang terjadi dalam interval i nterval waktu tertentu misalnya jumlah kasus bunuh diri dalam satu bulan dan probabilitas waktu dengan x kejadian ditentukan dengan rumus berikut.
Contoh Aplikasi Distribusi Poisson Sebagai contoh, dalam penelitian bunuh diri diasumsikan bahwa jumlah kasus bunuh diri perbulan mengikuti distribusi Poisson dengan rerata jumlah kasus perbulan λ = 2,75. Berapa probabilitas bulan yang dipilih scara random dengan jumlah kasus bunuh diri sebanyak x = 3 orang. Penghitungan probabilitasnya dilakukan sebagai berikut:
Jadi probabilitas bulan yang dipilih secara random dimana pada bulan tersebut terdapat 3 kasus bunuh diri adalah 0,2216 atau 22,16%. Distribusi Normal Normal Karakteristik penting dari distribusi normal adalah: 1. Bentuknya seperti seperti bell simetris simetris 2. Nilai Mean, Median, Median, dan Modusnya Modusnya sama 3. Total area di bawah curve distribusi normal normal dan di atas sumbu X = 100% dan 50% dari area di bawah curve distribusi normal berada di bawah mean dan 50% lainnya di atas mean. 4. Luas area di bawah curve distribusi normal yang terletak ± 1 SD dari Mean = 68% dari luas curve keseluruhan; ± 1,96 SD dari Mean = 95% dari luas curve keseluruhan, dan ± 3 SD dari Mean = 99,7% dari luas curve keseluruhan.
Tinggi dan lebar kaki dari distribusi normal ditentukan oleh mean dan SD. Nilai rerata akan menentukan letak cuve distribusi normal pada sumbu X, sedangkan nilai SD akan menentukan lebar kaki dan tinggi puncak curve, dimana makin tinggi SD makin lebar kaki dan makin rendah puncak curve, sebagai contoh di bawah ini.
Pada uraian sebelumnya telah diuraikan bahwa dilihat dari karakteristik distribusi normal, sebenarnya terdapat satu keluarga distribusi normal yang dibedakan oleh nilai rerata dan nilai SD dari datanya. Salah satu dari anggota distribusi normal yang penting adalah distribsi normal standar (standard normal distribution) adalah distribusi normal dari data standar (standardized data) dan bukan dari raw data. Data standar juga disebut Z skor dari data. Nilai standar (Zskor) mempu mempunyai nyai nilai rerata nol dan SD = 1. Nilai standar (Zskor) dari satu data dihitung berdasarkan rumus Z = (X – (X – Mean)/SD Mean)/SD Tabel Distribusi Normal atau juga disebut Normal Curve Area atau Tabel Z adalah tabel yang berisikan luas area di bawah curve normal untuk nilai Z tertentu. Pada kolom pertama dari Tabel berisikan nilai Z dengan gigit pertama di belakang koma, sedangkan pada baris pertama terdapat digit ke dua di belakang koma dari nilai Z. Sel pada baris ke dua dan seterusnya berisikan luas area di bawah curve normal sampai nilai Z tertentu. Berikut adalah potongan dari Tabel Z.
Cara menggunakan Tabel Z. Misalnya akan ditentukan berapa luas area di bawah kurve normal untuk nilai Z ≤ -3,15. Maka untuk itu, carilah sel dalam tabel Z untuk nilai Z = - 3,15 dan angka yang terdapat pada sel tersebut sama dengan luas area di bawah kuve untuk nilai Z ≤ - 3,15. Caranya: cari nilai Z = - 3.1 pada kolom Z dan cari nilai Z = 0,05 pada baris pertama, kemudian dari garis horizontal dari nilai Z = -3.10 dan garis vertikal ke bawah dari nilai Z = 0,05 (pada baris pertama tabel Z), sel dari tabel yang menjadi persilangan kedua garis menyatakan luas area di bawah kurve untuk nilai Z ≤ - 3,15. Pada contoh kasus ini didapatkan luas area di bawah kurve normal dengan nulai Z ≤ - 3,15 = 0,0008 atau sebesar 0,08%. Contoh Aplikasi Distribusi Normal Kasus 1. Pada penelitian penyakit Alzeimer didapatkan bahwa berat otak penderita Alzeimer berdistribusi normal dengan rerata 1076,80 gr dan SD = 105,76 gr. Berapa probabilitas sampel dengan berat otak kurang dari 800 gr dengan ilustrasi seperti bagan di bawah ini.
Langkah Penyelesaian (X – Mean)/SD Mean)/SD 1. Kita ingat2 dulu rumus apa yang dipakai……pakai dipakai……pakai rumus ini Z = (X – kurva . 2. Yang ditanyakan itu kan probabilitas, probabilitas itu berkaitan dengan luas area di bawah kurva. Luas area di bawah kurva bisa dicari dengan bantuan ultraman tabel Z. Tapi, sebelum ngulik2 tabel Z alangkah baiknya dicari dulu berapa nilai Z nya pakai rumus di atas (800 – 1076,8)/105,76 1076,8)/105,76 ngerti 3. Z = (800 – ngerti lah ya darimana dapet angka2nya -2,62 4. Singkat kata kata dan cerita Z = -2,62 5. Now, we’ve got the Z score so what’s next? next? Kita cari deh itu -2,62 -2,62 nya nya di tabel Z 6. Setelah ditelusuri ditelusuri ternyata ternyata luas area di bawah kurva dengan nilai Z -2,62 itu -2,62 itu adalah 0,0044 0,0044
7. Apa makna dari 0,0044 itu? Ya balik lagi liat pertanyaan dari soalnya probabilitas peneliti untuk mendapat sampel dengan berat otak kurang dari 800 gram adalah 0,0044 atau kalo dalam persentasenya sebesar 0,44%. Mantap kan? Yaiyalah masa ga mantap. Kasus 2 Diketahui bahwa tinggi badan di satu populasi berdistribusi normal dengan nilai rerata 175 cm dengan SD = 10 cm. Ingin diketahui berapa probabilitas seorang dari populasi tersebut yang dipilih secara random tingginya antara 160 – 160 – 180 180 cm, seperti bagan di bawah ini.
Langkah Penyelesaian (X – Mean)/SD Mean)/SD 1. Mulai agak rame nih soalnya, soalnya, seperti biasa pakai pakai rumus Z = (X – 2. Naah, gimana nih ada kata2 kata2 diantara 160 sampai 180?. Jadi prinsipnya gini kalo luasnya yang yang dicari itu diantara something dan something, nanti pasti ada pakai pengurangan. Kalo dari soal di atas, cari dulu luas area dari paling kiri sampe angka 160 itu dulu. Selanjutnya, cari luas area dari paling kiri sampe 180 itu. Kebayang?
Awalnya, cari luas di area biru itu…. itu…. Gimana caranya? Sama seperti soal sebelumnya, masukkan masukkan semua informasi yg ada di soal ke rumus Z. Z = (160 – (160 – 175)/10 175)/10 Z = (-15)/10 Z = -1,5 Luas area under curve utk Z = -1,5 -> 0,0668. 0,0668 . Oke di keep dulu angkanya, sekarang bahas kurva yang di bawah
Terus, cari luas area merah tersebut Caranya sama seperti di atas, pake rumus Z Z = (180 – (180 – 175)/10 175)/10 Z = (15)/10 Z = 1,5 Luas area under curve utk Z = 1,5 -> 0,9332. 0,9332 . Di-keep juga dulu angkanya 3. Okee sudah dapat luas keduanya terus diapakan? Pertanya Pertanyaanya anya tadi berapa probabilitas atau bisa kita bilang luas area di antara 160 sampai 180 gitu ya. Nah biar dapet luas yang tengah-tengahnya aja itu yaudah luas daerah merah dikurangi luas daerah biru, got it?. Luas daerah merah merah (Z=1,5) = 0,9332; Luas daerah biru (Z=-1,5) = 0,0668 0,0668 langsung hajar deh dikurangi aja tuh 0,9332 – 0,9332 – 0,0668 0,0668 = 0,8664 atau 0,8664 atau jika dalam persentase menjadi 86,64% 86,64% Jadi, peluang/probabilitas utk dapetin orang yang tingginya 160-180 160- 180 cm adalah 86,64% Kasus 3 Kadar gula darah populasi tertetu diketahui berdistribusi normal dengan nilai rerata 100 g/dl dengan SD = 5 g/dl. Ingin diketahui berapa retangan kadar gula dari 95% populasi disekitar rerata, seperti bagan di bawah ini.
Langkah Penyelesaian (X – 1. Ramee juga nih soalnya, gimana gimana nih malah pake X1 sama X2 pula. Pasang dulu deh rumusnya Z = (X – Mean)/SD.. Sekarang apa yang bisa dimasukin ke rumusnya? Kayaknya gak ada yg bisa ya gara-gara Mean)/SD X1 sama X2 kampret. Oke informasi yang bisa dimanfaatin utk saat ini cuma angka 95% itu. 95% atau 0,95 ituu adalah luas area di bawah kurva antara X1 dan X2 okey?. Seperti soal sebelumnya, kita harus tau dulu berapa luas area di sebelah kiri X 1 (anggap aja daerah biru kayak tadi) dan sebelah kiri X 2 (anggap daerah merah kayak tadi). 2. Sekarang gini, luas area di bawah kurve secara keseluruhan ituu 100% (dari ujung ke ujung). Kalo 95% nya udah kepake jadi tinggal berapa dong sisanya?. Yup sisanya ada 5% yang belum kepake
gabungan dari Jadi, luas yang 5% itu luas gabungan dari daerah biru dan hijau yaaa saja berapa? 3. Udah mulai ada titik terang nih, luas biru dan hija hijau u itu 5% (0,05) kalo luas yang biru saja berapa? (1 (1 – – 0,95)/2 0,95)/2 = 0,025. Kalo luas area di bawah kurva udah dapet, sekarang tinggal nyari berapa Z scorenya di tabel Z. Ternyata Z score untuk luas area 0,025 itu adalah -1,96. Sekarangg karena dah dapet Z scorenya (X – Mean)/SD. Mean)/SD. bisa deh kita make rumus Z = (X – -1,96 = (X1 – 100)/5 – 100)/5 X1 = -1,96 x 5 + 100 X1 = 90,2 g/dL yess g/dL yess dapet X1 4. Sekarang tinggal tinggal nyari X2 deh. Nah ini gampang nih, tinggal jumlahin luas area X 1 sama 95% nya. Inget kan tadi kalo nyari luas area X 2 (daerah merah) itu mana aja cakupannya hehe. 0,025 + 0,95 = 0,975 0,975 Z score untuk 0,975 = 1,96 1,96 5. Udah deh jadi, tinggal masukin masukin ke rumus Z = (X – (X – Mean)/SD. Mean)/SD. 1,96 = (X2 – 100)/5 – 100)/5 X2 = 1,96 x 5 + 100 X2 = 109,8 g/dL yess dapet X2 Jadi, 95% dari populasi mempunyai kadar gula darah antara 90,2 g/dl s/d 109,8 g/dl. Mantap soul 7 =================================== ================================= End of Chapter 7 ===================================
H. Distribusi Distribusi Sampel Setelah memahami pengertian tentang populasi, sampel, cara pengambilan sampel, dan penentuan besarnya sampel, maka selanjutnya perlu dipahami tentang pengertian distribusi sampel sebagai dasar untuk memahami konsep statistik inferensial. Yang dimaksud dengan distribusi sampel (sampling distribution) adalah distribusi rerata atau proporsi semua kemungkinan sampel dari suatu populasi. Ada beberapa distribusi sampel yang perlu diketahui agar dapat memahami lebih l ebih jelas konsep statistik inferensial, antara lain 1) distribusi nilai rata-rata sampel (distribution of the sample mean, 2) distribusi perbedaan rata-rata dua sampel (distribution of the difference between two sample means, 3) distribusi proporsi sample (distribution of the sample proportion), dan 4) distribusi perbedaan proporsi dari dua sample (distribution of the difference between two sample proportions). Distribusi Rerata Sampel Misalnya akan diteliti jumlah anak yang dimiliki populasi daerah X. Jumlah populasi KK di daerah X adalah 5 KK, yaitu A, B, C, D, dan E. Jumlah anak dari ke 5 populasi KK tersebut adalah 1, 2, 3, 4, dan 5. Rerata jumlah anak populasi µ = 3 orang.
Apabila penelitian tentang jumlah anak di populasi tersebut menggunakan sampel dengan jumlah sampel n = 2, maka kemungkinan sampel yang bisa dibuat dari populasi tersebut adalah sebanyak 10 sampel sbb:
Distribusi rerata dari sampel di atas disebut distribusi rerata sampel atau sering disebut dengan distribusi sampel. Ciri dari suatu distribusi sampel adalah: 1. Rerata dari nilai rerata sampel akan sama dengan rerata populasi 2. Standar deviasi dari rerata sampel disebut standar error of mean yang disingkat dengan SE of SD/√n. mean. Secara umum, besarnya SE = SD/√n. 3. Distribusi sampel akan mengikuti distribusi data. Bila data berdistribusi normal, maka distribusi sampel juga berdistribusi normal. Sebaliknya, bila data tidak berdistribusi normal, maka distribusi sampel juga akan berdistribusi tidak normal, kecuali bila jumlah sampelnya cukup besar. Kalau jumlah sampel cukup besar, walaupun data tidak berdistribusi normal, maka distribusi sampelnya akan berdistribus normal (Central Limit Theorem). 4. Dengan karakteristik tersebut, rerata populasi dapat diestimasi dari rerata sampel. Bila dari n sampel didapatkan rerata sampel adalah X dengan simpang baku SD, maka 95% kemungkinan rerata popuasi terletak antara X ± 1,96xSD/ n . n . Contoh: Suatu survei penentuan umur kawin ibu dilakukan pada 200 sampel ibu rumah tangga di Bali. Dari sampel tersebut didapatkan rata-rata umur kawin ibu adalah 18 th dengan standar deviasi (SD) sama dengan 2 tahun. Dengan berdasarkan distribusi rerata sampel, kita dapat memperkirakan rata-rata populasi yang dimaksud hanya dari hasil satu survei. Misalnya dari hasil survei di atas dapat statistik sampel sebagai berikut:
maka 95% kemungkinan rerata populasi terletak antara 18 – 18 – 1,96 1,96 x 0,14 sampai 18 + 1,96 x 0,14 atau antara 17,72 – 17,72 – 18,27 18,27 th.
Distribusi Perbedaan Rata-rata Dua Sampel Sampel Distribusi perbedaan rata-rata dua sampel mempunyai karakteristik mirip dengan distribusi normal dengan perkiraan nilai rata-rata rata-rata (μ) sama dengan beda rata-rata rata-rata dari kedua sampel X beda dengan standar error perbedaan SE = √(SD1 √(SD12/n1 + SD22/n2) Bila pengambilan sampel diulang sebanyak tak berhingga, maka dapat diperkirakan 95% dari sampel tadi akan mempunyai rata-rata perbedaan antara ( X beda – beda – 1,96 1,96 SE) sampai ( X beda + 1,96 SE). SE). Contoh: Bila jumlah sampel ibu dan bapak masing-masing 120 orang dan rata-rata umur kawin ibu ( X 1 ) = 18 th dengan SD2 = 2 tahun dan rata-rata umur kawin bapak ( X2 ) = 22 th dengan SD2 = 3 tahun, maka selanjutnya dapat dihitung – X2 = 18 – 18 – 22 22 = - 4 1. Rata-rata perbedaan (Xb) = X1 – X 2. Standar error beda (SEb) = √(SD12/n1 + SD22/n2) = √(4/120 + 9/120) 9/120) = 0,329 3. Estimate beda rata-rata kedua kelompok populasi pada tingkat kemaknaan 95% adalah (X beda – beda – 1,96 1,96 SE) sampai ( X beda + 1,96 SE) (-4 – (-4 – 1,96(0,329)) 1,96(0,329)) sampai (-4 + 1,96(0,329)) -4,64 sampai -3,36 Distribusi Proporsi Sampel Sampel Misalnya akan diteliti proporsi bayi yang menderita diare. Kalau sampel yang disurvei adalah n dan yang megalami diare adalah k, maka kejadian diare pada sampel bayi (p) = k/n x 100% dengan standar deviasi (SD) = √p(1-p). √p(1-p). Seandainya survei tersebut dilakukan berkali-kali pada populasi tersebut, maka akan didapatkan banyak nilai proporsi (p). Distribusi dari nilai p tersebut dinamakan distribusi proporsi sampel. Distribusi proporsi sampel (p) mempunyai karakteristik menyerupai distribusi normal dengan estimate rata-rata proporsi (µp) = p dengan standar error (SE) = √(pq)/n. √(pq)/n. Bila dalam survei tadi besar sampel n = 1000 dan terdapat 12 bayi diare, maka proporsi bayi diare (p) = 12/1000 = 0,012 0,012 SE = √(0,012 √(0,012 x 0,988)/1000 = 0,003. 0,003 . Dari sampel tersebut dapat diestimasikan bahwa 95% proporsi diare pada populasi bayi antara p +/1,96 SE. Dengan demikian 95% demikian 95% proporsi diare pada populasi bayi antara (0,012 – – 1,96x0,003) 1,96x0,003) sampai (0,012 + 1,96x0,003) atau antara 0,0064 sampai 0,0178. Distribusi Perbedaan Proporsi Dua Sampel Sampel Kalau proporsi diare pada bayi di kota adalah P1 dan proporsi diare pada bayi di desa P2, maka perbedaan proporsi dari kedua sampel (Pb) = P1- P2 dengan standar error (SE) = √{P1(1-P1)/n1 √{P1(1-P1)/n1 + P2(1-P2)/n2}. Kalau survei ini dilakukan berkali-kali, maka kita akan mendapatkan banyak beda proporsi (Pb). Distribusi dari Pb ini dinamakan distribusi perbedaan proporsi dari dua sampel.
Distribusi perbedaan proporsi dari dua sampel mempunyai karakteristik menyerupai distribusi normal dengan perkiraan rata-rata beda proporsi = Pb dengan standar error (SE). Bila pengambilan sampel dilakukan berulang kali, maka 95% sampel akan mempunyai perbedaan proporsi antara Pb +/- 1,96 SE. Contoh Misalnya dari penelitian terhadap 100 sampel bayi di kota dan 100 sampel bayi di desa, didapatkan bahwa proposi diare pada bayi di kota adalah 0,50 dan di desa 0,33. Berdasarka hasil penelitian tersebut dapat diperkirakan bahwa perbedaan kejadian diare pada bayi di kota dan di desa sbb: P1 = 0,50 P2 = 0,33 Pb = 0,50 – 0,50 – 0,33 0,33 = 0,17 SE = √{P1(1-P1)/n1 √{P1(1-P1)/n1 + P2(1-P2)n2} P2(1-P2)n2} = √{(0,5x0,5/100) + (0,33x0,67/100)}= 0,068 0,068 Jadi, 95% Pb terletak antara Pb ± 1,96SE, yaitu antara: (0,17 – (0,17 – 1,96x0,068) 1,96x0,068) s/d (0,17+1,96x0,068) atau antara 0,037 s/d 0,303 ================================= End of Chapter 8 =================================== 8 ===================================
I. Confidence Interval (CI) Pada umumnya kita tidak mengetahui rerata populasi atau proporsi populasi, relatif risk populasi atau odd ratio populasi dan paramter tersebut nilainya diestimasikan dari statistik sampel. Ada dua metode yang umum dipakai untuk estimasi paramter populasi dari statistik sampel, yaitu: menggunakan point estimasi dan interval estimasi. Berikut akan dibahas kedua metode estimasi tersebut. Point Estimate Point estimasi menggunakan satu nilai sebagai nilai estimasi parameter populasi yang akan dipelajari. Misalnya akan diteliti rerata indek masa tubuh (IMT) dari ibu-ibu di Bali. Untuk mengukur rerata IMT yang sebenarnya (true mean) adalah sangat tidak mungkin karena faktor teknis, waktu dan biaya. Oleh karena itu, rerata IMT ibu di Bali dapat diperkirakan dari 30 sampel ibu yang dipilih secara random. Dari hasil pengukuran IMT sampel kemudian dihitung rerata IMT sampel. Misalnya didapatkan 26,86 kg/m2 dimana rerata sampel tersebut merupakan nilai point estimate dari parameter rerata IMT populasi ibu di Bali. Point estimasi tidak memberikan banyak informasi bagaimana variasi dari nilai estimasi tersebut karena hanya satu nilai saja. Kita tidak mengetahui seberapa dekat nilai estimasi tersebut dengan rerata populasi yang sebenarnya (true mean). Perlu diketahui bahwa rerata sampel belum tentu sama dengan rerata populasi. Perbedaan rerata sampel dengan rerata populasi tersebut terjadi karena adanya sampling error atau karena faktor kebetulan (by chance). Oleh karena itu, akan lebih sensitif bila estimasi rerata populasi (parameter populasi) menggunakan interval disekitas rerata sampel yang disebut dengan interval kepercayaan (confidence interval of mean). Interval Estimate Estimate Interval estimasi adalah metode yang dipakai untuk estimasi rerata populasi (true mean) dengan menggunakan confidence interval (CI). Variabilitas sampel (SE) diperhitungkan dalam proses penghitungan nilai CI. CI adalah sebuah rentangan nilai disekitar rerata sampel yang dibatasi oleh dua nilai yang disebut batas bawah (lower limit) dan nilai batas atas (upper limit). Nilai rerata populasi diperkirakan akan terletak di dalam interval tersebut. Nilai CI ditentukan oleh tingkat kepercayaan yang akan dipakai, umumnya untuk penelitian sosial, menggunakan tingkat kepercayaan 95% dan untuk penelitian laboratorium atau klinik menggunakan menggunakan tingkat kepercayaan 99%. Selain tingkat kepercayaan,
nilai CI juga ditentukan oleh besar sampel. Makin besar jumlah sampel, nilai CI akan bertambah sempitdan estimasi rerata populasi akan makin akurat. Penentuan CI untuk sampel besar Apabila suatu sampel dengan jumlah besar (n>60) dipilih dari suatu populasi, maka 95% nilai rata-rata sampel besarnya akan berkisaran antara 1,96 SE (standar eror) di bawah rata-rata sampel sampai 1,96 SE di atas rata-rata sampel. Hal ini didasarkan kepada asumsi bahwa distribusi nilai rata-rata sampel dengan jumlah sampel besar adalah normal dengan SE = ơ/√n. Pada umumnya standar standar deviasi populasi sering tidak diketahui, maka SD populasi diestimasikan dengan nilai standar deviasi sampel, sehingga SE = SD/√n. SD/√n. Misalnya akan diteliti tekanan sistole mahasiswa. Untuk tujuan tersebut dipilih sebanyak 60 sampel mahasiswa. Dari data tekanan sistole sampel didapatkan rata-rata sistole X = 120 mmHg dengan SD = 2,5 mmHg. Menggunakan data sampel tersebut dapat diperkirakan bahwa 95% kemungkinan rata-rata tekanan sistole populasi mahasiswa berkisar antara: Batas bawah = X -1,96 - 1,96 SD/√n = 120 120 – – (1,96 x 2,5/√60) = 119,37 119,37 Batas atas = X +1,96 SD/√n = 120 + (1,96 x 2,5/√60) = 120,63 120,63 Penentuan CI untuk sampel kecil -> Bedanya tidak pake Z score, tapi pakai t score Apabila varian populasi tidak diketahui atau jumlah sampel lebih kecil dari 30 (sampel (s ampel kecil), kecil), distribusi rerata atau beda rerata sampel akan mengikuti distribusi ‘t’ dengan derajat bebas (df) = n – – 1 dan dengan standar error (SE) = SD/√n. SD/√n. Penghitungan CI dengan distribusi t adalah sebagai berikut: Batas bawah = X - (t x SD/√n) SD/√n) Batas atas = X + (t x SD/√n) SD/√n) Misalnya sampel mahasiswa yang diperiksa tekanan darah sistolenya 30 orang dan didapat rata-rata ( X ) = 120 mmHg dengan Sd = 2,5 mmHg, maka penghitungan confidence intervalnya adalah sebagai berikut: - Hitung nilai derajat bebas (df) ( df) = n – n – 1 1 = 30 – 30 – 1 1 = 29. - Lihat nilai t pada tabel t untuk df = 29 dan 29 dan tingkat kepercayaan (confidence level) = 95% adalah 2,04 2,04 - Menghitung nilai batas bawah dan atas: Batas bawah = X - (t x SD/√n) = 120 – – (2,04 x 2,5/√60) = 119,34 119,34 Batas atas = X + (t x SD/√n) = 120 + (2,04 x 2,5/√60) = 120,66 120,66 Estimasi Rerata (Sampel Kecil) Kecil) Suatu penelitian dilakukan untuk mengetahui rerata IMT ibu di Bali. Untuk mengetahui rerata IMT yang sebenarnya agak sulit, maka rerata populas tersebut akan diestimasikan dari rerata sampel. Untuk maksud tersebut, sebanyak 30 sampel ibu dipilih secara random dan dari hasil analisis secara deskriptif didapatkan rerata IMT sampel 26,86 kg/m2 dengan simpang baku (SD) 2,99 kg/m2 Berdasarkan hasil analisis deskriptif data sampel IMT ibu di Bali tersebut selanjutnya dapat dihitung CI 95% dari rerata IMT ibu di Bali dengan langkah sebagai berikut. Perhitungan: Hitung standar error SE = SD/√n = 2,99/√30 = 0,5468 0,5468 Hitung CI dengan rumus: CI = mean ± t x SE, dengan tahapan: o Menentukan derajat bebas (df) = n – n – 1 1 = 30-1=29 o Mencari nilai t untuk α 0,05 pada tabel t, didapatkan tα = 2,0452 2,0452 o Menghitung batas bawah LL = mean – mean – 2,0452 2,0452 x SE = 26,86 – 26,86 – 2,0452 2,0452 x 0,5468 = 25,74
o Menghitung batas atas UL = mean + 2,0452 x SE = 26,86 – 26,86 – 2,0452 2,0452 x 0,5468 = 27,98 Estimasi Beda Rerata (Sampel Kecil) Kasus 1 (Data Kedua Sampel Homogen) *jika kedua sampel homogen maka ada perbedaan cara penentuan nilai SE. Jika data homogen maka rumus SE = SDp √(1/n1 SDp √(1/n1 + 1/n2). 1/n2). Dimana nilai SDp dapat diperoleh dengan rumus SDp = √{(n1 = √{(n1-1)SD1 -1)SD12 + (n2-1)SD22} / (n1+n2-2) Suatu penelitian akan mempelajari apakah rerata IMT remaja putri berbeda dengan remaja putra. Sangat tidak mungkin meneliti semua populasi remaja putri, oleh karena itu, untuk menjawab pertanyaan tersebut, peneliti melakukan penelitian pada 24 sampel anak sekolah menengah atas laki dan 20 wanita yang dipilih secara stratified simple random. Perhitungan: 1. Hitung rerata dan SD masing-masing kelompok Dari analisis deskritif didapatkan nilai rerata dan standar deviasi sampel sebagai berikut.
2. Hitung homogenitas Homogenitas data kedua kelompok diuji dengan levene’s test menggunakan menggunakan statistk F statistk F dengan rumus: F = SD12/SD22 = 1,0588 1,0588 0,05. Berarti kedua sampel homogen (equal variances). dengan p > 0,05. 3. Hitung CI untuk varian ke k e dua kelompok sama Hitung beda rerata kedua sampel = 29,2792 – 29,2792 – 27,6429 27,6429 = 1,6363 2 2 Hitung SDp = √{(n1-1)SD1 + (n2-1)SD2 } / (n1+n2-2) = 4,98 Hitung SE = SDp √(1/n1 + 1/n2) = 1,4935 1,4935 Nilai tα tα pada tabel t dengan df = 43. 43 . Nilai t adalah 2,0141 Bata bawah LL = beda mean - tα t α x SE = 1,6363 – 1,6363 – 2,0141 2,0141 x 1,4935 = -1,3757 Batas atas UL = beda mean + tα t α x SE = 1,6363 – 1,6363 – 2,0141 2,0141 x 1,4935 = 4,6483 4. Kesimpulan 95% kemungkinan beda rerata kedua sampel terletak antara -1,3757 s/d 4,6483 Kasus 2 (data kedua sampel heterogen) Suatu penelitian akan mempelajari apakah rerata IMT remaja putri berbeda dengan remaja putra. Untuk menjawab pertanyaan tersebut, peneliti melakukan penelitian pada 20 sampel anak sekolah menengah atas laki dan 20 wanita yang dipilih secara stratified simple random. Perhitungan: 1. Hitung rerata dan SD masing-masing kelompok Dari analisis deskriptif didapatkan nilai rerata dan standar deviasi sampel sebagai berikut.
2. Hitung homogenitas Homogenitas data kedua kelompok diuji dengan levene’s test levene’s test menggunakan statistk F dengan rumus: 2 2 F = SD1 /SD2 = 5,055 dengan 5,055 dengan p < 0,05. 0,05. Berarti kedua sampel heterogen (unequal variances). 3. Hitung CI untuk varian ke dua d ua kelompok sama Hitung beda rerata kedua sampel = 28,8350 – 28,8350 – 27,8750 27,8750 = 0,96 2 2 Hitung SE = √(SD1 √(SD1 /n1 + SD2 /n2) = 2,13067 Nilai tα tα pada tabel t dengan df = 38. 38 . Nilai ttα α adalah 2,0211 Batas bawah LL = beda mean - tα t α x SE = 0,96 – 0,96 – 2,0211 2,0211 x 2,13067 = -3,4177 Batas atas UL = beda mean + tα t α x SE = 0,96 – 0,96 – 2,0211 2,0211 x 2,13067 = 5,3377 4. Kesimpulan 95% kemungkinan rerata beda kedua sampel berkisar antara -3,4177 s/d 5,3377 Estimasi Proporsi dan Estimasi Beda Proporsi Proporsi Mau sampelnya besar atau kecil, caranya sama seperti pada bab sebelumnya. Intinya yg dibahas dalam bab ini yaitu kalo sampelnya kecil (60 ke bawah) tidak pakai Z score spt bab sebelumnya, tapi pake t score jadi perlu tabel t. Prinsip rumusnya sama, tinggal ganti Z score dengan t score. Khusus kalau nyari estimasi beda rerata perlu uji homogenitas (Levene test) terlebih dahulu. Cara mencari nilai Standar Error pada data yang homogen atau heterogen berbeda. Sudah dijelaskan di atas 9 =================================== ================================= End of Chapter 9 ===================================
View more...
Comments