Generalized Linear Model, Regresi Logistik, dan Model Logit untuk Data Kategorik beserta contoh
May 18, 2019 | Author: Christian Beren | Category: N/A
Short Description
Analisis Data Kategorik...
Description
Analisis Data Kategorik
GENERALIZED LINEAR MODEL, REGRESI LOGISTIK, DAN MODEL LOGIT
MARLIANI RARA RAHAYU
H12112010
NURKAMILA JAFAR
H12112014
INDAH
H12112106
CHRISTIAN BEREN
H12112276
PROGRAM STUDI STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS HASANUDDIN 2014
GENERALIZED LINEAR MODEL (GLM) GLM pertama kali diperkenalkan oleh Nelder dan Wedderburn pada tahun 1972. GLM secara spesifik terbagi menjadi 3 bagian penting yaitu komponen acak, komponen sistematik, dan fungsi penghubung. 1.
Komponen Acak
Komponen acak dari sebuah GLM terdiri atas peubah respon Y 1, Y 2, …, Yn yang merupakan contoh acak dimana Y i ~ (µi, σ2) dan termasuk dalam keluarga sebaran eksponensial 2.
Komponen Sistematik
Komponen Sistematik merupakan fungsi dari peubah penjelas yang membentuk model η = Xβ Misalkan ηi = β1x1i + β2x2i + β3x3i + … + β px pi 3.
Fungsi Penghubung
Komponen ketiga dari GLM adalah penghubung antara komponen acak dan komponen sistematik. Misalkan µ i = E(yi) , i= 1,…,N. lalu µ i dihubungkan ke η i dengan ηi = g(µi) dimana g adalah sebuah fungsi diferensial monoton.
Model Linear Umum/GLM terbagi atas: 1. Analisis Regresi Linear Analisis Regresi Linear adalah hubungan fungsional antara variabel independen dengan variabel dependen 2. Analisis Varians (ANOVA) Analisis Varians (ANOVA) merupakan suatu model analisis statistika yang termasuk ke dalam cabang statistika inferensi. ANOVA adalah prosedur statistika untuk mengkaji apakah rata-rata hitung (mean) dari beberapa populasi sama atau tidak. ANOVA terdiri atas ANOVA satu arah (one way anova), ANOVA dua arah tanpa interaksi (anova two way without interaction), dan ANOVA dua arah dengan interaksi (anova two way with interaction). 3. Analisis Covarians (ANACOVA)
Analisis Covarians (ANACOVA) merupakan model linear dengan satu variabel dependen kontinu dan satu atau lebih variabel independen. ANACOVA merupakan penggabungan antara ANOVA dan regresi linear yang lazimnya mengunakan variabel kontinu (kuantitatif). 4. Analisis Regresi Logistik Analisis Regresi Logistik merupakan teknik statistik yang digunakan untuk mengetahui pengaruh satu variable independen atau lebih (X) terhadap satu variable dependen (Y), dengan syarat:
Variabel dependent harus merupakan variable dummy yang hanya punya dua alternatif. Misalnya
Puas atau tidak puas, dimana jika
responden menjawab puas maka kita beri skor 1 dan jika menjawab tidak puas kita beri skor 0.
Variabel independent mempunyai skala data interval atau rasio.
REGRESI LOGISTIK Regresi logistik adalah bagian dari analisis regresi yang digunakan ketika variabel dependen (respon) merupakan variabel dikotomi. Variabel dikotomi biasanya hanya terdiri atas dua nilai, yang mewakili kemunculan atau tidak adanya suatu kejadian yang biasanya diberi angka 0 atau 1. Tidak seperti regresi linier biasa, regresi logistik tidak mengasumsikan hubungan antara variabel independen dan dependen secara linier. Regresi logistik merupakan regresi non linier dimana model yang ditentukan akan mengikuti pola kurva seperti gambar di bawah ini:
Asumsi-asumsi dalam regresi logistik:
Tidak mengasumsikan hubungan linier antar variabel dependen dan independent
Variabel dependen harus bersifat dikotomi (2 variabel)
Variabel independent tidak harus memiliki keragaman yang sama antar kelompok variabel
Kategori dalam variabel independent harus terpisah satu sama lain atau bersifat eksklusif
Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data untuk sebuah variabel prediktor (bebas).
Regresi logistik terdiri atas 1. Regresi Logistik Biner Regresi Logistik Biner atau dikotomi adalah regresi logistik dimana variabel dependennya hanya mempunyai dua kategori saja, yang menyatakan kejadian sukses (Y=1) dan kejadian gagal (Y=0). Sebagai contoh, ingin diketahui apakah konsumen akan membeli makanan di rumah makan berdasarkan penilaian konsumen terhadap lokasi, pelayanan, pendapatan, kebersihan, selera dan harga. Dalam kasus ini hanya ada 2
kemungkinan respon konsumen yaitu konsumen membeli (Y=1) dan tidak membeli (Y=0) 2. Regresi Logistik Multinomial Regresi Logistik Multinomial adalah regresi logistik dimana variabel dependennya lebih dari dua kategori.
MODEL LOGIT Model logit adalah model regresi non-linear yang menghasilkan sebuah persamaan dimana variabel dependen bersifat kategorikal. Kategori paling darsar dari model tersebut menghasilkan binary values seperti angka 0 dan 1. Model logit adalah model yang digunakan pada regresi logistik. Bentuk dasar probabilitas pada model logit dapat dijelaskan pada tabel berikut: Yi
Probabilitas
0
1-Pi
1
Pi
Total
1
Contoh penggunaan data tersebut seperti dalam kategori kepemilikan rumah, dimana nilai 0 memiliki arti tidak memiliki rumah, dan nilai 1 memiliki arti memiliki rumah. Persamaan regresi logit diperoleh dari penurunan persamaan probabilitas dari kategori-kategori yang akan diestimasi. Persamaan probabilitas tersebut adalah:
( )
( )
Persamaan tersebut dapat disederhanakan dengan mengasumsikan (
) adalah , sehingga menghasilkan persamaan berikut:
CONTOH SOAL DAN PENERAPAN DALAM SOFTWARE Contoh kasus analisis regresi logistik biner: Dilakukan simulasi untuk melihat pengaruh antara variabel profitabilitas, kompleksitas perusahaan, opini auditor, likuiditas dan ukuran perusahaan terhadap ketepatan penyampaian laporan keuangan tahunan perusahaan. Profitabilitas diukur dengan ROA; variabel kompleksitas terdiri atas 2 kategorik yaitu diberi angka 2 jika mempunyai anak perusahaan dan 1 jika perusahaan tidak mempunyai anak perusahaan; opini auditor diukur dengan 2 jika mendapatkan opini wajar tanpa pengecualian dan 1 untuk opini yang lain; likuiditas diukur dengan Current Ratio; dan ukuran perusahaan diukur dengan logaritma natural market value. Variabel terikatnya adalah ketepatan penyampaian laporan keuangan, dengan kode 1 untuk perusahaan yang tepat waktu dan 0 untuk perusahaan yang terlambat. Datanya adalah sebagai berikut:
1
1,73
1
1
4,01
15,22
0
0,83
1
1
0,50
13,62
0
2,04
2
2
3,47
17,41
1
4,09
2
2
1,22
16,87
1
0,85
1
2
39,00
11,62
1
2,29
1
2
2,80
15,98
0
0,50
2
2
9,21
14,27
1
0,17
1
2
4,12
11,12
1
3,21
1
2
0,80
17,12
1
2,52
2
1
4,44
17,46
1
1,30
1
2
5,74
12,05
1
1,57
2
2
3,23
14,41
0
2,26
2
2
3,49
17,45
0
2,54
2
2
5,01
15,09
1
1,64
2
2
7,75
14,57
0
1,25
1
1
0,96
11,61
1
3,58
2
1
3,25
14,90
0
1,59
2
2
4,50
15,05
1
5,77
1
2
6,37
17,33
0
1,96
1
2
4,60
11,72
1
1,57
1
1
0,06
11,60
0
2,06
1
1
4,06
15,51
0
2,40
1
1
3,38
17,54
1
0,57
1
1
12,70
14,15
1
2,96
2
2
1,18
16,95
0
1,48
1
2
2,64
15,82
1
0,25
2
1
8,91
14,22
1
0,59
1
2
7,38
12,20
0
1,42
1
1
1,07
17,87
0
0,23
2
2
4,18
17,30
1
4,30
2
2
6,89
15,22
0
0,14
1
1
0,15
17,46
1
2,35
1
2
5,60
11,61
1
1,60
1
2
5,91
14,59
1
1,29
1
2
1,16
18,21
0
0,89
1
1
4,30
15,09
1
1,70
2
2
7,88
15,98
0
1,01
1
1
0,43
10,36
0
0,35
2
2
1,17
9,99
1
0,99
2
2
9,75
13,63
0
0,16
1
2
2,60
11,01
1
5,37
1
2
5,38
12,98
0
1,16
2
2
2,90
13,04
1
1,20
1
1
6,46
17,41
1
0,56
1
1
2,19
16,03
1
2,82
1
1
7,94
17,54
1
3,55
1
2
9,16
15,98
0
1,90
1
1
3,49
13,62
0
1,50
1
2
0,50
17,41
0
0,12
2
2
2,16
16,87
1
2,26
1
2
4,11
11,62
0
1,48
1
1
1,84
15,98
0
0,96
1
2
2,22
14,27
1
2,96
1
2
4,60
11,12
0
1,15
1
1
5,01
17,12
1
1,21
1
1
4,18
17,46
1
3,50
1
2
3,37
12,05
0
0,42
2
2
0,98
10,96
0
1,98
1
2
0,46
9,83
1
2,21
1
1
3,90
14,01
0
3,14
1
1
1,12
12,36
0
1,87
2
2
2,85
10,55
0
0,19
1
2
3,01
10,01
1
1,12
1
1
4,50
17,53
1
5,60
1
1
5,25
16,94
0
0,28
1
2
1,44
9,92
1
3,77
2
1
8,98
11,19
0
2,26
1
2
0,30
11,05
0
2,01
1
2
2,07
14,07
0
0,16
1
1
3,11
10,55
Keterangan:
= ketepatan penyampaian laporan keuangan tahunan perusahaan, bernilai 1 apabila penyampaiannya tepat, dan bernilai 0 apabila penyampaiannya tidak tepat
= profitabilitas = kompleksitas perusahaan, diberi angka 2 jika mempunyai anak perusahaan dan 1 jika perusahaan tidak mempunyai anak perusahaan
= opini auditor, diberi angka 2 jika mendapatkan opini wajar tanpa pengecualian dan 1 untuk opini yang lain
= likuiditas = ukuran perusahaan
Jawab:
Setelah data di atas diinput di SPSS, maka akan diperoleh ouput data yang nantinya dapat digunakan untuk membentuk persamaan regresi logistik, juga dari output yang diperoleh dapat ditarik kesimpulan mengenai apakah terdapat pengaruh variabel profitabilitas, kompleksitas perusahaan, opini auditor, likuiditas dan ukuran perusahaan terhadap ketepatan penyampaian laporan keuangan tahunan perusahaan melalui uji hipotesis. Berikut adalah hasil analisis ouput SPSS: Identifikasi Data yang Hilang Case Processing Summary Unweighted Cases Selected Cases
a
N Included in Analysis
Percent 70
100,0
0
,0
70
100,0
0
,0
70
100,0
Missing Cases Total Unselected Cases Total
a. If weight is in effect, see classification table for the total number of cases.
Pada tabel di atas, dapat dilihat tidak ada data yang hilang (missing cases).
Pemberian kode variabel respon oleh SPSS
Menurut pengkodean SPSS, yang termasuk kategori sukses adalah penyampaian laporan keuangan tahunan yang tepat.
Pemberian kode untuk variabel penjelas yang kategorik
Pengkodean variabel penjelas hanya dilakukan untuk variabel penjelas yang kategorik karena akan dibentuk dummy variabel. Penelitian ini menggunakan dua variabel penjelas yang kategorik yaitu variabel Opini dan variabel Kompleksitas. Untuk variabel Opini, nantinya yang akan digunakan sebagai reference code (kode pembanding) adalah Wajar Tanpa Pengecualian (lihat pada tabel di atas bagian parameter codings yang berkode nol). Sementara untuk variabel Kompleksitas, yang menjadi kode pembanding adalah punya anak perusahaan.
Kode pembanding ini akan digunakan untuk interpretasi Odds Rati o.
Uji Kelayakan Model (Goodness of Fit)
Uji Goodness of Fit digunakan untuk melihat apakah data empiris cocok atau tidak dengan model atau dengan kata lain diharapkan tidak ada perbedaan antara data empiris dengan model. Berikut ini cara menguji kelayakan model:
Apakah model sudah fit? Perhatikan nilai statistik-2 Log Likelihood. Untuk bagian Beginning, yaitu nilai -2 Log likelihood yang masih hanya menggunakan konstanta (c) adalah 96,983 sedangkan saat kita sudah melibatkan lima variabel bebasnya, nilai -2 Log Likelihood adalah 63,789 (iterasi maksimum 6). Hal ini sudah menunjukkan ada penurunan nilai saat variabel bebas sudah ikut dalam perhitungan yakni sebesar 96,983-63,789 = 33,194 (Lebih jelasnya, dapat lihat pada bagian Omnibus Tests of Coefficients) Untuk Beginning, ternyata dihasilkan koefisien dari -2 Log Likelihood 0,057 yang lebih besar dibanding alpha 5% sehingga dengan demikian kita menerima hipotesis nol yakni model sudah fit.
Kalau dalam regresi biasa, nilai R square digunakan untuk menunjukkan pengaruh bersama. Pada regresi logistik digunakan Cox & Snell dan Nagelkerke R Square. Secara bersama, variabel profitabilitas, kompleksitas perusahaan, opini auditor, likuiditas dan ukuran perusahaan yang dipakai dalam penelitian sudah mampu menjelaskan keragaman data sebesar 50,4% (misal dengan Nagelkerke)
sedangkan sisanya sebesar 49,6% dijelaskan oleh variabel lain di luar model penelitian
Selanjutnya dilakukan uji hipotesis dengan Hosmer and Lemeshow Test. Hasilnya, nilai Sig 0,389 lebih besar daripada alpha 5% sehingga hipotesis nol diterima (secara statistik tidak terdapat perbedaan yang signifikan antara model dengan nilai observasi) sehingga model sudah fit dengan data.
Uji Signifikansi Model
Overall Test
Dari hasil SPSS dapat digunakan tabel “ Omni bus
” Tests of M odel Coef fi cients
untuk melihat hasil pengujian secara simultan pengaruh variabel bebas ini.
: tidak ada variabel X yang signifikan mempengaruhi variabel Y nya. : minimal ada satu variabel X yang signifikan mempengaruhi variabel Y nya. Kriteria uji : Tolak jika nilai Sig. < 0,05 Berdasarkan tabel di atas diperoleh nilai Sig.Model sebesar 0.000. Karena nilai ini lebih kecil dari 5% maka kita menolak Ho pada tingkat signifikansi 5% sehingga
disimpulkan bahwa variabel bebas yang digunakan, secara bersama-sama berpengaruh terhadap ketepatan penyampaian laporan keuangan suatu perusahaan. Atau minimal ada satu variabel bebas yang berpengaruh.
Partial Test
Pada uji diharapkan akan ditolak sehingga variabel yang sedang diuji masuk ke dalam model. Dengan bantuan tabel “Variables in The Equation” dapat dilihat variabel mana saja yang berpengaruh signifikan sehingga bisa dimasukkan ke model.
: (variabel Profitabilitas ( ) tidak signifikan mempengaruhi variabel Tepat ())
: (variabel Profitabilitas ( ) signifikan mempengaruhi variabel Tepat ()) Kriteria uji : Tolak jika nilai Sig. < 0,05 Keputusan: Tolak karena Sig. = 0,004 < 0,05 Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Profitabilitas ( ) signifikan mempengaruhi variabel Tepat ()
: (variabel Kompleksitas ( ) tidak signifikan mempengaruhi variabel Tepat ())
: (variabel Kompleksitas () signifikan mempengaruhi variabel Tepat ()) Kriteria uji : Tolak jika nilai Sig. < 0,05 Keputusan: Terima karena Sig. = 0,150 > 0,05 Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Kompleksitas ( ) tidak signifikan mempengaruhi variabel Tepat
()
: (variabel Opini () tidak signifikan mempengaruhi variabel Tepat ()) : (variabel Opini ( ) signifikan mempengaruhi variabel Tepat ()) Kriteria uji : Tolak jika nilai Sig. < 0,05 Keputusan: Terima karena Sig. = 0,811 > 0,05 Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Opini ( ) tidak signifikan mempengaruhi variabel Tepat ()
: (variabel Likuiditas ( ) tidak signifikan mempengaruhi variabel Tepat ())
: (variabel Likuiditas ( ) signifikan mempengaruhi variabel Tepat ()) Kriteria uji : Tolak jika nilai Sig. < 0,05 Keputusan: Tolak karena Sig. = 0,000 < 0,05 Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Likuiditas ( ) signifikan mempengaruhi variabel Tepat ()
: (variabel Ukuran Perusahaan ( ) tidak signifikan mempengaruhi variabel Tepat ())
: (variabel Ukuran Perusahaan ( ) signifikan mempengaruhi variabel Tepat ()) Kriteria uji : Tolak jika nilai Sig. < 0,05 Keputusan: Terima karena Sig. = 0,410 > 0,05 Kesimpulan: Dengan tingkat keyakinan 95%, dapat disimpulkan bahwa variabel Ukuran Perusahaan ( ) tidak signifikan mempengaruhi variabel Tepat ()
Persentase Ketepatan Klasifikasi (Percentage Correct)
Persentase ketepatan model dalam mengkasifikasikan observasi adalah 78.6 persen.
Artinya
dari
70
observasi,
ada
55
observasi
yang
tepat
pengklasifikasiannya oleh model regresi logistik. Jumlah observasi yang tepat pengklasifikasiannya dapat dilihat pada diagonal utama.
Pembentukan Model
Berdasarkan hasil di atas diketahui bahwa terdapat 2 variabel bebas yang signifikan berpengaruh terhadap ketepatan penyampaian laporan keuangan perusahaan karena masing-masing variabel tersebut memiliki nilai signifikansi yang lebih kecil dari a=5%. Variabel-variabel tersebut adalah Profitabilitas (Sig.=0.004) dan Likuiditas (Sig.=0.000). Model regresi logistik yang terbentuk adalah:
()
( ) ( ) ( ) ( )
dimana:
:
= Profitabilitas = Likuiditas
Interpretasi Odds Ratio
Nilai Odds ratio ini juga disediakan oleh tabel “ Variables in The Equation” pada kolom Exp(B) :
Berdasarkan hasil di atas kita dapat menginterpretasikan Odds ratio sebagai berikut : 1. Jika jumlah profitabilitas perusahaan bertambah 1 unit maka kecendrungan perusahaan tersebut untuk tepat waktu menyampaikan laporan keuangan menjadi 2.780 kali lipat. 2. Sebuah perusahaan yang tidak mempunyai anak perusahaan akan memiliki kecenderungan untuk menyampaikan laporan keuangan secara tepat waktu sebesar 3.057 kali dibanding perusahaan yang memiliki anak perusahaan (merujuk pada reference code). 3. Perusahaan dengan opini auditor adalah opini lain cenderung 0.848 kali (lebih rendah) untuk tepat waktu dalam menyampaikan laporan keuangan dibanding dengan perusahaan yang Wajar tanpa Pengecualian. 4. Jika Current ratio pada likuiditas bertambah 1 persen maka perusahaan akan cenderung 1.708 kali untuk tepat waktu menyampaikan laporan keuangannya.
5. Ketika ukuran perusahaan bertambah 1 unit maka perusahaan tersebut cenderung 1.123 kali untuk tepat waktu dalam menyampaikan laporan keuangannya.
View more...
Comments