Laporan Praktikum Data Mining
April 22, 2017 | Author: Arif Rakhmanto | Category: N/A
Short Description
Laporan Praktikum Data Mining Teknik Industri Universitas Islam Indonesia Yogyakarta...
Description
LAPORAN RESMI PRAKTIKUM DATA MINING CLUSTERING
DISUSUN OLEH: KELOMPOK C.23 ARIF RAKHMANTO (08 522 200) CATUR HERMAWANTO (08 522 210)
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA 2010
ABSTRAKS Analisis cluster merupakan salah satu teknik multivariat dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek dengan kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Metode yang digunakan dalam peneliatian ini adalah metode hirarki. Dan dari hasil penelitian yang dilakukan terbentuk 3 cluster dan 1 outlier. Keyword : Analisis Cluster, Metode Hirarki, Dendogram
BAB I PENDAHULUAN
1.1 Latar Belakang masalah Laboratorium Data Mining merupakan salah satu lab. yang dibuat oleh UII yang ditujukan kepada mahasiswa jurusan teknik industri. Namun mahasiswa biasanya datang ke laboratorium hanya untuk melaksanakan praktikum saja. Padahal laboratorium tersebut dibuat tidak hanya untuk keperluan praktikum. Maka dengan penelitian yang dilakukan akan diketahui profilisasi mahasiswa yang berkunjung ke laboratorium data mining. Profilisasi tersebut berisi jenis kelamin, usia, angkatan, intensitas, dan durasi atau berapa lama biasanya responden tersebut berada di laboratorium.
1.2 Rumusan Masalah 1. Berapa cluster yang terbentuk dari penelitian yang dilakukan ? 2. Bagaimana hasil profilisasi customer berdasarkan penelitian ?
1.3 Batasan Masalah 1. Penelitian dikhususkan pada mahasiswa Teknik Industri. 2. Obyek lokasi penelitian adalah Laboratorium Data Mining.
1.4 Tujuan penelitian 1. Untuk mengetahui berapa banyak cluster yang akan terbentuk dari penelitian yang dilakukan. 2. Untuk mengetahui hasil profilisasi customer berdasarkan penelitian.
1.5 Manfaat Penelitian Penelitian ini bermafaat untuk mengetahui apakah laboratorium data mining perlu meningkatkan pelayanan, mengatur ulang tata letak dan menambah fasilitas atau tidak. Manfaat lainnya adalah untuk mengetahui presentase angkatan berapa yang rata – rata mengambil praktikum data mining.
BAB II LANDASAN TEORI Analisis cluster merupakan salah satu teknik multivariat yang digunakan dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variasi data obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster secara keseluruhan bergantung pada variabel-variabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasil analisis cluster. Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar. Penerapan analisis cluster di dalam pemasaran adalah sebagai berikut : 1. Membuat segmen pasar (segmenting the market) Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan yang diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang relatif homogen, dinyatakan dalam manfaat yang dicari. 2. Memahami perilaku pembeli Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli yang homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok perlu dikaji secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada self-reported importance yang terkait pada setiap faktor pilihan yang digunakan untuk memilih toko atau mall di mana para pembeli membeli barang yang dibutuhkan. 3. Mengenali peluang produk baru Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa ditentukan. Merek di dalam klaster yang sama bersaing sengit satu sama lain, daripada merek dari klaster lain.
BAB III METODOLOGI PENELITIAN 3.1 Lokasi Penelitian Laboratorium Data Mining Teknik Industri FTI UII
3.2 Objek Penelitian Mahasiswa teknik industri UII
3.3 Metode Pengumpulan Data 1. Data Primer Data primer merupakan data yang didapatkan oleh peneliti langsung dari objeknya. Yang menjadi data primer dalam penelitian ini adalah data yang berasal dari kuisioner yang diisi langsung oleh para responden. 2. Data Sekunder Data sekunder adalah data yang didapatkan setelah dilakukan proses analisa dan interpretasi terhadap data – data primer atau data – data yang telah ada sebelumnya
sesuai dengan tujuan penelitian.. Yang merupakan data
sekunder pada penelitian ini adalah data – data yang telah diclustering menggunakan metode hirarki dan memakai software SPSS.
3.4. Flowchart Penelitian
Mulai
Rumusan Masalah
Input Data
Clustering – Metode Hirarki
Profilisasi Customer
Selesai
Gambar 3.1 Flowchart Penelitian
3.5. Langkah Software Kuisioner Tingkat Kepuasan 1.
Input data yang diperoleh ke software
2.
Pilih analyze klik Clasify lalu pilih Hirarchical Cluster
3.
Variabel : Letakkan semua Variabel X yang valid
4.
Label case by : Letakkan nama responden
5.
Cluster : Case
6.
Display : statistic, plot
7.
Statistik : agglomeration schedule
8.
Plots : klik Dendogram
9.
I ccicle : none
10. Method : Cluster Method Pilih nearest neighbor measure Interval pilih Squared Euqliden Distance 11. Klik save Cluster membership : none
Kuisioner Profilisasi Customer 1. Input data yang diperoleh ke software 2. Pilih analyze klik Descriptive Statistics lalu pilih Crosstabs 3. Row : Letakkan semua variable Y yang valid 4. Column : Letakkan Cluster Member 5. Exact : Asymptotic only 6. Statistics : Correlations 7. Cells : Counts klik observed, Noninteger Weights klik Round Cells Counts 8. Format : Row Order klik Ascending 9. Klik OK
BAB IV PENGUMPULAN DAN PENGOLAHAN DATA 4.1. Pengumpulan Data Hasil Rekapitulasi Kuesioner Profilisasi Customer Tabel 4.1 Rekapitulasi Kuesioner Profilisasi Customer No.
Nama
Jenis Kelamin
Usia
Angkatan Intensitas
Durasi
1
Sekar
2
3
2
3
4
2
Hendia V. R
2
3
2
2
3
3
Huda
1
2
2
4
3
4
Annisa
2
3
2
4
2
5
Fitra
1
3
2
4
2
6
Fandi
1
2
2
3
2
7
Maro
2
2
2
3
2
8
Ikhsan
1
3
2
3
3
9
Aya'
2
3
2
4
1
10
Mabok
1
3
2
3
4
11
Richo
1
3
3
4
1
12
Atlit
2
3
2
3
3
13
Digdoyo
1
2
3
4
1
14
Sigit
1
3
2
2
4
15
Anestia
2
3
2
2
4
16
Ayu
2
3
2
1
4
17
Ryan
1
3
2
1
4
18
Fauzi
1
3
2
1
4
19
Dika Oki
1
3
1
2
1
20
Hendi
1
3
2
2
1
21
Kristin
2
3
2
1
4
22
Farikh
1
2
3
4
1
23
Adit
1
3
1
1
4
24
Nunuk
1
3
1
4
1
No.
Nama
Jenis Kelamin
Usia
Angkatan Intensitas
Durasi
25
Wanda
1
3
1
4
1
26
Trisno
1
3
2
4
1
27
Rizki D.K.
1
3
1
1
3
28
Himawan
1
3
1
2
4
29
Omiyabi
1
3
1
2
3
30
Laskar Kesatria
1
3
1
2
3
31
Ibnu Herlino
1
3
2
3
4
32
Chanifa Yunani
2
2
3
4
3
33
Tomy
1
3
2
2
2
34
Safri Halimi
1
3
2
4
1
35
Rozaq
1
3
2
1
4
36
Lenny Octaviani
2
2
2
3
3
37
Nurul Luklu
2
3
2
3
4
38
Abdul Hafith
1
3
2
1
4
39
Syarif
1
3
2
2
3
40
Novi
2
2
2
3
3
41
Kidhut
1
3
2
1
4
42
Vivialita
2
3
2
3
3
43
Arfiana
2
3
2
4
3
44
Maya
2
3
2
2
2
45
Karen
2
3
2
4
1
46
Didit
1
3
2
3
3
47
Tasya
2
3
2
3
1
48
Tyas
2
3
2
4
2
49
Jusman Bieber
1
3
1
2
4
50
Galih
1
3
2
3
2
Hasil Rekapitulasi Kuesioner Tingkat Kepuasan Tabel 4.2 Rekapitulasi Kuesioner Tingkat Kepuasan No
Nama
Fasilitas
Pelayanan
Tata Letak
Kenyamanan
1
Sekar
3
3
4
3
2
Hendia V. R
3
2
3
4
3
Huda
3
3
4
4
4
Annisa
2
3
3
3
5
Fitra
3
3
3
2
6
Fandi
2
2
2
1
7
Maro
2
2
2
2
8
Ikhsan
2
2
3
2
9
Aya'
2
3
3
2
10
Mabok
2
2
2
2
11
Richo
2
3
2
2
12
Atlit
3
3
4
4
13
Digdoyo
2
3
2
2
14
Sigit
2
2
3
3
15
Anestia
2
3
3
2
16
Ayu
1
2
1
3
17
Ryan
2
2
3
3
18
Fauzi
2
2
1
3
19
Dika Oki
1
2
2
3
20
Hendi
2
2
3
3
21
Kristin
1
2
1
3
22
Farikh
2
1
2
3
23
Adit
2
2
2
1
24
Nunuk
2
2
3
2
25
Wanda
2
3
3
3
26
Trisno
1
2
2
1
27
Rizki D.K.
2
3
2
3
28
Himawan
2
3
2
2
29
Omiyabi
2
3
2
1
No
Nama
Fasilitas
Pelayanan
Tata Letak
Kenyamanan
30
Laskar Kesatria
2
3
2
2
31
Ibnu Herlino
2
2
2
2
32
Chanifa Yunani
2
2
2
2
33
Tomy
2
2
3
2
34
Safri Halimi
2
2
2
2
35
Rozaq
1
2
3
1
36
Lenny Octaviani
3
2
3
2
37
Nurul Luklu
2
2
2
2
38
Abdul Hafith
2
3
1
1
39
Syarif
2
2
2
2
40
Novi
2
2
2
2
41
Kidhut
1
1
1
1
42
Vivialita
3
4
3
3
43
Arfiana
3
3
3
3
44
Maya
3
2
3
2
45
Karen
3
3
3
3
46
Didit
3
3
3
2
47
Tasya
2
2
4
4
48
Tyas
3
2
2
2
49
Jusman Bieber
2
3
3
3
50
Galih
2
2
2
1
4.2. Pengolahan Data 4.2.1. Metode Hirarki a. Stage Tabel 4.3 Agglomeration Schedule Cluster Combined Stage
Stage Cluster First Appears Coefficients
Cluster 1 Cluster 2
Next Stage Cluster 1
Cluster 2
1
23
50
.000
0
0
17
2
25
49
.000
0
0
15
3
5
46
.000
0
0
42
4
43
45
.000
0
0
26
5
36
44
.000
0
0
25
6
39
40
.000
0
0
7
7
37
39
.000
0
6
8
8
34
37
.000
0
7
9
9
32
34
.000
0
8
11
10
24
33
.000
0
0
16
11
31
32
.000
0
9
12
12
10
31
.000
0
11
24
13
28
30
.000
0
0
14
14
13
28
.000
0
13
22
15
4
25
.000
0
2
32
16
8
24
.000
0
10
29
17
6
23
.000
0
1
33
18
16
21
.000
0
0
34
19
17
20
.000
0
0
20
20
14
17
.000
0
19
36
21
9
15
.000
0
0
38
22
11
13
.000
0
14
31
Cluster Combined Stage
Stage Cluster First Appears Coefficients
Cluster 1 Cluster 2
Next Stage Cluster 1
Cluster 2
23
3
12
.000
0
0
44
24
7
10
.000
0
12
37
25
36
48
1.000
5
0
29
26
42
43
1.000
0
4
27
27
1
42
1.000
0
26
42
28
29
38
1.000
0
0
31
29
8
36
1.000
16
25
36
30
26
35
1.000
0
0
33
31
11
29
1.000
22
28
37
32
4
27
1.000
15
0
41
33
6
26
1.000
17
30
40
34
16
19
1.000
18
0
35
35
16
18
1.000
34
0
48
36
8
14
1.000
29
20
38
37
7
11
1.000
24
31
39
38
8
9
1.000
36
21
39
39
7
8
1.000
37
38
40
40
6
7
1.000
33
39
41
41
4
6
1.000
32
40
43
42
1
5
1.000
27
3
43
43
1
4
1.000
42
41
44
44
1
3
1.000
43
23
45
45
1
47
2.000
44
0
46
46
1
41
2.000
45
0
47
47
1
22
2.000
46
0
48
Cluster Combined Stage
Stage Cluster First Appears Coefficients
Cluster 1 Cluster 2
Next Stage Cluster 1
Cluster 2
48
1
16
2.000
47
35
49
49
1
2
2.000
48
0
0
b. Dendogram Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E Label Num
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
Adit Galih Fandi Trisno Rozaq Syarif Novi Nurul Lu Safri Ha Chanifa Ibnu Her Mabok Maro Himawan Laskar K Digdoyo Richo Omiyabi Abdul Ha Aya' Anestia Ryan Hendi Sigit Nunuk Tomy Ikhsan Lenny Oc Maya Tyas Wanda Jusman B Annisa Rizki D. Fitra Didit Arfiana Karen Vivialit Sekar Huda Atlit Tasya Kidhut Farikh Ayu Kristin Dika Oki Fauzi
23 50 6 26 35 39 40 37 34 32 31 10 7 28 30 13 11 29 38 9 15 17 20 14 24 33 8 36 44 48 25 49 4 27 5 46 43 45 42 1 3 12 47 41 22 16 21 19 18
─┐ ─┼───────────────────────┐ ─┘ │ ─────────────────────────┤ ─────────────────────────┤ ─┐ │ ─┤ │ ─┤ │ ─┤ │ ─┤ │ ─┤ │ ─┼───────────────────────┤ ─┘ │ ─┐ │ ─┤ │ ─┼───────────────────────┤ ─┘ │ ─────────────────────────┤ ─────────────────────────┤ ─┬───────────────────────┤ ─┘ │ ─┐ │ ─┼───────────────────────┤ ─┘ │ ─┐ │ ─┼───────────────────────┤ ─┘ │ ─┬───────────────────────┤ ─┘ │ ─────────────────────────┤ ─┐ │ ─┼───────────────────────┤ ─┘ │ ─────────────────────────┤ ─┬───────────────────────┼───────────────────────┐ ─┘ │ │ ─┬───────────────────────┤ │ ─┘ │ │ ─────────────────────────┤ │ ─────────────────────────┤ │ ─┬───────────────────────┘ │ ─┘ │ ─────────────────────────────────────────────────┤ ─────────────────────────────────────────────────┤ ─────────────────────────────────────────────────┤ ─┬───────────────────────┐ │ ─┘ │ │ ─────────────────────────┼───────────────────────┤ ─────────────────────────┘ │
Hendia V
2
─────────────────────────────────────────────────┘
Gambar 4.1 Dendogram
c. Cluster Tabel 4.4 Cluster Cluster 1
Cluster 2
Cluster 3
Cluster 4 (outlier)
Adit
Tasya
Ayu
Hendia V.
Galih
Kidhut
Kristin
Fandi
Farikh
Dika Oki
Trisno Rozaq Syarif Novi Nurul Luklu Safri Halimi Chanifa Ibnu Herlino Mabok Maro Himawan Laskar Kesatria Digdiyo Richo Omiyabi Abdul Hafit Aya’ Anestia Ryan Hendi Sigit Nunuk Tomy Ikhsan Lenny Oktaviani Maya
Fauzi
Cluster 1 Tyas Wanda Jusman Beiber Annisa Rizki D Didit Arfiana Karen Vivialita Sekar Huda Atlit
Cluster 2
Cluster 3
Cluster 4 (outlier)
4.2.2. Profilisasi Customer
Tabel 4.5 Jenis Kelamin * Cluster Member Cluster Member
Jenis Kelamin Laki - laki
Count
1
2
3
4
Total
27
2
2
0
31
4.0%
4.0%
.0%
62.0%
1
2
1
19
2.0%
4.0%
2.0%
38.0%
3
4
1
50
6.0%
8.0%
2.0%
100.0%
% of Total 54.0% Perempuan Count
15
% of Total 30.0% Total
Count
42
% of Total 84.0%
Tabel 4.6 Usia * Cluster Member Cluster Member
Usia
17 - 19 tahun Count
1
2
3
4
Total
7
1
0
0
8
2.0%
.0%
.0%
16.0%
2
4
1
42
4.0%
8.0%
2.0%
84.0%
3
4
1
50
6.0%
8.0%
2.0%
100.0%
% of Total 14.0% 20 -22 tahun Count
35
% of Total 70.0% Total
Count
42
% of Total 84.0%
Tabel 4.7 Angkatan * Cluster Member Cluster Member
Angkatan Ftabel ya
Uji MultiKolinearitas VIF < 2
ya Menentukan Persamaan Regresi
Menentukan Nilai R Square
Menentukan Koefisien Korelasi
Selesai
Gambar 1.1 Flowchart
TIDAK
3.5. Langkah Software 12. Input data yang diperoleh ke
independent(X) yang valid
software
16. Case labels : Letakkan nama 13. Pilih analyze klik Regression
daerah
lalu pilih Linear
14. Dependent : Letakkan Variabel dependent (Y) yang valid
17. Statistik : Regression Coefficient lalu klik estimates, model fit, descriptives, collinearity diagnostics lalu klik continue
15. Independent(s) : Letakkan semua Variabel
18. Plots : Y = dependent, X = *adjpred, klik histogram dan probability plot, klik continue
19. Save : predicted values, klik unstandardized, include the convariance matrix, continue.
20. Option : klik Probability of F, include constant in equation, exclude cases listwise, continue.
21. Klik OK
BAB II LANDASAN TEORI
Banyak penelitian yang bertujuan mencari dasar-dasar untuk mengadakan prediksi suatu variabel dari informasi-informasi yang diperoleh dari variabel tersebut. Misalnya, apakah keadaan cuaca dapat diramalkan dari suhu, tekanan udara, kelembaban udara, dan kecepatan angin; Apakah prestasi belajar anak dapat diprediksikan dari angka kecerdasan dan perbendaharaan bahasa (kosa kata); Apakah prestasi pemain sepak bola dapat dipresiksi dari keahliannya dan umur pemain tersebut; dan sebagainya. Maka diperlukan metoda untuk dapat memecahkan semua masalah yang ada untuk memudahkan dalam pengambilan keputusan. Salah satu tool atau metoda untuk memprediksi adalah Regresi. Dalam kehidupan sehari-hari kita sering melihat suatu peristiwa atau keadaan yang terjadi akibat peristiwa yang lain. Untuk mengetahui hubungan antara kejadian tersebut, terutama untuk menelusuri pola hubungan yang modelnya belum diketahui maka analisis regresi dapat dijadikan alat untuk membantu menganalisis hubungan tersebut. Analisis regresi memiliki 3 kegunaan yaitu, deskripsi, kendali, dan prediksi (peramalan). Tetapi manfaat utama dari kebanyakan penyelidikan statistik dalam dunia bisnis dan ekonomi adalah mengadakan prediksi atau peramalan. Dalam analisis regresi dikenal dua macam variabel atau peubah yaitu variabel bebas (independent variabel) adalah dan variabel tidak bebas (dependent variabel). Variabel bebas (independent variabel) adalah suatau variabel yang nilainya telah diketahui, sedangkan variabel tidak bebas (dependent variabel) adalah variabel yang nialainya belum diketahui dan yang akan diramalkan. Suatu variabel dapat diramalkan dari variabel lain apabila antara variabel yang diramalakan (dependent variabel) dengan variabel yang nilainya diketahui (independent variabel) terdapat hubungan atau korelasi yang signifikan. Misalnya, jika antara tinggi badan dan berat badan pada umur-umur tertentu terdapat korelasi yang signifikan, maka berat badan orang pada umur tersebut akan dapat diramalkan dari tinggi badannya. Korelasi antara independent variable dengan dependent variabel dapat dilukiskan dalam suatu garis. Garis ini disebut garis regresi. Garis regresi mungkin merupakan garis lurus (linier) disebut regresi linier, mungkin juga merupakan garis lengkung (parabolik, hiperbolik,
dan sebagainya) yang disebut regresi non linier. Namun berdasarkan dari data yang ada, maka analisis yang akan digunakan adalah analisis regresi linear berganda. Regresi linier berganda mengamati pengaruh lebih dari satu variabel bebas (independent variable) terhadap variabel tidak bebas (dependent variable), minimal ada dua buah variabel bebas (independent variable). Analisis Linier Berganda adalah suatu metode statistik umum yang digunakan untuk meneliti hubungan antara sebuah variable dependent dengan beberapa variable independent. Tujuan analisis regresi linier berganda adalah menggunakan variable independent yang diketahui, untuk meramalkan variable dependent. Misalnya : penjualan sebuah produk dapat dipengaruhi oleh biaya promosi, biaya produksi, biaya transportasi, gaji karyawan dan lain-lain. Jumlah pengeluaran rumah tangga dipengaruhi oleh pendapatan, jumlah keluarga. Secara matematis regresi linier berganda dapat dituliskan dalam persamaan berikut : Ŷ = a + b1X1 + b2X2 + b3X3 + … + bnXn dimana : Y = variabel yang diramalkan (dependent variable) X1, X2, X3, …, Xn = variabel yang diketahui (independent variable) b1, b2, b3,…, bn = koefisien regresi
BAB III PENGUMPULAN DAN PENGOLAHAN DATA 3.1 Pengumpulan Data 3.1.1 Data Historis butik THE UNIQUE CULTURE
Tabel 3.1 Data historis butik THE UNIQUE CULTURE
No.
Daerah
Penjualan
Biaya Periklanan
Laju Pertumbuhan Penduduk
Luas
Jumlah
Outlet
Pesaing
1
Jakarta Pusat
231
50
2.55
55
35
2
Jakarta Barat
135
17
2.15
46
30
3
Jakarta Selatan
187
18
1.99
53
25
4
Bandung
276
25
1.76
45
33
5
Bogor
233
15
2.3
64
14
6
Cirebon
345
35
2.69
54
5
7
Aceh
267
21
2.56
76
10
8
Medan
163
40
3
56
7
9
Riau
321
34
1.65
67
12
10
Batam
337
44
1.9
68
9
11
Bengkulu
333
24
1.46
40
5
12
Jambi
235
26
1.57
61
4
13
Banten
234
15
1.87
65
7
14
Cilegon
169
26
1.76
55
9
15
Purwakarta
179
11
1.98
41
12
16
Yogyakarta
245
44
1.28
59
53
17
Semarang
100
29
1.76
41
27
18
Pekalongan
256
23
2.23
65
40
19
Solo
139
29
2.21
52
25
20
Bekasi
157
35
2.66
53
12
21
Tangerang
212
23
1.69
54
11
22
Denpasar
365
45
2.56
65
9
No.
Daerah
Penjualan
Biaya Periklanan
Laju Pertumbuhan Penduduk
Luas
Jumlah
Outlet
Pesaing
23
Dumai
250
24
2.39
61
17
24
Bontang
198
19
1.54
51
19
25
Surabaya
284
24
2.88
75
7
26
Kediri
247
29
1.99
58
6
27
Malang
210
22
1.79
64
19
28
Banjarmasin
290
23
2.89
68
6
29
Padang
342
33
2.68
60
8
30
Pekanbaru
214
13
1.79
78
7
31
Manado
320
31
1.78
45
3
32
Jayapura
300
26
1.46
51
5
33
Martapura
349
32
2.7
49
2
34
Sorong
209
21
1.65
54
4
35
Makasar
217
18
1.9
65
9
36
Ambon
89
21
1
40
4
37
Bukit Tinggi
225
22
2.76
50
9
38
Purwokerto
135
21
2.14
47
8
39
Tuban
218
21
2.01
87
6
40
Jombang
175
23
1.87
43
9
41
Bangka
211
15
1.67
53
5
42
Belitung
374
40
2.24
74
4
43
Lampung
256
19
2.58
64
8
44
Mataram
234
27
1.65
70
8
45
Depok
223
18
2.34
45
9
46
Gorontalo
264
39
2.21
88
8
47
Metro
319
39
2.24
65
9
48
Madiun
126
16
1.98
43
5
49
Magelang
110
9
1.22
46
7
50
Palangka Raya
390
39
2.54
90
9
3.1.2 Data yang Akan Diprediksi Tabel 3.2 Data yang akan diprediksi dari butik THE UNIQUE CULTURE Biaya NO
Daerah
Periklanan (juta)
Laju pertumbuhan penduduk (%)
Luas outlet (m2)
Jumlah pesaing
1 Purworejo
22
2.12
39
5
2 Purwodadi
27
1.91
78
3
3 Waykambas
17
1.88
37
6
4 Musi
19
1.69
49
3
5 Tarakan
23
2.23
72
4
3.2 Pengolahan Data 3.2.1 Uji Normalitas
Gambar 3.1
Gambar 3.2
3.2.2 Tabel Model Summary Tabel 3.3 Model Summaryb Model
R
R Square
1
.663a
.440
Adjusted R
Std. Error of
Square
the Estimate
.390
58.90304
3.2.3 Uji Linearitas Tabel 3.4 ANOVAb Model 1
Sum of Squares
df
Mean Square
Regression
122477.380
4
30619.345
Residual
156130.540
45
3469.568
Total
278607.920
49
F
Sig.
8.825 .000a
3.2.4 Uji Multikolinieritas dan Persamaan Regresi Tabel 3.5 Coefficientsa Unstandardized
Standardized
Coefficients
Coefficients
Model
(Constant) Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing
Statistics t
B 1
Collinearity
Std. Error
Sig.
Beta
Tolerance
VIF
36.481
50.393
.724
.473
3.520
.959
.451 3.670
.001
.826
1.211
12.587
19.314
.079
.652
.518
.844
1.185
1.765
.718
.296 2.458
.018
.858
1.165
-1.631
.824
-.230 -1.979
.054
.925
1.081
3.2.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent Tabel 3.6 Correlations Laju Biaya
Pertumbuhan Luas
Penjualan Periklanan Penduduk Pearson
Penjualan
Correlation
Biaya Periklanan
Outlet
Pesaing
1.000
.513
.326
.467
-.193
.513
1.000
.299
.266
.176
.326
.299
1.000
.301
-.101
.467
.266
.301
1.000
-.118
-.193
.176
-.101
-.118
1.000
.
.000
.010
.000
.089
.000
.
.017
.031
.111
.010
.017
.
.017
.242
Luas Outlet
.000
.031
.017
.
.208
Jumlah Pesaing
.089
.111
.242
.208
.
Penjualan
50
50
50
50
50
Biaya Periklanan
50
50
50
50
50
50
50
50
50
50
Luas Outlet
50
50
50
50
50
Jumlah Pesaing
50
50
50
50
50
Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing Sig. (1-tailed) Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk
N
Jumlah
Laju Pertumbuhan Penduduk
3.2.6 Prediksi Berdasarkan table koefisien, maka dapat diperoleh informasi bahwa nilai : a = 36,481 b1 = 3,52 b2 = 12,587 b3 = 1,765 b4 = -1,631 sehingga dapat diperoleh persamaan regresi sebagai berikut :
Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4 Maka prediksi penjualan pada lima kota adalah sebagai berikut : YPurworejo
= 36,481 + 3,52 (22) + 12,587 (2,12) + 1,765 (39) - 1,631 (5) = 201,29
YPurwodadi
= 36,481 + 3,52 (27) + 12,587 (1,91) + 1,765 (78) - 1,631 (3) = 288,34
YWaykambas
= 36,481 + 3,52 (17) + 12,587 (1,88) + 1,765 (37) - 1,631 (6) = 175,5
YMusi
= 36,481 + 3,52 (19) + 12,587 (1,69) + 1,765 (49) - 1,631 (3) = 206,23
YTarakan
= 36,481 + 3,52 (23) + 12,587 (2,23) + 1,765 (72) - 1,631 (4) = 266,07
BAB IV PEMBAHASAN 4.1 Uji Normalitas Berdasarkan histogram yang diperoleh dari output SPSS, maka dapat dilihat bahwa pola histogram relatif membentuk lonceng terbalik. Hal tersebut menunjukkan bahwa data bersifat normal. Selain itu, berdasarkan scater plot juga dapa terlihat bahwa pola distribusi data relatif membentuk linier.
4.2 Tabel Model Summary Dari hasil pengolahan data diperoleh nilai R-square yaitu sebesar 0.440, yang artinya besarnya keragaman antara variabel dependent dengan variabel independent yang terdapat pada persamaan regresi sebesar 0.440, semakin besar nilai R-square semakin baik persamaan regresi tersebut dalam menjelaskan keragaman data.
4.3 Uji Linearitas Hipotesis: Ho: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing tidak berpengaruh pada penjualan. H1: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing berpengaruh pada penjualan. Tingkat signifikansi Level signifikansi = 0.000
df1 = k = 4
df2 = n – k – 1 = 45
Ftabel = 5,56 Fhitung = 8,825 Daerah kritis Jika Fhitung ≥ Ftabel maka Ho ditolak Jika Fhitung ≤ Ftabel maka Ho diterima F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada pengauh yang signifikan antara variable independent terhadap variable dependent.
4.4 Uji Multikolinieritas dan Persamaan Regresi 4.4.1 Uji Multikolinieritas Dengan uji multikolinieritas maka didapat hasil VIF sebagai berikut: VIF Nilai biaya periklanan
= 1.211
VIF Nilai laju pertumbuhan penduduk
= 1.185
VIF Nilai luas outlet
= 1.165
VIF Nilai jumlah pesaing
= 1.081
Karena 4 nilai VIF < 2, maka artinya variabel biaya periklanan, laju pertumbuhan penduduk, luas outlet dan jumlah pesaing tidak saling berkorelasi atau tidak terjadi multikolinieritas.
4.4.2 Persamaan Regresi Dari hasil pengolahan data didapat hasil sebagai berikut; a = 36,481 b1 = 3,52 b2 = 12,587 b3 = 1,765 b4 = -1,631 dengan; Y1 = penjualan X1 = biaya periklanan X2 = laju pertumbuhan penduduk X3 = luas outlet X4 = jumlah pesaing sehingga dapat diperoleh persamaan regresi sebagai berikut : Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4
4.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent Dari hasil pengolahan data diperoleh hubungan korelasi sebagai berikut: 1. Hubungan korelasi antara Y – X1
= 0.513 berarti positif kuat.
2. Hubungan korelasi antara Y – X2
= 0.326 berarti positif lemah
3. Hubungan korelasi antara Y – X3
= 0.467 berarti positif lemah.
4. Hubungan korelasi antara Y – X4
= - 0.193 berarti negatif lemah.
5. Hubungan korelasi antara X1 – X2
= 0.299 berarti positif lemah.
6. Hubungan korelasi antara X1 – X3
= 0.266 berarti positif lemah.
7. Hubungan korelasi antara X1 – X4
= 0.176 berarti positif lemah.
8. Hubungan korelasi antara X2 – X3
= 0.301 berarti positif lemah.
9. Hubungan korelasi antara X2 – X4
= - 0.101 berarti negatif lemah.
10.Hubungan korelasi antara X3 – X4
= - 0.118 berarti negatif lemah.
4.6 Prediksi Dari hasil penghitungan dengan menggunakan persamaaan regeresi dapat diketahui prediksi besar insentif karyawan yang akan diterima sebagai berikut: 1. Di kota Purworejo besar penjualan adalah 201.29 2. Di kota Purwodadi besar penjualan adalah 288.34 3. Di kota Waykambas besar penjualan adalah 175.5 4. Di kota Musi besar penjualan adalah 206.23 5. Di kota Tarakan besar penjualan adalah 266.07
BAB V KESIMPULAN DAN SARAN
6.1. Kesimpulan 1. Berdasarkan hasil uji normalitas diketahui bahwa data bersifat normal 2. Berdasarkan hasil uji signifikansi persamaan regresi, maka : Ftabel = 5,56 Fhitung = 8,825 F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada pengauh yang signifikan antara variable independent terhadap variable dependent. 3. Persamaan regresi yang terbentuk adalah sebagai berikut : Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4 4. Berdasarkan uji multikolineritas, maka dapat disimpulkan bahwa variabel biaya periklanan, laju pertumbuhan penduduk, luas outlet dan jumlah pesaing tidak saling berkorelasi atau tidak terjadi multikolinieritas karena 4 nilai VIF < 2. 5. Yang memiliki hubungan positif kuat adalah : Y – X1 Yang memiliki hubungan positif lemah adalah : Y – X2, Y – X3, X1 – X2, X1 – X3, X1 – X4, X2 – X3 Yang memiliki hubungan negatif lemah : Y – X4, X2 – X4, X3 – X4 6. Hasil prediksi penjualan pada lima kota : 1. Di kota Purworejo besar penjualan adalah 201.29 2. Di kota Purwodadi besar penjualan adalah 288.34 3. Di kota Waykambas besar penjualan adalah 175.5 4. Di kota Musi besar penjualan adalah 206.23 5. Di kota Tarakan besar penjualan adalah 266.07
6.2. Saran 1. Jumlah variabel independent hendaknya lebih banyak lagi untuk mendapatkan hasil prediksi yang lebih akurat. 2. Berdasarkan dari hasil prediksi, maka disarankan pada Butik THE UNIQUE CULTURE agar membuka outlet baru dengan prioritas sebagai berikut : Di kota Purwodadi besar penjualan adalah 288.34 Di kota Tarakan besar penjualan adalah 266.07 Di kota Musi besar penjualan adalah 206.23 Di kota Purworejo besar penjualan adalah 201.29 Di kota Waykambas besar penjualan adalah 175.5
DAFTAR PUSTAKA Modul III PREDIKSI Praktikum Data Mining 1. Han, Jiawei. ”Data Mining Concept and Technique”. Presentation. http://www.cse.msu.edu/~cse980 2. Bertalya, ”Konsep Data Mining”. Universitas Gunadarma, 2009. 3. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.
LAMPIRAN Regression Descriptive Statistics Mean Penjualan
Std. Deviation
N
237,9600
75,40475
50
26,2600
9,65488
50
2,0694
,47433
50
Luas Outlet
58,3800
12,65216
50
Jumlah Pesaing
12,2800
10,61966
50
Biaya Periklanan Laju Pertumbuhan Penduduk
Correlations
Pearson Correlation
Penjualan
Biaya Periklanan
Laju Pertumbuhan Penduduk
Luas Outlet
Jumlah Pesaing
1,000
,513
,326
,467
-,193
Biaya Periklanan
,513
1,000
,299
,266
,176
Laju Pertumbuhan Penduduk
,326
,299
1,000
,301
-,101
Luas Outlet
,467
,266
,301
1,000
-,118
-,193
,176
-,101
-,118
1,000
.
,000
,010
,000
,089
Biaya Periklanan
,000
.
,017
,031
,111
Laju Pertumbuhan Penduduk
,010
,017
.
,017
,242
Luas Outlet
,000
,031
,017
.
,208
Jumlah Pesaing
,089
,111
,242
,208
.
Penjualan
50
50
50
50
50
Biaya Periklanan
50
50
50
50
50
Laju Pertumbuhan Penduduk
50
50
50
50
50
Luas Outlet
50
50
50
50
50
Jumlah Pesaing
50
50
50
50
50
Penjualan
Jumlah Pesaing Sig. (1-tailed)
N
Penjualan
Variables Entered/Removed(b)
Model 1
Variables Entered
Variables Removed
Jumlah Pesaing, Laju Pertumbuha n Penduduk, Luas Outlet, Biaya Periklanan( a)
Method
.
Enter
a All requested variables entered. b Dependent Variable: Penjualan
Model Summary(b)
Model 1
R ,663(a)
R Square ,440
Adjusted R Square
Std. Error of the Estimate
,390
58,90304
a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan b Dependent Variable: Penjualan
ANOVA(b) Sum of Squares
Model 1
df
Mean Square
Regression
122477,38 0
4
30619,345
Residual
156130,54 0
45
3469,568
Total
278607,92 0
49
F
Sig.
8,825
,000(a)
a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan b Dependent Variable: Penjualan
Coefficients(a)
Unstandardized Coefficients
Model
Std. Error
B 1
(Constant) Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing
36,481
50,393
3,520
,959
12,587
Standardized Coefficients
t
Sig.
Beta
Tolerance
VIF
Collinearity Statistics
B
Std. Error
,724
,473
,451
3,670
,001
,826
1,211
19,314
,079
,652
,518
,844
1,185
1,765
,718
,296
2,458
,018
,858
1,165
-1,631
,824
-,230
-1,979
,054
,925
1,081
a Dependent Variable: Penjualan
Collinearity Diagnostics(a)
Model
1
Eigenvalue
Condition Index
(Constant)
Biaya Periklanan
Laju Pertumbuhan Penduduk
Dimension
Variance ProportionsLuas Outlet
Jumlah Pesaing
(Constant)
Biaya Periklan an
1
4,497
1,000
,00
,00
,00
,00
,01
2
,375
3,464
,00
,00
,01
,01
,88
3
,077
7,664
,04
,98
,03
,04
,02
4
,033
11,745
,00
,00
,72
,50
,00
5
,019
15,522
,96
,01
,25
,46
,09
a Dependent Variable: Penjualan
Residuals Statistics(a)
Minimum Predicted Value
Maximum
Mean
Std. Deviation
N
152,9086
349,8795
237,9600
49,99538
50
Std. Predicted Value
-1,701
2,239
,000
1,000
50
Standard Error of Predicted Value
10,798
38,091
17,972
4,947
50
150,0846
358,2657
237,9812
51,31624
50
139,44339
131,23038
,00000
56,44765
50
Std. Residual
-2,367
2,228
,000
,958
50
Stud. Residual
-2,558
2,354
,000
1,018
50
162,80220
146,55676
-,02123
63,74182
50
-2,736
2,486
-,004
1,043
50
Mahal. Distance
,667
19,511
3,920
3,089
50
Cook's Distance
,000
,219
,027
,043
50
Centered Leverage Value
,014
,398
,080
,063
50
Adjusted Predicted Value Residual
Deleted Residual Stud. Deleted Residual
a Dependent Variable: Penjualan
Histogram
Dependent Variable: Penjualan 20
Frequency
15
10
5
Mean =-1.63E-16 Std. Dev. =0.958 N =50
0 -3
-2
-1
0
1
Regression Standardized Residual
2
3
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: Penjualan
Expected Cum Prob
1.0
0.8
0.6
0.4
0.2
0.0
Bengkulu Bandung Martapura Jayapura Manado Padang Cirebon Pekalongan Belitung Palangka Raya Riau Depok Yogyakarta Bogor Denpasar Purwakarta Bontang Banten Banjarmasin Bangka Dumai Surabaya MetroBatam Lampung Bukit Tinggi Aceh Jakarta Selatan Tangerang Sorong Kediri Jambi MalangMakasar Jakarta Barat Pekanbaru Jombang Mataram Magelang Madiun Tuban Jakarta Pusat Solo CilegonPurwokerto Medan Ambon Bekasi Gorontalo Semarang 0.0
0.2
0.4
0.6
0.8
1.0
Observed Cum Prob
Scatterplot
Dependent Variable: Penjualan
Regression Deleted (Press) Residual
200 Bengkulu Bandung 100
Pekalongan
Belitung Denpasar Depok Yogyakarta Lampung Metro Riau Banten Palangka Raya Bontang Aceh Banjarmasin Jakarta Selatan Dumai Kediri Batam Surabaya Bangka Bogor Malang Makasar Jakarta Barat Tangerang Mataram Sorong Jombang Jambi Pekanbaru Madiun Tuban Purwokerto Magelang Gorontalo Cilegon Jakarta Pusat Semarang Ambon Solo Bekasi Purwakarta
0
-100
Manado Martapura Padang Jayapura Cirebon
Medan
-200 150
200
250
300
350
Regression Adjusted (Press) Predicted Value
400
LAPORAN RESMI PRAKTIKUM DATA MINING ASSOCIATION RULE - MARKET BASKET ANALYSIS
DISUSUN OLEH: KELOMPOK C.23 ARIF RAKHMANTO
(08 522 200)
CATUR HERMAWANTO (08 522 210)
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA 2010
ABSTRAK Association Rule merupakan salah satu metode dalam Market Basket Analysis yang dapat digunakan untuk mengetahui aturan asosiasi antara himpunan item dalam suatu basisdata transaksi. Aturan asosiasi tersebut sangat bermanfaat bagi perencanaan promosi dan penjualan, strategi pemasaran serta tata letak toko. Dalam penelitian ini, studi Market Basket Analysis dilakukan terhadap toko Indomart Cabang Nogotirto/ 004 untuk menganalisa Association Rule yang terbentuk sehingga dapat diperoleh usulan tata letak toko yang lebih baik. Hasil penelitian menunjukkan bahwa departemen satu memiliki hubungan yang sangat kuat dengan departemen tiga. Sedangkan departemen 2, 4, 5, 6 memiliki hubungan yang sedang dengan departemen 3. Keyword : Association Rule, Market Basket Analysis, Activity Relationship Chart
BAB I PENDAHULUAN
1.1 Latar Belakang Indomart merupakan salah satu toko retail di Indonesia yang berkembang dengan cara franchise, sehingga banyak investor yang membuka cabang di berbagai daerah, salah satunya adalah di daerah Nogotirto, Kecamatan Gamping, Kabupaten Sleman, DIY. Dalam mencatat setiap transaksi pembelian, Indomart menggunakan sistem basis data transaksi yang dapat mencatat setiap transaksi penjualan yang nantinya dapat digunakan untuk kepentingan perencanaan promosi, penjualan, strategi pemasaran dan perencanaan tata letak toko. Transaksi yang tercatat tersebut dapat dipelajari melalui sebuah studi Market Basket Analysis dengan metode Association Rule untuk mengetahui aturan asosiasi diantara himpunan besar data item dalam basisdata transaksi. Tingkat kedatangan dan transaksi konsumen yang relatif tinggi merupakan salah satu faktor pendorong untuk melakukan analisa kelayakan tata letak toko terkait efektifitas dan efisiensi. Oleh sebab itu maka dilakukan analisa terkait perencanaan tata letak toko menggunakan studi Market Basket Analysis dengan metode Association Rule.
1.2 Rumusan Masalah 1. Bagaimanakah Association Rule yang terbentuk berdasarkan hasil penelitian? 2. Bagaimanakah Activity Relationship Chart (ARC) yang diperoleh? 3. Bagaimanakah usulan alternatif tata letak toko yang baru? 1.3 Batasan Masalah 1. Jumlah struk yang digunakan sebagai bahan penelitian dibatasi sejumlah 50 buah struk. 2. Association Rule dan ARC yang diperoleh dari penelitian sebatas dipergunakan untuk merencanakan usulan tata letak toko yang lebih baik. 3. Usulan tata letak toko hanya sebatas per departemen.
1.4 Tujuan Penelitian 1. Untuk mengetahui Association Rule yang terbentuk. 2. Untuk mengetahui Activity Relationship Chart (ARC) yang terbentuk. 3. Untuk mendapatkan alternatif tata letak toko yang lebih menunjang proses transaksi. 1.5 Manfaat Penelitian Penelitian ini bermanfaat untuk mengetahui tingkat efektifitas tata letak toko dalam mengakomodir aktivitas belanja konsumen melalui analisa Association Rule yang nantinya akan digunakan sebagai pertimbangan dalam merencanakan tata letak toko yang lebih baik.
BAB II LANDASAN TEORI
Asociation dalam data mining adalah pekerjaan untuk menentukan mana atribut yang akan didapatkan bersamaan. Dalam dunia bisnis lazim dikenal istilah affinity analysis. Tugas dari asociation rule adalah mencari aturan yang tidak mengcover untuk mengukur hubungan antara dua atau lebih atribut. Association Rule adalah bentuk jika “kejadian sebelumnya” kemudian “konsekuensinya”.
(IF
antecedent,
THEN
consequent).
Bersamaan
dengan
perhitungan aturan support dan confidence. Pola asosiasi menjadi salah satu fungsionalitas yang paling menarik dalam penggalian data (Kumar dan Wahidabanu, 2007). Association Rule adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari Association Rule dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pembeli membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut Pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu (Wiwin, 2008). Menurut Leo Susanto (2003) penggalian kaidah asosiasi mempunyai peranan penting dalam proses pengambilan keputusan. Salah satu contoh penerapan Association Rule adalah Market Basket Analysis. Association Rule menjadi terkenal karena aplikasinya untuk menganalisa isi keranjang belanja di pasar swalayan, sehingga Association Rule juga sering disebut dengan istilah Market Basket Analysis. Association Rule juga dikenal sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya. Market Basket Analysis merupakan salah satu contoh penerapan Association Rule. Untuk menyampaikan ide mendasar dari Market Basket Analysis, dimulai dengan melihat gambar keranjangan belanjaan pada gambar 3.1 yang berisi bermacam-macam barang-barang yang dibeli oleh seseorang disebuah supermarket. Keranjang ini berisi bermacam-macam barang-barang seperti roti, susu, sereal, telur, mentega, gula, dan sebagainya. Sebuah keranjang memberitahukan kepada kita tentang apa saja yang dibeli oleh seorang konsumen dalam satu waktu. Sebuah daftar
belanjaan yang lengkap yang diperoleh dari semua konsumen memberikan kita informasi yang sangat banyak, dan ini dapat menjelaskan barang-barang apa saja yang paling penting dari bisnis penjualan yaitu ”apa barang yang dibeli oleh konsumen dan kapan”. Setiap konsumen membeli seperangkat barang-barang yang berbeda, dalam jumlah yang berbeda, dan dalam waktu yang berbeda. Market Basket Analysis menggunakan
informasi
apa
yang
dibeli
oleh konsumen-konsumen untuk
menyediakan tanda/informasi yaitu siapa mereka dan mengapa mereka melakukan pembelian tersebut?. Market Basket Analysis menyediakan pengertian tentang barang dagangan dengan memberitahukan kepada kita produk-produk mana yang memungkinkan untuk dibeli secara bersamaan dan produk mana yang lebih disetujui untuk di promosikan. Karena dalam Market Basket Analysis tidak hanya memahami kuantitas dari item yang dibeli dalam keranjang itu, tapi bagaimana item yang dibeli dalam hubungannya satu dengan yang lain.
BAB III METODOLOGI PENELITIAN
3.1 Lokasi Penelitian Indomart Cabang Nogotirto/ 004 Jalan Godean km. 4 Nogotirto, Gamping, Sleman, Daerah Istimewa Yogyakarta
3.2 Objek Penelitian Outlet Indomart Cabang Nogotirto/ 004 beserta pelanggan dan struk transaksi pembeliannya.
3.3 Metode Pengumpulan Data 3.3.1 Data Primer Data primer dalam penelitian ini berupa struk belanja konsumen yang dikumpulkan melalui proses kolektif di lapangan. 3.3.2 Data Sekunder Data sekunder dalam penelitian ini merupakan data yang telah diproses dari data primer menjadi data yang siap untuk diolah lebih lanjut. Data sekunder dalam penelitian ini meliputi data pembelian, data transformasi, dan data tabulasi yang selanjutnya siap diolah menggunakan software.
1.4 Flow Chart Penelitian
Mulai
Input Data
Pre processing data 1. Data integrasi 2. Data transformasi
Data Tabulasi
Association Rule
Activity Relationship Chart
Selesai
Gambar 1.1 Flowchart
1.6 Langkah Software 1.6.1 Input Data 1. Pre Processing Data a. Data Integrasi a.1 Edit click Find
a.2 Find click name of item
a.3 Replace click Name of department
a.4 Replace all
b. Data Transformasi Change data department to matrix binary 1 = item dibeli, 0 = item tidak dibeli
1.6.2 Association Rule a. Open sheet binary
b. XLminer click affinity click association rule
c. Data Range: Block matrix binary click enter (name of department enclosed).
d. Check list: first row contains header
e. Input data format click Data in binary matrix format
f. Parameter: Min support ……….(in total) Min Confidence ……(in %)
g. Ok
BAB IV PENGUMPULAN DAN PENGOLAHAN DATA
4.1 Pengumpulan Data a. Data Transaksi
Tabel 4.1 Data Transaksi No. 1
Item Yang Dibeli Clear
Dettol
Nescafe
Uticon Stk
NU 2
Indomie
Green Tea
3 4
Buavita Susu Ultra
Nescafe Fruit Tea
Glade
Kacang
Teh
Kacang
Fresh
Iyes
Sosro
Mayasi
Sosro 5
Clear
Paseo
Teh Kotak
Susu Bendera
No. 6
Item Yang Dibeli Keripik
Tong Tji
Aneka
Jagung
Jasmine
Sagon
Susu
Koko
Ultra
Crunch
Spons
Lem
Sikat
Susu
Susu
Sabut
ALL
Gigi
Ultra
Ultra
Attack
Paramex
Buavita
Indomie
7
Paseo
8
Sunlight
9
Kiwi
Vitalis
Black
Blossom
Enervon C
Enzim 10
Attack
Pasta
Indomie
Gigi NU 11
Indomie
Indomie
Buavita
Yakult
Green Tea
12
Shampo Clear
Dettol
Sapu
Susu
Susu
Shampo
Ultra
Ultra
o Dove
No
Item Yang Dibeli Enzim
13
Paseo
Sunlight
Dettol
Vaseline
Pasta Gigi
14
Sensitif
Nice
Strip
Yoghurt
Susu
NU Green
Bendera
Tea
17
18
Attack
Philips Tornado
Hemaviton
Paseo
Aqua
Gery Salute
Stainles s
Koko
Indomilk
Crunch
Vanilla
ds
Kacang
Kayu
Whit
Garuda
Putih
e
Walls Magnu m
Coklat
Sabut Pop Corn
Lang
k
Lumbu ng Straw
16
Pon
Indomil
Roti 15
Cap
Sabut Spons
Roti Lumbun g Nanas
Stre psil
Gilette
Neozep
Sikat
Vit
Razor
Forte
Gigi
C
Clear
Walls
Walls
Almond
Royal
No
Item Yang Dibeli Aneka
19
Tales
Gulaku
Gurih
20
21
Paseo
Nescafe
Birdy 22
Kopi Susu
23
24
Paseo
Bimoli Special
Okky Jelly
NU Apel Fuji Green Tea
Tong Tji
Nesc
Jasmine
afe
Swiss
Kraft
Roll
Keju
Choco
Cake
NU Green Tea
NU Green Tea
Delfi Wafer Coklat
Cap Botan
Lang
Mackerel Kayu Putih
Koko Crunch
Coffemix 3in1
Teh Bubuk
Charm Chitato
Indomie
Body Fit
Sardines ABC
Pronas
Mie
Cashew Sensitif
Corned
Sedap
Crunch
Strip
Zinc
Pantene
Swiss Roll Panda n
No
25
26
27
Item Yang Dibeli Charm Body Fit Nice Yogurt
Ultra Kacang Hijau Susu Ultra
Koko
Charm
Crunch
Body Fit
Kiranti
Susu Indomilk
Cap 28
Lang
Madu
Kayu
Nusantara
Putih 29 30
31
Sensitif Strip Indomie
Indomie
Paseo
Aqua
Teh Sosro Nice Yoghurt
Brand Gold Malt
Pop Corn Keset
Sensitif Strip
No
32
33
34
35
Item Yang Dibeli Nice Yoghurt
Cap Lang Kayu Putih
NU Green
Swiss Roll
Tea
Pandan
Paseo Birdy Kopi Susu
Gulaku
38
Sari Roti
Lemon
Susu Ultra Mizone Qtela Kripik
Swiss Roll Choco
Klenex
Tea 37
Strip
Tissue
Max 36
Sensitif
Chitato
Lifebuoy
Enzim
Men
Pasta Gigi
Lifebuoy Men Nice Yoghurt Chitato
Charmant
Nescafe
Blaster
Sikat Gigi Formula Koko Crunch
No
Item Yang Dibeli Indomart
39
Air
Aqua
Mineral
40
41
42
43
44
Paseo
Sambal
Gillette Razor Susu
Indofood Indomilk Choco Crispy
Kotex Maxi
Pantene
Spray Dry
Hemaviton
Nice Yoghurt
Sari Roti
Nice
Birdy
Pop Bihun
Sari Roti
Yoghurt
Kopi Susu
Ayam
Coklat
Lifebuoy
Sardines
Bihun
Men
ABC
Instan
Paseo
Green Tea
Susu
Susu
Susu
Susu
Ultra
Ultra
Ultra
Ultra
Koko Crunch
Mizone
CD-R
Clear
NU 45
Carefree
Pantene
Sikat Gigi Oral B
Birdy Kopi Susu
Ultra Slim
Kispr ay Bluis
Indomie
Indocafe
Tong tji
Cappucino
Jasmine
Fino Sosis Sapi
No
46
47
48
49
Item Yang Dibeli Jeruk Mandarin
Hemaviton
Yoghurt
Indomilk
Crunch
Juice
Negri
Gery Choco
Keset
Sapi Koko
ABC
Ayam
Sosis
Susu
Diamond
Paseo
Vanilla
Fino
Nice
Sardines
Telur 50
Susu Ultra
Walls
Clear
Sandal
Carefree
Swallow
Spray Dry
Uticon
Lifebuoy
Rexona
Stk
Men
Deo Men
Pantene
Sari Roti
Susu Ultra
Susu
Susu
Meiji
Susu
Birdy Kopi Gilette
Indomilk
Indomilk
Panda
Ultra
Susu
Razor
Roti
Roti
Lifebuo
Lux
Lumbung
Lumbung
y Men
White
NU Green
Madu
Brand
Tea
Nusantara
Gold Teh
Brand Gold Malt
Sambal Indofood
Indomie
b. Data Departemen Tabel 4.2 Data Departemen Dep 1
Makanan Ringan, Snack, Cemilan
Dep 2
Makanan Mentah, Bahan Makanan, Bumbu Dapur
Dep 3
Minuman Siap Saji, Soft Drink, Ice Cream, Bahan Minuman
Dep 4
Peralatan Rumah Tangga
Dep 5
Peralatan Mandi
Dep 6
Kosmetik, Obat-obatan, Perawatan Tubuh
Dep 7
Buah-buahan
Dep 8
Pakaian Dalam
c. Minimum Support dan Confidence Minimum support yang digunakan adalah 8. Sedangkan minimum confidence (%) yang digunakan adalah 80.
4.2 Pengolahan Data 4.2.1 Preprocessing Data 1. Data Integrasi Hasil integrasi data Tabel 4.3 Data Integrasi No. 1
2
3
4
5
Item Yang Dibeli Dep Dep 5
5
Dep
Dep
3
4
Dep
Dep
Dep
Dep
4
1
3
1
Dep
Dep
3
3
Dep Dep 2
3
Dep Dep 3
3
Dep Dep 3
3
Dep Dep 5
4
No. 6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Item Yang Dibeli Dep Dep 1
3
Dep Dep 4
3
Dep Dep 5
5
Dep Dep 4
6
Dep Dep 5
5
Dep Dep 2
2
Dep Dep 5
5
Dep Dep 4
4
Dep Dep 6
3
Dep Dep 3
3
Dep Dep 5
6
Dep Dep 4
1
Dep 1 Dep 1 Dep
Dep
Dep
Dep
4
5
3
3
Dep
Dep
Dep
5
6
6
Dep
Dep
Dep
3
2
2
Dep
Dep
Dep
Dep
Dep
Dep
3
3
3
3
3
5
Dep
Dep
Dep
Dep
Dep
5
6
5
6
6
Dep
Dep
Dep
Dep
Dep
4
3
1
1
6
Dep 4 Dep Dep 1
3
Dep 3 Dep Dep Dep Dep Dep 6
6
5
Dep 1 Dep
Dep
4
4
Dep
Dep
Dep
Dep
Dep
3
7
3
3
3
Dep Dep 1
3
Dep Dep 1
2
Dep Dep 4
3
Dep Dep Dep 1
1
1
5
3
Dep 3
No. 21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
Item Yang Dibeli Dep Dep 3
3
Dep
Dep
Dep
1
6
6
Dep
Dep
Dep
Dep
Dep
Dep
1
2
6
2
5
5
Dep
Dep
Dep
Dep
2
2
1
6
Dep
Dep
3
3
Dep Dep 3
1
Dep Dep 4
3
Dep Dep 2
3
Dep Dep 6
3
Dep Dep 3
3
Dep Dep 1
6
Dep Dep 6
2
Dep Dep 6
4
Dep 3
Dep Dep 2
3
Dep Dep 2
3
Dep Dep 3
6
Dep Dep 3
1
Dep
Dep
Dep
Dep
3
1
4
6
Dep 6 Dep 1
Dep Dep 4
4
Dep Dep 3
1
Dep
Dep
5
5
No. 36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Item Yang Dibeli Dep Dep 2
3
Dep Dep 3
3
Dep Dep 1
1
Dep
Dep
Dep
5
8
5
Dep
Dep
Dep
3
3
1
Dep
Dep
1
1
Dep
Dep
Dep
Dep
Dep
6
5
4
3
3
Dep
Dep
Dep
Dep
Dep
6
3
1
1
3
Dep
Dep
2
1
Dep
Dep
Dep
Dep
Dep
Dep
5
2
2
3
3
4
Dep
Dep
Dep
Dep
Dep
Dep
3
2
4
4
4
5
Dep
Dep
Dep
Dep
Dep
Dep
3
1
5
4
5
6
Dep
Dep
Dep
Dep
Dep
3
3
3
1
3
Dep
Dep
Dep
Dep
Dep
2
3
3
2
2
Dep Dep 3
3
Dep Dep 4
6
Dep Dep 2
3
Dep Dep Dep Dep Dep 3
3
2
3
Dep Dep 1
9
Dep Dep 3
3
Dep Dep 4
5
Dep Dep 3
5
Dep Dep 7
3
Dep Dep 6
3
Dep Dep 2
3
Dep Dep 4
1
Dep Dep 2
3
Dep 5
Dep 1 Dep Dep 3
6
Dep Dep Dep Dep 1
1
5
5
3
Dep 2
2. Data Transformasi Hasil transformasi data Tabel 4.4 Data Transformasi No. Dep 1
Dep 2
Dep 3
Dep 4
Dep 5
Dep 6
Dep 7
Dep 8
Dep 9
1
0
0
1
1
1
0
0
0
0
2
0
1
1
0
0
0
0
0
0
3
0
0
1
0
0
0
0
0
0
4
1
0
1
1
0
0
0
0
0
5
0
0
1
1
1
0
0
0
0
6
1
0
1
0
0
0
0
0
0
7
1
0
1
1
0
0
0
0
0
8
0
0
1
1
1
0
0
0
0
9
0
0
0
1
1
1
0
0
0
10
0
1
1
0
1
0
0
0
0
11
0
1
1
0
1
0
0
0
0
12
0
0
0
1
1
0
0
0
0
13
1
0
1
1
1
1
0
0
0
14
0
0
1
0
0
1
0
0
0
15
1
0
1
1
1
1
0
0
0
16
1
0
0
0
1
1
0
0
0
17
1
0
0
1
0
0
0
0
0
18
1
0
1
0
0
0
0
0
0
19
1
1
1
0
0
0
1
0
0
20
0
0
1
1
0
0
0
0
0
21
1
0
1
0
0
1
0
0
0
22
1
0
1
0
0
0
0
0
0
23
1
1
1
1
1
1
0
0
0
24
1
1
1
0
0
1
0
0
0
25
0
0
1
0
0
1
0
0
0
26
0
0
1
0
0
0
0
0
0
27
1
0
1
0
0
1
0
0
0
28
0
1
0
0
0
1
0
0
0
No. Dep 1
Dep 2
Dep 3
Dep 4
Dep 5
Dep 6
Dep 7
Dep 8
Dep 9
29
0
0
1
1
0
1
0
0
0
30
0
1
1
0
0
0
0
0
0
31
1
1
1
1
0
1
0
0
0
32
0
0
1
0
0
1
0
0
0
33
1
0
1
0
0
0
0
0
0
34
0
0
0
1
0
0
0
0
0
35
1
0
1
0
1
0
0
0
0
36
0
1
1
0
1
0
0
1
0
37
1
0
1
0
0
0
0
0
0
38
1
0
0
0
0
0
0
0
0
39
0
0
1
0
0
0
0
0
0
40
0
1
1
1
1
1
0
0
0
41
1
1
1
0
0
1
0
0
0
42
1
0
0
0
0
0
0
0
1
43
1
1
1
0
0
0
0
0
0
44
0
1
1
1
1
0
0
0
0
45
0
0
1
0
1
0
0
0
0
46
0
1
1
1
1
0
1
0
0
47
1
0
1
1
1
1
0
0
0
48
1
1
1
0
0
0
0
0
0
49
1
0
1
1
0
1
0
0
0
50
1
1
1
0
1
0
0
0
0
Keterangan : 1 = item terbeli 0 = item tidak terbeli
4.2.2 Association Rule Tabel 4.5 Association Rules Data Input Data
Tabular!$B$5:$J$55
Data Format
Binary Matrix
Minimum Support
8
Minimum Confidence %
80
# Rules
11
Overall Time (secs)
1
Tabel 4.6 Output Rule
Conf.
Consequen
Support
Support
Support
#
%
t (c)
(a)
(c)
(a U c)
1
100
Dep 1, Dep 2=>
Dep 3
8
42
8
1.190476
2
100
Dep 2, Dep 5=>
Dep 3
8
42
8
1.190476
3
94.12
Dep 2=>
Dep 3
17
42
16
1.120448
4
90.91
Dep 1, Dep 6=>
Dep 3
11
42
10
1.082251
5
88.89
Dep 1, Dep 4=>
Dep 3
9
42
8
1.058201
6
88.89
Dep 4, Dep 6=>
Dep 3
9
42
8
1.058201
7
84.62
Dep 1=>
Dep 3
26
42
22
1.007326
8
84.21
Dep 5=>
Dep 3
19
42
16
1.002506
9
83.33
Dep 6=>
Dep 3
18
42
15
0.992063
10
83.33
Dep 4, Dep 5=>
Dep 3
12
42
10
0.992063
11
80
Dep 4=>
Dep 3
20
42
16
0.952381
Antecedent (a)
Lift Ratio
4.2.3 Activity Relationship Chart
Dept 1
Dept 2
Dept 3
Dept 4
Dept 5
Dept 6
Dept 7
Dept 8
Gambar 4.1 Activity Relationship Chart
Keterangan : : Hubungan Sangat Kuat : Hubungan Kuat
4.2.4 Rekomendasi layout
D E P T
D E P T 4
D E P T 5
D E P T 6
D E P T 7
D E P T 8
DEPT 3 D E P T
2 DEPT 1 KASIR
Gambar 4.2 Rekomendasi Tata Letak Toko
9
BAB V PEMBAHASAN
5.1 Association Rule Rule 1 Jika membeli {Dep1 dan Dep2} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 100%). Berarti seseorang yang membeli produk pada Dep1 dan Dep2 memiliki kemungkinan sebesar 100% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 2 Jika membeli {Dep2 dan Dep5} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 100%). Berarti seseorang yang membeli produk pada Dep2 dan Dep5 memiliki kemungkinan sebesar 100% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 3 Jika membeli {Dep2} maka mungkin membeli {Dep3}, dengan nilai (support = 16, confidence = 94.12%). Berarti seseorang yang membeli produk pada Dep2 memiliki kemungkinan sebesar 94.12% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 16.
Rule 4 Jika membeli {Dep1 dan Dep6} maka mungkin membeli {Dep3}, dengan nilai (support = 10, confidence = 90.91%) berarti seseorang yang membeli produk pada Dep1 dan Dep6 memiliki kemungkinan sebesar 90.91% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 10.
Rule 5 Jika membeli {Dep1 dan Dep4} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 88.89%). Berarti seseorang yang membeli produk pada
Dep1 dan Dep4 memiliki kemungkinan sebesar 88.89% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 6 Jika membeli {Dep4 dan Dep6} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 88.89%). Berarti seseorang yang membeli produk pada Dep4 dan Dep6 memiliki kemungkinan sebesar 88.89% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 7 Jika membeli {Dep1} maka mungkin membeli {Dep3}, dengan nilai (support = 22, confidence = 84.62%). Berarti seseorang yang membeli produk pada Dep1 memiliki kemungkinan sebesar 84.62% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 22.
Rule 8 Jika membeli {Dep5} maka mungkin membeli {Dep3}, dengan nilai (support = 16, confidence = 84.21%). Berarti seseorang yang membeli produk pada Dep5 memiliki kemungkinan sebesar 84.21% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 16.
Rule 9 Jika membeli {Dep6} maka mungkin membeli {Dep3}, dengan nilai (support = 15, confidence = 83.33%). Berarti seseorang yang membeli produk pada Dep6 memiliki kemungkinan sebesar 83.33% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 15.
Rule 10 Jika membeli {Dep4 dan Dep5} maka mungkin membeli {Dep3}, dengan nilai (support = 10, confidence = 83.33%). Berarti seseorang yang membeli produk pada Dep4 dan Dep5 memiliki kemungkinan sebesar 83.33% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 10.
Rule 11 Jika membeli {Dep4} maka mungkin membeli {Dep3}, dengan nilai (support = 16, confidence = 80%). Berarti seseorang yang membeli produk pada Dep4 memiliki kemungkinan sebesar 80% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 16.
5.2 Activity Relationship Chart Diagram ARC (Activity Relationship Chart) adalah peta yang menggambarkan hubungan antar departemen berdasarkan support dari rule yang terbentuk. Hubungan setiap department dapat bernilai kuat, sedang dan lemah. Setiap jenis hubungan digambarkan dengan simbol yang berbeda-beda. ARC dibuat berdasarkan nilai a U c dan dibagi menjadi tiga hubungan yaitu : hubungan kuat disimbolkan dengan
dengan nilai a U c 17.4 < x < 22
hubungan sedang disimbolkan dengan
dengan nilai a U c 8.3 ≤ x < 11.6
hubungan lemah disimbolkan dengan
dengan nilai a U c 5 ≤ x < 8.3
Range didapatkan dari nilai a U c tertinggi(22) dikurangi nilai a U c terendah(8). Kemudian dibagi 3 berdasarkan dari 3 hubungan tersebut, yaitu kuat, sedang dan lemah. Maka hasilnya adalah 4,7. Dengan hasil tersebut maka range pun dapat dibuat. Dan karena ada beberapa departemen yang memiliki penempatan yang sama, maka yang dipilih untuk dimasukkan pa ARC adalah yang memiliki nilai yang tertinggi. Dan penjelasan dari ARC yang telah dibuat adalah sebagai berikut : Dept1 dan dept3 memiliki hubungan yang kuat dengan nilai a U c sebesar 22. Dept2 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16. Dept4 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16. Dept5 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16. Dept6 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 15.
5.3 Layout Usulan Berdasarkan hubungan departemen yang dejelaskan melalui ARC, maka dapat diperoleh usulan layout atau tata letak toko dimana : -
Dept 1 dengan dept 3 ditata secara berdekatan (mutlak)
-
Dept 2, 4, 5 dan 6 ditata agak dekat dengan Dept 3 dengan tingkat prioritas yang tidak mutlak.
-
Sedangkan Dept 7, 8 dan 9 tidak terikat dengan Dept 3, sehingga dapat diletakkan secara bebas atau menempati posisi yang masih kosong.
BAB VI KESIMPULAN DAN SARAN
6.1 Kesimpulan Berdasarkan hasil pembahasan, maka dapat disimpulkan bahwa : 1. Melalui analisa Association Rule diperoleh 11 aturan yang merepresentasikan hubungan antara masing-masing departemen. 2. Melalui Activity Relationship Chart (ARC) dapat diketahui prioritas hubungan antara masing-masing departemen dimana departemen 1 dan departemen 3 memiliki hubungan yang sangat kuat, sehingga dalam menata ulang layout, departemen 1 dan departemen 3 menjadi prioritas dalam penataan ulang. 3. Outlet Indomart/ 004 Nogotirto membutuhkan penataan ualng layout dengan prioritas utama adalah mendekatkan Departemen 1 dengan Departemen 3. Sedangkan Departemen 2, 4, 5, 6 dengan 3 memiliki hubungan yang bersifat sedang.
6.2 Saran Berdasarkan hasil pembahasan dan kesimpulan dari penelitian, maka disarankan kepada Indomart/ 004 Nogotirto untuk melakukan penataan ulang layout outlet untuk lebih mendukung aktivitas transaksi konsumen.
DAFTAR PUSTAKA 1. Gkoulalas, Aris & Verykios S Vassilios, “Association Rule Hidding for Datamining”, 2010. 2. Marc Adamo Jean, “Datamining for Association Rules and Sequential Patterns”, 2003. 3. Han, Jiawei and Kamber, Micheline, “Datamining Concept and Techniques”, 2006.
LAMPIRAN
LAPORAN RESMI PRAKTIKUM DATA MINING KLASIFIKASI
DISUSUN OLEH: KELOMPOK C.23 ARIF RAKHMANTO (08 522 200) CATUR HERMAWANTO
(08 522 210)
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA 2010
ABSTRAKSI Klasifikasi merupakan sebuah proses untuk menemukan model yang membedakan konsep atau kelas data dengan tujuan untuk memperkiraan kelas dari suatu obyek yang kelasnya tidak diketahui. Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set yang terdiri dari beberapa atribut. Salah satu manfaat klasifikasi adalah untuk membantu proses pengambilan keputusan dalam proses pemberian kredit. BMT AL-AMIN merupakan sebuah perusahaan penyedia kredit yang menggunakan metode klasifikasi untuk menekan resiko kredit macet. Dari hasil penelitian yang telah dilakukan subjek 1 akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak sedang dan dalam jangka waktu pembiayaan satu tahun diprediksikan status kreditnya akan macet, subjek 2 akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak banyak dan dalam jangka waktu pembiayaan dua tahun diprediksikan status kreditnya akan macet, subjek 3 akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak banyak dan dalam jangka waktu pembiayaan satu tahun diprediksikan status kreditnya akan macet, subjek 4 akan menerima kredit dengan jumlah pembiayaan sedang dengan jumlah anak sedikit dan dalam jangka waktu pembiayaan dua tahun diprediksikan status kreditnya akan tidak macet, subjek 5 akan menerima kredit dengan jumlah pembiayaan kecil dengan jumlah anak sedang dan dalam jangka waktu pembiayaan dua tahun diprediksikan statu kreditnyaakan tidak macet.
Keywords : Klasifikasi, Decision Tree, Chi Square
BAB I PENDAHULUAN 1.1 Latar Belakang masalah Dalam pelaksanaan kegiatan perkreditan selama ini, banyak kredit yang tidak dikembalikan sesuai dengan jadwal yang telah ditentukan. Dengan kata lain telah terjadi kredit macet. Adanya kredit macet ini menimbulkan kerugian pada lembaga keuangan yang bersangkutan. Dalam pembiayaan, tingkat pembiayaan yang semakin tinggi juga diiringi dengan adanya resiko kredit macet yang besar pula. Resiko kredit ini harus diminimalisir agar badan keuangan dapat mempertahankan
kelangsungan
usahanya,
sehingga
penawaran
produk
pembiayaan dilakukan kepada debitur yang tepat sasaran. Menghadapi kenyataan sebagaimana diuraikan di atas, maka perlu dilakukan prediksi status kredit kepada calon debitur agar tidak terjadi kredit macet. Prediksi status kredit merupakan upaya yang ditempuh suatu lembaga keuangan dalam usahanya untuk menghindari kemungkinan terjadinya kredit macet atau tunggakan bagi kredit yang telah sampai jatuh temponya. Sehingga prediksi status kredit macet berguna untuk memperkecil risiko terjadinya kredit macet agar dapat meminimumkan resiko kredit macet.
1.2 Rumusan Masalah 1. Bagaimana rule yang terbentuk? 2. Bagaimana hasil dari chi-square? 3. Bagaimana hasil prediksi ?
1.3 Batasan Masalah 1. Obyek penelitian dikhususkan pada BMT AL-AMIN 2. Permasalahan yang dianalisa adalah masalah pengambilan keputusan pemberian kredit.
1.4 Tujuan penelitian 1. Untuk mengetahui rule yang terbentuk. 2. Untuk menghitung chi-square penelitian.
3. Untuk mengetahui hasil prediksi pemberian kredit.
1.5 Manfaat Penelitian 1. Mahasiswa dapat mengetahui dan memahami metode klasifikasi, khususnya teknik decision tree serta dapat membaca rule yang terbentuk. 2. Dapat mengetahui dan memahami metode tes kebebasan atau interdependency test chi-square. 3. Dapat mengetahui dan memahami cara mendapatkan keputusan untuk kasuskasus yang dapat dianalisa menggunakan meode klasifikasi.
BAB II LANDASAN TEORI Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi nilai suatu kelas yang belum diketahui pada sebuah objek (Agny Ismaya, 2005). Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Pang-Ning Tan, 2004). Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record. Model dalam Klasifikasi (Bertalya, 2009) : a) Pemodelan Deskriptif Sebagai alat penggambaran yang bersifat menjelaskan untuk membedakan objek2 dari kelas yang berbeda. b) Pemodelan Prediktif Pemodelan prediktif digunakan untuk memprediksi label kelas untuk record yang belum diketahui. Klasifikasi dapat diaplikasikan dalam beberapa bidang antara lain kesehatan, perbankan, ritel, dll. Masing-masing memiliki atribut yang sesuai dengan kasus masingmasing. Misalnya dalam ritel, kasus yang biasanya digunakan adalah pemberian diskon/bonus.
2.1 Tujuan Klasifikasi Tujuan dari klasifikasi adalah untuk : 1. Menemukan model dari training set yang membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada test set.
2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil klasifikasi yang diperoleh.
2.2 Konsep Pembuatan Model Dalam Klasifikasi Untuk mendapatkan model, kita harus melakukan analisis terhadap data latih (training set). Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data. Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu : a. Pembelajaran / Pembangunan Model Tiap – tiap record pada data latih dianalisis berdasarkan nilai – nilai atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model. b. Klasifikasi Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record – record data baru yang belum pernah dilatihkan atau diujikan sebelumnya. Untuk meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat beberapa langkah pemrosesan terhadap data, yaitu : a. Data Cleaning Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan penanganan terhadap missing value pada suatu record. b. Analisis Relevansi Pada tahap ini, dilakukan penghapusan terhadap atribut – atribut yang redundant ataupun kurang berkaitan dengan proses klasifikasi yang akan dilakukan. Analisis relevansi dapat meningkatkan efisiensi klasifikasi karena waktu yang diperlukan untuk pembelajaran lebih sedikit daripada proses pembelajaran terhadap data – data dengan atribut yang masih lengkap (masih terdapat redundansi).
c. Transformasi Data Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi. Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu. Pembelajaran terhadap data hasil generalisasi dapat mengurangi kompleksitas pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil.
Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai: 1. Setiap tuple diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukanoleh label kelas atribut, 2. Kumpulan tuple yang digunakan untuk membuat model disebut kumpulan pelatihan (training set), 3. Model direpresentasikan sebagai classification rules, decision tree atau formula matematika. Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang belum ketahui, yaitu taksiran keakuratan dari model yang terdiri dari: 1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari model, 2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang
3. 4. Jika akurasi diterima, gunakan model untuk mengklasifikasikan data tuple yang label kelasnya belum diketahui.
Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang di prediksi secara benar (akurasi) atau salah (error rate) oleh model tersebut. Akurasi dan error rate didefinisikan sebagai berikut. Jumlah prdiksi benar Akurasi =
Error rate =
Jumlah total prediksi
Jumlah prediksi salah Jumlah total prediksi
Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi yang tinggi atau error rate yang rendah ketika model diterapkan pada test set.
2.3 Teknik Klasifikasi Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa teknik klasifikasi yang digunakan, anatara lain: pohon keputusan, rule based, neural network, support vector machine, naive bayes, dan nearest neighbour. Dan pada praktikum ini akan menggunakan teknik pohon keputusan, karena beberapa alasan: 1. Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah diinterpretasi/ ditangani oleh manusia. 2. Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon keputusan efisien dan sesuai untuk himpunan data besar. 3. Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang terkandung dalam data training (yaitu, pengetahuan domain dari distribusi-distribusi pada data atau kelas-kelas). 4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan teknikteknik yang lainnya.
2.4 Decision Tree Salah satu metoda Data Mining yang umum digunakan adalah decision tree. Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut. Decision tree mudah untuk dikonversi ke aturan klasifikasi (Zalilia, 2007).
2.4.1 Konsep Decision Tree Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).
2.4.2 Tipe Simpul Pada Tree Tree 1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge 2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge
3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada sebagian record yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul internal ditandai dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat.
2.4.3 Konsep Data Dalam Decision Tree 1. Data dinyatakan dalam bentuk tabel dengan atribut dan record. 2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut. 3. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan.
d. Proses Dalam Decision Tree 1. Proses Mengubah Data Menjadi Tree a). Ukuran untuk Memilih Split Terbaik Dalam membangun sebuah decision tree secara top-down (dari atas ke bawah), dimulai dengan pertanyaan atribut mana yang pertama kali harus diletakkan pada root node? Pertanyaan ini dijawab dengan mengevaluasi semua atribut yang ada menggunakan suatu ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur efektifitas suatu atribut dalam mengklasifikasikan suatu kumpulan sampel data. Semua atribut
adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai continuous harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai informasi dari data yang merupakan nilai yang diperlukan untuk mengklasifikasikan keputusan akhir. b) Entropi Definisi Entrophy (Basuki, 2003): 1. Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. 2. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas. 3. Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data 4. Panjang kode untuk menyatakan informasi secara optimal adalah p bits untuk messages yang mempunyai probabilitas p. Untuk menghitung information gain,terlebih dahulu kita harus memahami suatu ukuran lain yang disebut Entropy. Entropi biasa digunakan sebagai sautu parameter untuk mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika kumpulan sampel data semakin heterogen, maka nilai entropy-nya semakin besar. Nilai maksimum entropy adalah 1, yaitu saat jumlah semua sampel kelas data adalah sama (keberagaman data yang maksimum). Nilai minimum entropy adalah 0, yaitu saat jumlah salah satu kelas adalah 0 (keberagaman data yang minimum). c) Information Gain Setelah kita mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka kita dapat mengukur efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini disebut Information Gain. Dengan kata lain, Gain(A) adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh pengetahuan nilai pada atribut A. Algoritma menghitung information gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes
atribut (simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap nilai atribut. Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas keputusan yang bernilai diskrit dengan keputusan seperti diterima = “ya” atau “tidak”. Namun jika kita menemukan kasus yang mempunyai nilai keputusan kontinyu cara yang sedikit untuk menyelesaikannya adalah dengan mengubah nilai-nilai continyu menjadi nilai-nilai diskrit dengan cara mempartisi nilai kontinyu ke dalam intervalinterval bernilai diskrit.
BAB III METODOLOGI PENELITIAN 3.1 Lokasi Penelitian Lokasi penelitian adalah di BMT AL-AMIN
3.2 Objek Penelitian Obyek penelitian adalah debitur BMT AL-AMIN yang mengajukan permintaan kredit.
3.3 Metode Pengumpulan Data 1. Data Primer Data primer dalam penelitian ini adalah data-data yang diperoleh dari debitur atau pemohon kredit. Dalam kasus ini yang merupakan data primer adalah training set yang berisi atribut jumlah pembiayaan, jumlah anak, jangka waktu pembiayaan dan status kredit. 2. Data Sekunder Data sekunder dalam penelitian ini adalah data-data yang diperoleh dari pengolahan data-data primer. Dalam kasus ini yang merupakan data sekunder adalah entropy, nilai informasi, information gain serta chi-square.
3.4. Flowchart Penelitian
Mulai
Training Data
Decision Tree
Classification Rule Awal
Penyederhanaan Rule (Chi-square)
Ho diterima/ Ditolak
Atribut tidak dapat dihilangkan
Atribut dapat dihilangkan
Classification Rule Akhir
Prediksi
Selesai
3.5. Langkah Software Software
yang
digunakan
dalam
klasifikasi
adalah
Weka.
Langkah
pengerjaannnya adalah sebagai berikut : 1. Menginput data training di Ms. Excel kemudian menyimpannya dalam format .csv 2. Membuka Weka, kemudian explorer, Open file 3. File tersebut disave as dalam format .arrf 4. Pilih classify, pada classifier-choose-trees-j48 5. Test option dipilih use training set, kemudian klik start 6. Pada result list, klik kanan pilih visualize tree
BAB IV PENGUMPULAN DAN PENGOLAHAN DATA 4.1 Pengumpulan Data 4.1.1 Data Historis Tabel 4.1 Data Status Kredit Pada BMT AL-AMIN
No
Jumlah
Jumlah
Jangka Waktu
Pembiayaan
anak
Pembiayaan
Status Kredit
1
Sedang
Banyak
Satu Tahun
Macet
2
Besar
Sedang
Dua Tahun
Macet
3
Besar
Banyak
Dua Tahun
Macet
4
Sedang
Banyak
Satu Tahun
Macet
5
Sedang
Sedikit
Dua Tahun
Tidak Macet
6
Kecil
Sedikit
Satu Tahun
Tidak Macet
7
Kecil
Banyak
Dua Tahun
Tidak Macet
8
Besar
Banyak
Dua Tahun
Macet
9
Sedang
Banyak
Satu Tahun
Macet
10
Kecil
Sedang
Dua Tahun
Tidak Macet
11
Kecil
Banyak
Dua Tahun
Tidak Macet
12
Sedang
Banyak
Satu Tahun
Macet
13
Besar
Sedang
Satu Tahun
Macet
14
Besar
Banyak
Satu Tahun
Macet
15
Besar
Sedang
Satu Tahun
Macet
16
Sedang
Banyak
Dua Tahun
Macet
17
Besar
Banyak
Dua Tahun
Macet
18
Besar
Sedang
Satu Tahun
Macet
19
Kecil
Sedikit
Satu Tahun
Tidak Macet
21
Kecil
Sedang
Satu Tahun
Tidak Macet
22
Kecil
Sedikit
Dua Tahun
Tidak Macet
23
Besar
Sedikit
Satu Tahun
Macet
No
Jumlah
Jumlah
Jangka Waktu
Pembiayaan
anak
Pembiayaan
Status Kredit
24
Sedang
Banyak
Satu Tahun
Macet
25
Sedang
Banyak
Satu Tahun
Macet
26
Sedang
Sedang
Dua Tahun
Tidak Macet
27
Besar
Banyak
Dua Tahun
Macet
28
Sedang
Banyak
Satu Tahun
Macet
29
Sedang
Sedang
Dua Tahun
Tidak Macet
30
Besar
Sedikit
Satu Tahun
Macet
4.1.2 Data yang akan diprediksi Tabel 4.2 Data Status Kredit yang akan diprediksi No
Jumlah
Jumlah
Jangka Waktu
Pembiayaan
Anak
Pembiayaan
Status Kredit
1
Besar
Sedang
Satu Tahun
Macet
2
Besar
Banyak
Dua Tahun
Macet
3
Besar
Banyak
Satu Tahun
Macet
4
Sedang
Sedikit
Dua Tahun
Tidak Macet
5
Kecil
Sedang
Dua Tahun
Tidak Macet
4.2 Pengolahan Data 4.2.1 Perhitungan Root Node 1. Atribut Jumlah Pembiayan Tabel 4.3 Jumlah Pembiayan Jumlah Pembiayaan
Status Kredit
Jumlah
Macet
0
Tidak Macet
8
Macet
8
Tidak Macet
3
Macet
11
Tidak Macet
0
Total Instence
Kecil
Sedang
Besar
Total
Q
Entropi
8
0.00
11
0.85
11
0.00
0.31
Nilai
Information
Informasi
Gain
0.95
0.64
30
2. Atribut Jumlah Anak Tabel 4.4 Jumlah Anak Jumlah Anak Sedikit
Sedang
Banyak
Status Kredit
Jumlah
Macet
2
Tidak Macet
4
Macet
4
Tidak Macet
4
Macet
13
Tidak Macet
3
Total
30
Total Instence
Q
6
0.92
8
1.00
16
0.70
Entropi
0.82
Nilai
Information
Informasi
Gain
0.95
0.13
3. Atribut Jangka Waktu Pembiayaan Tabel 4.5 Jangka Waktu Pembiayaan Waktu
Status
Pembiayaan
Kredit
Jumlah
Macet Satu Tahun
Tidak Macet Macet
Dua Tahun
Tidak Macet
Total
Total Instence
Q
Entropi
Nilai
Information
Informasi
Gain
0.95
0.12
13 16
0.70
3 0.83 6 14
0.99
8 30
Dipilih atribut Jumlah Pembiayaan sebagai Root Node karena memiliki information gain terbesar yaitu 0.64
4.2.2 Perhitungan Internal Node 1. Internal Node 1 A. Atribut Jumlah Anak Tabel 4.6 Jumlah Anak Jumlah Anak Sedikit
Sedang
Banyak Total
Status Kredit Jumlah Macet
0
Tidak Macet
1
Macet
0
Tidak Macet
2
Macet
8
Tidak Macet
0 11
Total Instence
Q
1
0
2
0
8
0
Entropi
0
Nilai
Information
Informasi
Gain
0.85
0.85
B. Atribut Jangka waktu Pembiayaan Tabel 4.7 Kondisi Buku Jangka Waktu Pembiayaan
Status Kredit
Jumlah
Macet Satu Tahun
Tidak Macet Macet
Dua Tahun
Tidak Macet
Total
Total Instence
Q
Entropi
Nilai
Information
Informasi
Gain
0.85
0.55
7 7
0.00
0 0.30 1 4
0.81
3 11
Dipilih atribut Jumlah Anak sebagai Root Node karena memiliki information gain terbesar yaitu 0.85
4.2.3 Decision Tree Langkah software
Gambar 4.1 Software Weka
Gambar 4.2 Weka Eksplorer
Langkah 1. Klik open file, lalu buka file .csv
Gambar 4.3 Weka Classify
Langkah 2. Klik Classify, choose klik tree dan pilih J48
Gambar 4.4 Weka Classify
Langkah 3. Klik kanan di result list klik visualize tree Print Screen Weka
Gambar 4.5 Print screen Weka
4.2.4 Classification Rule Awal 1. If Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. If Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN Status Kreditnya = MACET 4. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN Status Kreditnya = TIDAK MACET 5. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN Status Kreditnya = TIDAK MACET
4.2.5 Penyerderhanaan Rule (chi square) 1. Uji Independensi Atribut Kondisi dan Keadaan Buku dengan Distribusi Chi Square Tabel 4.8 Frekuensi Jumlah Pembiayaan Kredit
Kecil
Sedang
Besar
total
Macet
0
8
11
19
Tidak Macet
8
3
0
11
total
8
11
11
30
Tabel 4.9 Frekuensi Diharapkan Jumlah Pembiayaan Kredit
Kecil
Sedang
Besar
total
Macet
5.07
6.97
6.97
19
Tidak Macet
2.93
4.03
4.03
11
8
11
11
30
total
A. Hipotesis HO : Atribut Jumlah Pembiayaan mempunyai hubungan dengan keputusan HI : Atribut Jumlah Pembiayaan tidak mempunyai hubungan dengan keputusan
B. Tingkat Signifikasi dan Derajat Kebebasan Tingkat signifikansi : α = 0.05 Derajat Kebebasan : (r-1).(k-1) = (3-1).(2-1) = 2.1 = 2
C. Kriteria Pengujian X2(0,05;2) = 5.991464547 Ho diterima apabila X2 ≤ 5.991464547 Ho ditolak apabila X2 ≥ 5.991464547
Ditolak
5.991464547
20.6046107
Gambar 4.6 Kurva daerah penolakan atribut kondisi dan keadaan buku
D. Kesimpulan Karena X2hitung
X2(0,05;2)
=
20.6046107
, 5.991464547maka Ho
ditolak yang berarti atribut Jumlah Pembiayaan hubungan dengan keputusan.
2. Uji Independensi Atribut Penilaian Peminjaman dengan Distribusi Chi Square Tabel 4.10 Frekuensi Jumlah Anak Kredit
Sedikit
Sedang
Besar
total
Macet
2
4
13
19
Tidak Macet
4
4
3
11
total
6
8
16
30
Tabel 4.11 Frekuensi Diharapkan Jumlah Anak Kredit
Sedikit
Sedang
Besar
total
Macet
3.80
5.07
10.13
19
Tidak Macet
2.20
2.93
5.87
11
6
8
16
30
Total
A. Hipotesis HO :
Atribut Jumlah Anak mempunyai
hubungan dengan
keputusan H1 :
Atribut
Jumlah Anak tidak mempunyai hubungan
dengan keputusan
B. Tingkat Signifikasi dan Derajat Kebebasan Tingkat signifikansi : α = 0.05 Derajat Kebebasan : (r-1).(k-1) = (2-1).(3-1) = 1.2 = 2
C. Kriteria Pengujian X2(0,05;2) = 5.991464547 Ho diterima apabila X2 ≤5.991464547 Ho ditolak apabila X2 ≥ 5.991464547
Ditolak
5.149521531
5.991464547
Gambar 4.7 Kurva daerah penolakan penilaian peminjaman
D. Kesimpulan Karena X2hitung
X2(0,05;2) , 5.149521531
5.991464547, maka Ho
diterima yang berarti atribut Jumlah Anak tidak mempunyai hubungan dengan keputusan.
3. Uji Independensi Atribut Intensitas Dipinjam dengan Distribusi Chi Square Tabel 4.12 Frekuensi Jangka waktu Pembiayaan Kredit
Satu Tahun
Dua Tahun
total
Macet
13
6
19
Tidak Macet
3
8
11
total
16
14
30
Tabel 4.13 Frekuensi Jangka Waktu Pembiayaan Kredit
Satu Tahun
Dua Tahun
Total
Macet
10.13
8.87
19
Tidak Macet
5.87
5.13
11
16
14
30
total
A. Hipotesis HO :
Atribut Jangka Waktu Pembiayaan mempunyai hubungan dengan keputusan
H1 :
Atribut Jangka Waktu Pembiayaan tidak mempunyai hubungan dengan keputusan
B. Tingkat Signifikasi dan Derajat Kebebasan Tingkat signifikansi : α = 0.05 Derajat Kebebasan : (r-1).(k-1) = (2-1).(2-1) = 1.1= 1
C. Kriteria Pengujian X2(0,05;1) = 3.841459149 Ho diterima apabila X2 ≤ 3.841459149 Ho ditolak apabila X2 ≥ 3.841459149
Ditolak
3.841459149
4.739405332
Gambar 2.2 Kurva daerah penolakan penilaian peminjaman D. Kesimpulan Karena X2hitung
X2(0,05;2) , 16.31054131
4.739405332, maka Ho
ditolak yang berarti atribut Jangka Waktu Pembiayaan mempunyai hubungan dengan keputusan.
2.2.6 Rule Akhir Karean Jumlah Anak Tidak
mempunyai hubungan terhadap keputusan
sehingga bentuk diagram pohonnya sebagai berikut: Tabel 4.14 Kondisi Buku Jangka Waktu
Status Kredit
Jumlah
Macet
7
Pembiayaan
Satu Tahun
Total Instence
7 Tidak Macet
Q
Entropi
Nilai
Information
Informasi
Gain
0
0 0.29501 0.845351
Macet
1
Dua Tahun
4 Tidak Macet
Total
3 11
0.811278124
0.55034071
Jumlah Pembiayaan
Sedang
Kecil
Besar
Jangka Waktu Pembiayaan
Tidak Macet
2 Tahun
Macet
1 Tahun
Tidak Macet
Macet
1. If Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. If Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. If Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu tahun THEN Status Kreditnya = MACET 4. If Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua tahun THEN Status Kreditnya = Tidak MACET
4.2.7 Prediksi Tabel 4.15 Data Prediksi JUMLAH
JUMLAH
JANGKA WAKTU
STATUS
PEMBIAYAAN
ANAK
PEMBIAYAAN
KREDIT
1
Besar
Sedang
Satu Tahun
Macet
2
Besar
Banyak
Dua Tahun
Macet
3
Besar
Banyak
Satu Tahun
Macet
4
Sedang
Sedikit
Dua Tahun
Tidak Macet
5
Kecil
Sedang
Dua Tahun
Tidak Macet
NO
BAB V PEMBAHASAN
5.1 Decision Tree Dari hasil pengklasifikasian didapat decision tree sebagai berikut: 1. Pada root node dipilih atribut jumlah pembiayaan karena memiliki nilai information gain terbesar yaitu 0.64 2. Pada internal node 1 dipilih atribut Jumlah Anak yang diletakkan pada instance sedang karena memiliki nilai information gain terbesar yaitu 0.85. Terdiri dari banyak, sedang dan Sedikit 3. Pada internal node 2 atau atribut yang terakhir adalah atribut jangka waktu pembiayaan yang berada pada instance sedang. Tediri dari jangka waktu pembiayaan satu tahun dan dua tahun.
5.2 Classification Rule Awal Rule merupakan model yang terbentuk dari training set dimana sample dalam data dibedakan kedalam kategori atau kelas yang sesuai. Model tersebut kemudian akan digunakan untuk mengklasifikasikan record atau data yang kelasnya belum diketahui sebelumnya. Dari hasil study kasus ini didapat 5 rule awal. Adapun rule tersebut adalah sebagai berikut : 1. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN Status Kreditnya = MACET 4. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN Status Kreditnya = TIDAK MACET 5. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN Status Kreditnya = TIDAK MACET
5.3 Penyerderhanaan Rule Untuk menyederhanakan rule yang telah ditetapkan, digunakan uji distribusi Chi Square. Setelah didapat rule awal kemudian dilakukan uji independensi terhadap masing-masing atribut. Jika nilai X2 hitung untuk atribut lebih besar dari pada X2 tabel maka atribut bersifat dependen yang artinya atribut tersebut tetap dipakai dalam rule. Namun . Jika nilai X2 hitung untuk atribut lebih kecil dari pada X2 tabel maka atribut bersifat independen, sehingga atribut tersebut dapat dihilangkan dari rule. Atau dengan kata lain rule akan disederhanakan.
5.4 Rule Akhir Masing-masing atribut yang ada akan diuji apakah atribut tersebut bersifat dependent atau independent. Pengujian dilakukan melalui uji independensi dengan distribusi Chi Square. Pengujian ini bertujuan untuk melihat apakah suatu atribut mempunyai keterikatan dengan atribut lain atau atribut tersebut berdiri sendiri. Jika atribut tersebut bersifat dependent atau terikat maka atribut tersebut tetap dipakai dalam rule. Namun jika atribut tersebut bersifat independent atau berdiri sendiri maka atribut tersebut dapat dihilangkan dari rule. Atau dengan kata lain rule akan disederhanakan. Dalam studi kasus ini, setelah dilakukan pengujian dengan uji Chi Square dapat diketahui bahwa atribut “Jumlah Pembiayaan” dan “Jangka Waktu pembiayaan” bersifat dependent, sedangkan atribut “Jumlah Anak ” bersifat independent. Sehingga atribut “Jumlah Anak” dihilangkan dari rule awal. Didapat rule akhir sebagai berikut : 1. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu tahun THEN Status Kreditnya = MACET 4. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua tahun THEN Status Kreditnya = Tidak MACET
5.5 Prediksi Rule akhir yang terbentuk akan digunakan untuk melakukan prediksi terhadap Penerima Kredit lain diluar database yang telah dimiliki. Dalam study kasus ini dilakukan prediksi terhadap subjek baru yang belum diketahui kelas atau kategorinya. Dari 5 subjek baru, 3 subjek baru diprediksi status kredinya adalah “MACET”. Sedangkan 2 subjek baru lainnya status Kreditnya adalah “TIDAK MACET”. Adapun hasil prediksi tersebut adalah sebagai berikut : 1. Subjek 1 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya sedang dan jangka waktu pembiayaan satu tahun diprediksi status kredinya akan Macet. 2. Subjek 2 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan dua tahun diprediksi status kredinya akan Macet 3. Subjek 3 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan satu tahun diprediksi status kredinya akan Macet 4. Subjek 4 yang akan menerima kredit dengan jumlah pembiayaanya sedang, jumlah anaknya Sedikit dan jangka waktu pembiayaan dua tahun diprediksi status kredinya akan Tidak Macet 5. Subjek 5 yang akan menerima kredit dengan jumlah pembiayaanya kecil, jumlah anaknya sedang dan jangka waktu pembiayaan dua tahun diprediksi status kredinya akan Tidak Macet
BAB VI KESIMPULAN DAN SARAN 6.1 Kesimpulan 1. Rule yang terbentuk a. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET b. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET c. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN Status Kreditnya = MACET d. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN Status Kreditnya = TIDAK MACET e. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN Status Kreditnya = TIDAK MACET
2. Hasil Penyerderhanaan rule a. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET b. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET c. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu tahun THEN Status Kreditnya = MACET d. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua tahun THEN Status Kreditnya = Tidak MACET
3. Hasil Prediksi a. Subjek 1 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya sedang dan jangka waktu pembiayaan satu tahun diprediksi status kreditnya akan Macet. b. Subjek 2 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan dua tahun diprediksi status kreditnya akan Macet
c. Subjek 3 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan satu tahun diprediksi status kreditnya akan Macet d. Subjek 4 yang akan menerima kredit dengan jumlah pembiayaanya sedang, jumlah anaknya Sedikit dan jangka waktu pembiayaan dua tahun diprediksi status kreditnya akan Tidak Macet e. Subjek 5 yang akan menerima kredit dengan jumlah pembiayaanya kecil, jumlah anaknya sedang dan jangka waktu pembiayaan dua tahun diprediksi status kreditnya akan Tidak Macet
4.2 Saran Mengingat berbagai keterbatasan yang dialami penulis dan berdasarkan hasil praktikum yang telah dilakukan, maka penulis menyarankan untuk pengembangan dimasa yang akan datang sebagai berikut: 1. Bagian bank sebaiknya melakukan identifikasi yang lebih baik lagi dalam pemberian kredit 2. Tentukan hal – hal apa saja yang dibutuhkan oleh penerima kredit. 3. Menentukan hal – hal apa saja yang akan diberikan dan di bebankan kepada penerima kredit.
DAFTAR PUSTAKA Bertalya, “Konsep Data Mining”. Universitas Gunadarma,2009 Chaerudin,
Mochamad,
“IMPLEMENTASI
DAN ANALISA
ALGORITMA
SPRINT SEBAGAI SEBUAH CLASSIFIER POHON KEPUTUSAN YANG SCALABLE PADA DATA MINING”, Tugas Akhir, Jurusan Teknik Informatika, STT TELKOM, 2005. http://www.stttelkom.ac.id/staf/MAB/TAPA-list.htm Ismaya, Agny, ” ANALISIS DAN IMPLEMENTASI OPTIMAL BRAIN SURGEON (OBS) UNTUK KLASIFIKASI PADA DATA MINING”, Tugas Akhir, Jurusan Teknik Informatika, STT TELKOM, 2005. http://www.stttelkom.ac.id/staf/MAB/TA-PA-list.htm Han,Jiawei. “Data Mining Concept and Techniques”. Presentation. http://www.cs.sfu.ca/~han/dmbook Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. ”Introduction to Data Mining”. 2004. http://www.cse.msu.edu/~cse980 Zalilia, Lia, “PENERAPAN DATA MINING UNTUK IDS ”, Tugas Akhir, Jurusan Teknik Elektro, ITB, 2007 www.dtreg.com www.dbminer.com
View more...
Comments