Bab 6 Analisis Cluster
August 8, 2017 | Author: Si Potter Ashter PacitanNizty | Category: N/A
Short Description
Download Bab 6 Analisis Cluster...
Description
BAB 6 ANALISIS CLUSTER Pendahuluan Analisis cluster membagi data ke dalam grup (cluster) yang bermakna, berguna, atau keduanya. Jika tujuannya mencari grup yang memiliki makna, maka cluster seharusnya menangkap struktur alami dari data, disebut juga clustering for understanding. Dalam beberapa kasus, analisis cluster hanya berguna sebagai titik awal bagi penggunaan yang lain - seperti peringkasan data (data summarization), disebut juga clustering for utility. Apakah untuk mencari grup yang bermakna atau sebagai perangkat awal bagi penggunaan yang lain, analisis cluster telah lama memainkan peran penting dalam berbagai bidang seperti: psikologi dan ilmu sosial lainnya, biologi, statistika, pengenalan pola, temu kembali informasi, machine learning, dan data mining. Analisis cluster telah diterapkan dalam banyak masalah praktis, seperti Clustering for Understanding. Kelas, atau kelompok obyek yang memiliki makna secara konsep dengan karakteristik umum yang sama, memainkan peran penting dalam bagaimana orang menganalisis dan menjelaskan fenomena di alam. Sebenarnya, manusia memiliki keterampilan untuk membagi obyek-obyek ke dalam grup (clustering) dan memberikan obyek tertentu dalam grup-grup tersebut (classification). Sebagai contoh, bahkan anak kecil dapat dengan cepat memberikan label obyek-obyek dalam foto sebagai bangunan, kendaraan, manusia, binatang, tumbuhan, dan sebagainya. Dalam konteks pemahaman data, cluster merupakan kelas-kelas yang potensial dan analisis cluster merupakan kajian tentang teknik menemukan kelas-kelas tersebut secara otomatis. Berikut adalah contoh clustering for understanding di berbagai bidang : •
Biologi. Ahli biologi telah lama menciptakan taksonomi (klasifikasi secara hirarki) bagi seluruh makhluk hidup : kingdom, phylum, kelas, ordo, famili, genus dan spesies. Sehingga tidak mengherankan jika pada awalnnya banyak pekerjaan analisis cluster yang bertujuan menciptakan taksonomi matematis yang dapat menemukan struktur klasifikasi secara otomatis. Saat ini, ahli biologi menerapkan clustering dalam analisis informasi genetik yang sangat besar. Sebagai contoh, clustering digunakan untuk mencari kelompokkelompok gen yang memiliki fungsi sama.
•
Temu-Kembali Informasi. World Wide Web mengandung jutaan halaman web, dan hasil query kepada mesin pencari dapat menghasilkan ribuan halaman. Clustering dapat digunakan untuk mengelompokkan hasil pencarian ini ke dalam sejumlah kecil cluster, masing-masing cluster menangkap aspek tertentu dari query. Sebagai contoh, query “movie” mungkin akan menghasilkan halaman web yang dikelompokkan dalam beberapa kategori, seperti review, trailer, bintang dan teater. Setiap kategori (cluster) dapat dipecah ke dalam sub-kategoru (sub-claster), menghasilkan struktur hirarki yang membantu pengguna untuk melakukan eksplorasi hasil query.
Modul Kuliah Data Mining
101
•
Iklim. Agar dapat memahami iklim bumi, perlu mencari pola atmosfer dan lautan. Untuk itu, analsis cluster telah digunakan untuk mencari pola tekanan atmosfer di daerah kutub dan wilayah lautan yang memiliki dampak berarti bagi iklim di daratan.
•
Psikologi dan Pengobatan. Kondisi kesehatan seseorang seringkali bervariasi, dan analisis cluster dapat digunakan untuk melakukan identifikasi sub-kategori kondisi kesehatan. Sebagai contoh, clustering telah digunakan untk melakukan identifikasi berbagai jenis depresi. Analisis cluster juga dapat digunakan untuk mendeteksi pola penyebaran penyakit secara spasial maupun temporal.
•
Bisnis. Bisnis mengumpulkan sejumlah besar informasi tentang pelanggan saat ini serta orang yang potensial menjadi pelanggan. Clustering dapat digunakan untuk membagi pelanggan ke dalam sejumlah kecil kelompok untuk analisis dan kegiatan pemasaran.
Clustering for Utility. Analisis cluster menyediakan abstraksi dari obyek data individu kepada cluster dimana obyek tersebut berada. Sebagai tambahan, beberapa teknik clustering dapat menentukan karakteristik cluster dalam bentuk cluster prototype, yaitu obyek data yang mewakili obyek-obyek lainnya di dalam cluster. Cluster prototype ini dapat digunakan sebagai dasar bagi sejumlah teknik analisis data dan pengolahan data. Dengan demikian, dalam konteks penggunaan (utility), analisis cluster adalah kajian tentang teknik untuk mencari cluster prototype yang paling mewakili. •
Summarization. Banyak teknik analisis data, seperti regresi atau PCA, memiliki kompleksitas O(m2) atau lebih tinggi (dimana m adalah jumlah obyek), sehingga tidak praktis untuk dataset yang besar. Namun, daripada menerapkan algoritma ke seluruh dataset, algoritma tersebut dapat diterapkan ke dataset yang telah dikurangi, mengandung hanya cluster prototype. Tergantung dari tipe analisis, jumlah prototipe, dan tingkat akurasi prorotipe dalam mewakili data, hasil algoritma dapat dibandingkan dengan jika menggunakan seluruh data.
•
Compression. Cluster prototype dapat juga digunakan untuk kompresi data. Secara umum, dibuat sebuah tabel yang berisi prototipe dari setiap cluster, misal masing-masing prototipe diberikan nilai integer berupa indeks dari prototipe yang terasosiasi dengan cluster-nya. Tipe kompresi ini dikenal sebagai vector quantization dan sering diterapkan pada data citra, suara dan video, dimana (1) banyak obyek data yang sangat mirip satu dengan lainnya, (2) kehilangan informasi sampai tingkat tertentu masih dapat ditolerir, dan (3) diinginkan tingkat pengurangan ukuran data yang nyata.
•
Efficiently Finding Nearest Neighbors. Mencari nearest neighbors memerlukan perhitungan jarak antar pasangan obyek, untuk semua titik. Seringkali cluster dan cluster prototype dapat ditemukan dengan jauh lebih efisien.
Modul Kuliah Data Mining
102
6.1.
Gambaran Umum
6.1.1.
Apakah Analisis Cluster ?
Analisis cluster akan mengelompokkan obyek-obyek data hanya berdasarkan pada informasi yang terdapat pada data, yang menjelaskan obyek dan relasinya. Tujuan analisis cluster adalah agar obyek-obyek di dalam grup adalah mirip (atau berhubungan) satu dengan lainnya, dan berbeda (atau tidak berhubungan) dengan obyek dalam grup lainnya. Semakin besar tingkat kemiripan/similarity (atau homogenitas) di dalam satu grup dan semakin besar tingkat perbedaan diantara grup, maka semakin baik (atau lebih berbeda) clustering tersebut. Gambar 6.1 merupakan ilustrasi prinsip clustering.
Gambar 6.1. Prinsip Clustering Gambar 6.2 memperlihatkan dua puluh titik dan tiga cari membagi titik-titik tersebut dalam cluster. Gambar 6.2 merupakan ilustrasi bagaimana definisi cluster tidak presisi dan definisi terbaik tergantung dari kondisi data serta hasil yang diinginkan.
Gambar 6.2. Beberapa cara menentukan cluster bagi dataset yang sama 6.1.2. Tipe Clustering. Ada beberapa tipe clustering jika dilihat dari beberapa sudut pandang, yaitu: •
Hierarchical versus Partitional. Partitional Clustering adalah membagi himpunan obyek data ke dalam sub-himpunan (cluster) yang tidak overlap, sehingga setiap obyek data berada dalam tepat satu cluster. Dilihat secara individual, setiap koleksi cluster dalam Gambar 1(b-d) adalah partitional clustering.
Modul Kuliah Data Mining
103
Jika kita mengizinkan cluster untuk memiliki subcluster, maka akan terbentuk Hierarchical Clustering, yang merupakan himpunan nested cluster yang diatur dalam bentuk tree. Gambar 6.3 memperlihatkan empat obyek data sebagai dendogram dan nested cluster.
Gambar 6.3. Dendogram dan Nested Cluster. •
Exclusive versus Overlapping versus Fuzzy Clustering pada Gambar 6.2 semuanya bersifat exclusive, karena masingmasing obyek ditempatkan dalam satu cluster. Dalam banyak situasi dimana satu titik masuk akal ditempatkan dalam lebih satu cluster maka situasi ini menimbulkan overlapping clustering atau non-exclusive clusering. Misalnya, seseorang dalam universitas bisa menjadi mahasiswa sekaligus karyawan universitas tersebut. Dalam fuzzy clustering, setiap obyek menjadi milik setiap cluster dengan nilai keanggotaan diantara 0 (multak bukan anggota cluster) dan 1 (mutlak anggota cluster). Dengan kata lain, cluster diperlakukan sebagai himpunan fuzzy.
•
Complete versus Partial Complete clustering akan menetapak setiap obyek ke dalam cluster, sedangkan partial clustering tidak. Alasan partial clustering adalah karena beberapa obyek dalam dataset mungkin bukan anggota kelompok yang telah didefinisikan dengan baik. Banyak obyek dalam dataset mungkin mewakili noise, outlier atau “uninteresting background”. Sebagai contoh, beberapa artikel surat kabar mungkin berbagai tema yang sama, seperti pemanasan global, sedangkan artikel lainnya lebih umum atau one-of-a-kind. Sehingga, untuk mencari topik yang penting dalam artikel bulan lalu, kita hanya ingin mencari cluster dokumen yang terkait erat dengan tema umum. Dalam kasus lain, mungkin yang diperlukan adalah complete clustering. Misal, aplikasi yang menggunakan clustering untuk mengatur dokumen untuk browsing yang perlu menjamin semua dokumen dapat di-browse.
Telah banyak algoritma clustering yang dikembangkan, Gambar 6.4 menyajikan beberapa algoritma clustering dan hubungan diantara algoritma-algoritma tersebut. Sedangkan yang akan dibahas pada modul ini hanya algoritma K-mean, Agglomerative Hierarchical dan DBSCAN.
Modul Kuliah Data Mining
104
Gambar 6.4. Algoritma Clustering. 6.1.3. Tipe Cluster Clustering bertujuan mencari kelompok obyek (cluster) yang bermanfaat, sedangkan tingkat manfaat ditentukan oleh tujuan analisis data yang ditetapkan. Oleh karena itu, terdapat beberapa jenis cluster, yaitu: •
Well-Separated. Cluster merupakan himpunan titik sehingga sembarang titik dalam cluster lebih dekat (atau lebih mirip) dengan setiap titik dalam cluster dibandingkan dengan sembarang titik yang tidak di dalam cluster. Gambar 6.5 merupakan ilustrasi Well-Separated Cluster.
Gambar 6.5 Tiga Well-Separated Cluster •
Prototype-Based/Center-Based. Cluster merupakan himpunan obyek, sehingga sebuah obyek dalam cluster lebih dekat (lebih mirip) dengan “pusat” cluster, daripada dengan pusat cluster lainnya. Yang sering dijadikan pusat cluster adalah centroid dan medoid. Centroid adalah rataan semua titik dalam cluster, sedangkan medoid adalah titik yang paling mewakili cluster. Center-based cluster di-ilustrasikan pada Gambar 6.
Gambar 6.6. Empat Center-Based Cluster •
Graph-Based. Jika data direpresentasikan sebagai graph, dimana obyek menjadi node dan link menyatakan koneksi diantara obyek, maka cluster dapat didefinisikan sebagai connected component; yaitu grup obyek yang terkoneksi satu sama lain, tetapi tidak memiliki koneksi dengan obyek di luar grup. Contoh penting dari graph-based cluster adalah contiguitybased cluster, dimana dua obyek terkoneksi hanya jika keduanya berada
Modul Kuliah Data Mining
105
dalam jarak tertentu satu sama lain. Contoh contiguity-based cluster dapat dilihat pada Gambar 6.7
Gambar 6.7 Contiguity-based cluster •
Density-Based. Sebuah cluster adalah wilayah yang padat obyek dikelilingi oleh wilayah dengan kepadatan rendah. Cluster tipe ini berguna untuk membentuk cluster dengan bentuk tak-teratur (irregular) atau terpilin (intertwined), dan juga jika terdapat noise dan outlier. Gambar 6.8 merupakan contoh Density-Based Clustering
Gambar 6.8 Density-Based Clustering. •
Shared-Property (Conceptual Cluster). Mencari cluster dengan beberapa sifat yang sama, atau menyatakan konsep tertentu. Gambar 6.9 merupakan cluster yang mempunyai sifat “lingkaran”
Gambar 6.9 Dua Overlapping Circles 6.2. K-mean Algoritma k-means mengambil parameter input k,dan membagi sebuah himpunan dari objek kedalam k cluster,sehingga menghasilkan similaritas intracluster adalah tinggi tetapi similaritas intercluster adalah rendah . similaritas cluster diukur dari banyaknya nilai m obyek yang ada pada sebuah cluster,sehingga dapat dilihat sebagai cluster’s centre gravity. “Bagaimana algoritma k-means bekerja ? ” proses algoritma k-means sebagai berikut. Pertama menentukan secara random k obyek, masing masing obyek tersebut pada awalnya menggambarkan sebuah cluster mean atau cluster center. Untuk tiap-tiap obyek yang tersisa dimasukkan ke dalam cluster yang mempunyai kesamaan yang lebih, didasarkan pada jarak antara obyek dengan sebuah cluster mean. Kemudian hitung nilai mean yang baru untuk masing – masing cluster.proses ini berulang sampai fungsi kriteria di temukan. Algoritma ini mencoba untuk menentukan k partisi yang memiliki fungsi squared error minimal. Metode ini relatif lebih scalable dan effisien untuk pemrosesan data dengan jumlah yang besar karena perhitungan kompleksitas dari algoritma
Modul Kuliah Data Mining
106
tersebut adalah O(nkt) dimana n adalah jumlah total obyek sedangkan k adalah jumlah cluster dan t adalah banyaknya iterasi. Pada umumnya, k
View more...
Comments