School of Information Systems

Metode Data Mining Clustering

Data mining adalah proses pengumpulan informasi dari suatu data yang besar, mengambil data dari sumber data yang belum dipahami. Sebuah proses data mining biasanya menggunakan metode statistika dan matematika hingga teknologi artificial intelligence. Clustering adalah metode untuk menganalisis data yang sering digunakan sebagai salah satu metode data mining.  

Tujuan dari clustering adalah untuk mengelompokkan data dengan karakteristik yang sama ke satu wilayah yang sama dan data dengan karakteristik yang berbeda ke wilayah yang lain. Manfaat clustering sebagai segmentasi data yang berguna untuk memprediksi dan menganalisa masalah bisnis, serta mengidentifikasi obyek dalam berbagai bidang (computer vision dan image processing). 

 Empat tipe data dalam clustering adalah Variabel berskala interval, Variabel Biner, Variabel Nominal, Ordinal dan rasio, dan Variabel dengan tipe lainnya. Metode clustering sendiri mempunyai dua pendekatan yang sering digunakan dalam mengembangkan metode clustering. 2 pendekatan tersebut adalah: 

  1. Clustering dengan pendekatan Partisi  

Clustering pendekatan partisi atau biasanya disebut dengan partition based clustering. Mengelompokkan data ke dalam beberapa cluster atau kelompok sehingga data di dalam satu cluster memiliki tingkat kemiripan yang maksimum dan data antar cluster juga memiliki kemiripan yang minimum. Salah satu metode yang banyak digunakan dalam clustering ini adalah metode K-means, metode ini melakukan pengelompokkan dengan prosedur :  

    • menentukan jumlah cluster. 
    • mengalokasikan data secara acak ke cluster yang ada. 
    • menghitung rata – rata setiap cluster dari data yang sudah tergabung. 
    • alokasikan kembali semua data ke cluster yang terdekat. 
    • Menghitung kembali rata – rata setiap cluster sampai tidak ada perubahan.  

Metode K-means juga mempunyai kelemahan, yaitu : semua variabel memiliki varians yang sama, K-means mengasumsikan varian dari distribusi setiap atribut dan probabilitas sebelumnya untuk semua cluster adalah sama.  

  1. Clustering dengan pendekatan Hirarki 

Mengelompokkan data dengan dua atau lebih objek yang mempunyai kesamaan paling dekat, kemudian diteruskan ke objek lain yang mempunyai kedekatan kedua. Terdapat dua metode yang sering digunakan yaitu Agglomerative hieararchical clustering (pemusatan) dan divisive hieararchical clustering (penyebaran). Agglomerative melakukan proses clustering dari jumlah data cluster menjadi satu kesatuan cluster. Divisive melakukan proses clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster (jumlah data). Beberapa metode yang sering digunakan oleh hieararchical clustering dibedakan menurut cara menghitung tingkat kemiripan. Ada yang menggunakan  Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage.  Seperti juga halnya dengan partition-based clustering, kita dapat memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti Euclidean Distance Space.  

  1. Clustering dengan Pendekatan Automatic Mapping  

Self Organising Map (SOM) adalah suatu tipe Artifical Neural Network. SOM menghasilkan map yang terdiri dari output 2 atau 3 dimensi. Map berusaha untuk mencari property dari input data. Proses learning yang dilakukan mirip dengan Artifical Neural Network, tetapi proses untuk mengassign input data ke map lebih mirip dengan K-means dan KNN Algorithm. Prosedur dalam melakukan clustering dengan SOM adalah :  

    • Menentukan weight dari input data secara random 
    • Memilih salah satu input data
    • Menghitung tingkat kesamaan (eucledian) antara input data dan weight dari input data tersebut lalu pilih input data yang memiliki kesamaan dengan weight yang ada. 
    • Memperbaharui weight dari input data dengan mendekatkan weight ke BMU. Rumus nya adalah : Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))  

 

Keterangan :  

  • Wv(t): Weight pada saat ke-t 
  • Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan. 
  • Alpha (t): Learning Coefficient yang berkurang secara monotonic 
  • D(t): Input data. Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi 

 

Referensi :  

https://yudiagusta.wordpress.com/clustering/#:~:text=Clustering%20adalah%20metode%20penganalisaan%20data,ke%20’wilayah’%20yang%20lain.   

https://flinsetyadi.com/algorimta-clustering-dalam-data-mining-metode-partisi/ 

Linda Tanti