Clustering Algoritma (K-Means)
Pengertian
K-means merupakan salah satu algoritma yang bersifat unsupervised learning. K-Means memiliki fungsi untuk mengelompokkan data kedalam data cluster. Algoritma ini dapat menerima data tanpa ada label kategori. K-Means Clustering Algoritma juga merupakan metode non-hierarchy. Metode Clustering Algoritma adalah mengelompokkan beberapa data ke dalam kelompok yang menjelaskan data dalam satu kelompok memiliki karakteristik yang sama dan memiliki karakteristik yang berbeda dengan data yang ada di kelompok lain. Cluster Sampling adalah teknik pengambilan sampel di mana unit-unit populasi dipilih secara acak dari kelompok yang sudah ada yang disebut ‘cluster, nah Clustering atau klasterisasi adalah salah satu masalah yang menggunakan teknik unsupervised learning.
K-Means Clustering adalah suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan unssupervised learning dan menggunakan metode yang mengelompokan data berbagai partisi.
K Means Clustering memiliki objective yaitu meminimalisasi object function yang telah di atur pada proses clasterisasi. Dengan cara minimalisasi variasi antar 1 cluster dengan maksimalisasi variasi dengan data di cluster lainnya.
K means clustering merupakan metode algoritma dasar,yang diterapkan sebagai berikut
- Menentukan jumlah cluster
- Secara acak mendistribusikan data cluster
- Menghitung rata rata dari data yang ada di cluster.
- Menggunakan langkah baris 3 kembali sesuai nilai treshold
- Menghitung jarak antara data dan nilai centroid(K means clustering)
- Distance space dapat diimplementasikan untuk menghitung jarak data dan centroid. Contoh penghitungan jarak yang sering digunakan adalah manhattan/city blok distance
Tujuan
Clustering Algoritma (K-Means) memiliki tujuan untuk meminimalisasikan fungsi objective yang telah di set dalam proses clustering. Tujuan tersebut dilakukan dengan cara meminimalikan variasi data yang ada didalam cluster dan memaksimalikan variasi data yang ada di cluster lainnya.
Contoh Clustering Algoritma:
– Segmentasi customer bank atau segmentasi berita-berita online.
– Menentukan Parameter Jumlah data, Cluster, dan Atribut dalam penjurusan Siswa
Karakteristik dari K-Means Cluster:
- Cepat dalam proses clustering
- Sensitif terhadap nilai centroid
- Hasil dari Kmeans selalu berubah ubah(dikarenakan tidak unik)
- Sulit meraih global optimum
Kekurangan dari K-Means clustering
- cluster model berbeda ditemukan
- sulit untuk memilih jumlah cluster yang tepat
- Overlapping
- Kegagalan dalam konverge
Permasalahan dalam K-Means:
- Permasalahan pertama adalah disebabkan adanya perbedaan proses inisialisasi terhadap anggota cluster masing-masing. Proses inisialisasi ini dapat menyebabkan beberapa masalah karena proses tersebut dilakukan secara random. Proses inisialisasi secara random kemungkinan dapat mendapatkan hasil yang lebih baik walaupun segi kecepatannya untuk convergem lebih lambat.
- Adanya masalah laten dalam proses clustering. Ada beberapa pendekatan yang dapat menentukan beberapa cluster seperti Partition Entrophy dan GAP Statisctic.
- Adanya kegagalan dalam converge. Permasalahan dapat terjadi kapan saja untuk metode hard K-Means karena setiap data yang ada di dataset dialokasikan secara tegas.
- Adanya permasalahan umum yang hampir terjadi dalam melakukan metode pemodelan data.
- Metode K-Means ini tidak mengindahkan bentuk dari model clustet yang terbentuk walaupun bentuk cluster yang default adalah berbentuk bundar.
- Masalah Overlapping yang sering diabaikan karena adanya suatu masalah yang cukup sulit untuk dideteksi. Masalah tersebut dapat terjadi karena metode K-Means tidak dilengkapi fitur-fitur yang dapat digunakan untuk mendeteksi beberapa masalah yang berhubungan dengan metode K-Means seperti mendeteksi masalah yang tersembunyi.
Sumber:
https://www.ketutrare.com/2018/11/algoritma-k-means-clustering-dan-contoh.html?m=1
https://informatikalogi.com/algoritma-k-means-clustering/
https://ilmudatapy.com/perbedaan-supervised-dan-unsupervised-learning/