Artikel Perbedaan Task Data Mining Classification, Asociation, dan Segmentation
Data Mining adalah suatu proses mengidentifikasi untuk menghasilkan data yang valid dengan mengambil data-data yang berkemungkinan bernilai untuk mendapat pola yang mudah dimengerti dari data tersebut. Metode data mining terdiri dari :
1. Classification
Classification adalah metode yang paling sering digunakan pada data mining. Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Dan di setiap keadaan bisa memiliki beberapa atribut dimana masing-masing atribut memiliki satu dari beberapa kemungkinan nilai. Classification memiliki tujuan untuk melakukan analisis data historis yang telah tersimpan di database dan akan menghasilkan sebuah model yang dapat memprediksi suatu perilaku di masa mendatang. Metode ini dibutuhkan untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute. Sebuah Classification Model akan menggunakan attribute lain dari kasus tersebut berupa input atribut yang merupakan atribut yang perlu dimasukkan kedalam mesin untuk dapat menentukan pola class untuk menghasilkan output attribute yaitu hasil dari pemrosesan mesin. Algoritma Data Mining yang membutuhkan variabel target untuk belajar maka perlu kita standarkan dengan sebutan Supervised Learning yang merupakan penyesuaian kepada mesin untuk belajar memproses data yang masuk sehingga hasilnya akan sesuai dengan pengaturan yang sudah ditetapkan. Contohnya jika suatu mesin untuk mendeteksi jenis minuman maka mesin itu akan dirancang untuk mengenali jenis jenis minuman jika diletakkan kedalam akan terbaca oleh mesin misalnya mesin dirancang untuk deteksi air putih dan jus jeruk, maka setelah dirancang mesin bisa mendeteksi minuman yang berjenis air putih maupun jus jeruk. Untuk mengetahui tingkat penyelesaikan masalah maka confusion matrix diperlukan dimana tingkat akurasi mesin dapat dibaca dari hasil hasil yang sudah pernah didapatnya. Ada beberapa teknik classification yaitu:
• Decision tree analysis
• Statistical analysis
• Neural networks
• Support vector machines
• Case-based reasoning
• Bayesian classifiers
• Genetic algorithms
• Rough sets
Klasifikasi bisa digunakan untuk segmentasi customer, permodelan bisnis, analisa kartu kredit, dan lain-lain. Contohnya perusahaan kartu kredit ingin memprediksi customer berdasarkan tipe pembayaran.
2. Asociation
Association bisa juga disebut Market Basket Analysis. Sebuah problem bisnis yang biasa ditangani adalah menganalisa tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya jika orang membeli sapu, biasanya dia akan membeli pengki. Maka dari itu kesamaan dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang akan terjadi guna kepentingan cross-selling. Didalam istilah association, setiap item dipertimbangkan sebagai informasi. Metode ini menggunakan unsupervised learning dimana mesin akan belajar secara mandiri dari data data yang ada disekitarnya sehingga tidak perlu pelatihan lagi kepada mesin karena mesin akan membaca sendiri data transaksi pembelian yang terjual bersamaan. Dan hasilnya akan bisa berguna untuk pembuatan paket barang yang akan ditetapkan dan peletakan barang satu dengan yang lain yang berhubungan. Misalnya saat menjual buah apel biasa orang akan beli jeruk, dan pisang juga maka akan dibuat parcel yang berisi apel, jeruk, dan pisang sehingga ini diharapkan mampu meningkatkan penjualan produk. Algoritma yang bisa digunakan dalam asociation adalah :
• Apriori
• Eclat
• F P-Growth
• + Derivatives and hybrids of the three
Metode association bisa digunakan untuk keperluan promosi, desain katalog, segmentasi customer, dan target pemasaran.
3. Segmentation
Clustering juga disebut sebagai segmentation. Metode ini digunakan untuk mengidentifikasi kelompok secara otomatis dari sebuah kasus yang di dasarkan pada data yang memiliki kemiripan atribut kedalam suatu pengelompokan. Misalnya dari data umur dan pendapatan maka ada hasil orang muda penghasilan rendah, orang menengah penghasilan tinggi, dan lainnya. Clustering menggunakan metode unsupervised karena tidak ada satu atributpun yang digunakan untuk memandu proses pembelajaran sehingga data dianalisis secara otomatis dengan pengelompokan data dari data-data yang sudah pernah digunakan. Algoritma segmentation membangun sebuah model yang menggunakan serangkaian pengulangan dan akan berhenti ketika model telah memusat atau berkumpul. Analis clustering dapat dilakukan dengan beberapa metode yaitu :
• Metode statistik (rata-rata, modus, dll)
• Neural network
• Fuzzy logic
• Genetic algorithms
Metode clustering yang bagus akan menghasilkan cluster yang berkualitas untuk memastikan kesamaan pada data yang ada dalam satu cluster.
Sumber :
• https://www.dosenpendidikan.co.id/metode-data-mining/
• Buku Analytics, Data Science and A I: Systems for Decision Support Eleventh (Edition, Global Edition) Chapter 4 (Data Mining Process, Methods, and Algorithms)
• https://ocw.upj.ac.id/files/Handout-TIF311-DM-1.pdf
• https://binus.ac.id/malang/2019/01/cara-kerja-data-mining-seri-data-mining-for-business-intelligence-3/