METODE DATA MINING CLASSIFICATION
Data mining adalah proses penarikan data yang sangat besar untuk diterjemahkan ke dalam database yang besar sehingga memudahkan pengambilan keputusan suatu masalah dan juga sebagai prediksi masa depan. Data mining sendiri mengumpulkan beberapa teknik untuk menemukan pola yang tidak diketahui sebelumnya. Sumber dari data mining sendiri adalah dari data warehouse yang sudah terkonsolidasi sebelumnya. Miner (orang yang melakukan data mining) melakukan data maning dengan cara mengekstrak pattern/pola yang ada di dalam data yang sudah diambil sebelumnya. Contoh dari data mining adalah untuk memaksimalkan keuntungan dari marketing, memaksimalkan nilai dari pelanggan, mendeteksi transaksi palsu, mengoptimisasi inventory pada lokasi yang berbeda, mengurangi kerugian, memprediksi dan mencegah kegagalan mesin, mengidentifikasi anomaly dalam system, meningkatkan kualitas produk, memprediksi harga saham, dan lain-lain. Data mining juga dipakai di dalam banyak aspek seperti dalam computer, sains dan teknik, pemerintahan, penegakan hukum, obat-obatan, olahraga, dan masih banyak lainnya.
Ada tiga metode dari data mining yaitu, Prediction, Association, dan Segmentation. Tipe Prediction terbelah menjadi tiga yaitu Classification, Regression, dan Time Series. Classification menggunakan algoritma diantaranya Decision Trees, Neural Networks, Support Vector Machines, kNN, Naïve Bayes, dan GA. Regression menggunakan Linear/Nonlinear, ANN, dan Regression Trees. Kemudian Time Series menggunakan Autoregressice Methods, Averaging Methods, Exponential Smoothing, dan ARIMA. Ketika subtype dari Association mempunyai learning type supervised. Dalam melakukan metode klasifikasi, ada proses estimasi yang bernama simple/single split yaitu memisahkan data untuk training (70%) dan testing (30%). Hal ini digunakan untuk melihat prediksi dari akurasi metode klasifikasi tersebut.
Proses lainnya dalam metode klasifikasi adalah k-Fold Cross Validation, data dipisahkan dengan jumlah yang sama kedalam subsets kemudian dilakukan training/testing.
Metode kedua adalah Association dibagi menjadi tiga subtype yaitu, Market-based, Link analysis, dan Sequence analysis. Market-based menggunakan Apriory, OneR, ZeroR, Eclat, dan GA. Link analysis menggunakan Expectation Maximization, Apriory Algorithm, dan Graph-based Matching. Kemudian Squence analysis menggunakan Apriory Algorithm, FP-Growth, Grapth-based Matching. Ketiga subtype diatas menggunakan learning type unsupervised.
Metode ketiga dan terakhir dalah Segmentation yang dibagi menjadi 2 subtype yaitu Clustering dan Outlier analysis. Clustering dan Outlier analysis menggunakan algoritma yang sama yaitu K-means dan Expectation Maximization. Dan learning type kedua subtype tersebut sama yaitu unsupervised.
Dalam melakukan proses data mining, ada tiga proses yang biasanya digunakan yaitu CRISP-DM, SEMMA, dan KDD. CRISP-DM atau Cross-Industry Standard Process for Data Mining melakukan prosesnya dengan memahami bisnisnya terlebih dahulu, kemudian memahami datanya dan mempersiapkan data tersebut untuk diproses, kemudian membuat model yang sesuai dengan kemauan, melakukan percobaan dan evaluasi, terakhir penerapan dari model tersebut.
SEMMA atau Sample, Explore, Modify, Model, and Assess melakukan prosesnya sesuai dengan namanya, pertama-tama memilih sampel dari data, kemudian melakukan visualisasi dari data tersebut, memilih variabel, kemudian hasilnya digunakan ke dalam model, terakhir mengevaluasi untuk akurasi dan kegunaan dari model tersebut.
KDD atau Knowledge Discovery in Databases Process melakukan prosesnya dengan memilih data terlebih dahulu, membersihkan data sehingga menjadi data yang diperlukan saja, mengubah data tersebut, mengekstrak pola/pattern yang ada, kemudian melakukan internalisasi terhadap pola/pattern yang telah diekstrak tersebut.
Data mining metode klasifikasi melakukan prosesnya dengan belajar dengan data yang sudah ada, kemudian melakukan klasifikasi untuk data baru, hasil dari metode klasifikasi adalah categorical (nominal atau ordinal). Dalam melihat apakan estimasi akurasi yang diberikan oleh model klasifikasi benar, maka ada yang dinamakan confusion matrix. Dari matrix tersebut para miner dapat melakukan estimasi akurasi dari proses yang sudah dijalankan.
True/Observed Class | |||
Positive | Negative | ||
Predicted Class | Positive | True Positive Count (TP) | False Positive Count (FP) |
Negative | False Negative Count (FN) | True Negative Count (TN) |
References
Kurniawan, A., n.d. Data Mining – Pengertian, Metode, Fungsi, Tujuan Dan Proses. [online] Gurupendidikan.co.id. Available at: <https://www.gurupendidikan.co.id/data-mining/>.
Oktanisa, I. and Supianto, A., 2018. PERBANDINGAN TEKNIK KLASIFIKASI DALAM DATA MINING UNTUK BANK DIRECT MARKETING. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), 5(5), pp.567-576.
Sharda, R., Delen, D. and Turban, E., n.d. Business Intelligence, Analytics, And Data Science. 4th ed. Pearson Education Ltd.