Tutorial Menggunakan WEKA untuk Classification

Selain dengan menggunakan RapidMiner Studio atau Altair AI Studio, terdapat software lain yang dapat dengan mudah digunakan untuk knowledge analysis yaitu Wakaito Environment for Knowledge Analysis (WEKA). WEKA merupakan perangkat lunak open-source yang digunakan untuk machine learning dan data mining. Dikembangkan oleh Universitas Waikato di Selandia Baru, WEKA menyediakan berbagai algoritma untuk analisis data, termasuk classification, regression, clustering, dan feature selection. WEKA dapat didownload melalui link berikut: https://waikato.github.io/weka-wiki/documentation/
Berikut merupakan tutorial Classification dengan menggunakan WEKA.
1. Setelah aplikasi WEKA dijalankan, pilih WEKA Workbench
2. Berikut merupakan tampilan GUI dari WEKA Workbench
3. Setelah itu, pilih Open File dan pilih dataset yang ingin dianalisis. WEKA dapat mengolah dataset dengan ekstensi standar dataset yaitu CSV.
Berikut merupakan tampilan ketika file berhasil diinputkan.
4. Pilih menu Classify, dan pilih salah satu algoritma Classification yang diinginkan. Dalam tutorial ini akan menggunakan Random Forest Tree (RFT). RFT merupakan algoritma Ensemble Learning. Keterangan tentang algoritma yang digunakan dapat diperoleh dengan mendekatkan kursor pada algoritma yang diinginkan. Berikut merupakan keterangan dari algoritma RFT yang digunakan oleh WEKA.
5. Pengguna dapat melakukan pengubahan parameter algoritma yang digunakan dengan melakukan klik pada algoritma yang sudah dipilih.
Setelah itu akan muncul parameter RFT. Dalam tutorial ini, akan menggunakan parameter standar yang digunakan WEKA.
6. Langkah berikutnya yaitu memilih Data Validation yang akan digunakan. WEKA menyediakan empat data validation yaitu Use Training Set, Supplied Test Set, Cross Validation, dan Percentage Split. Dalam tutorial ini akan dipilih Cross-Validation dengan 10 folds. Cross Validation dipilih karena dapat menghindari over-fitting pada model dan merupakan metode perbaikan dari Split Test atau Percentage Split. Ten-folds cross validation merupakan metode dengan membagi dataset menjadi sepuluh bagian. Bagian pertama akan menjadi Data Testing sisanya akan menjadi Data Training kemudian diulangi sebanyak sepuluh kali sampai semua bagian menjadi Data Testing dan diambil nilai rata-ratanya. Selain itu pada Test Options ini, dapat menentukan mana yang akan menjadi Label atau Class dari dataset tersebut.
7. Setelah itu klik Start. Hasil akan tampil pada Classifier Output. Pada Classifier Output terdapat informasi dataset, Classifier Model, hingga summary hasilnya.
8. Berikut merupakan Informasi Dataset dan model yang digunakan
9. Berikut merupakan keterangan model yang digunakan.
10. Berikut merupakan Summary model. Hasil evaluasi model dengan menggunakan WEKA sangat lengkap mulai dari accuracy, precision, recall, f-measure atau f1-score , MCC, ROC Area. Selain itu, WEKA juga memberikan hasil Confusion Matrix.
Referensi: https://waikato.github.io/weka-wiki/documentation/