Train Validate Test dan Cross Validation
Dalam machine learning, proses pembelajaran dan evaluasi model sangat penting untuk memastikan kinerja yang optimal. Proses ini biasanya melibatkan pembagian dataset menjadi tiga bagian utama: train, validate, dan test. Selain itu, teknik cross-validation sering digunakan untuk evaluasi model yang lebih baik. Berikut adalah penjelasan tentang masing-masing konsep tersebut.
Train, Validate, dan Test
Train-Validate-Test adalah pendekatan yang lebih sederhana untuk evaluasi model, yang melibatkan pembagian dataset menjadi tiga set: train, validate, dan test.
Langkah-langkahnya:
- Data Splitting
- Membagi dataset menjadi tiga bagian: training, validation, dan test
- Pembagian yang paling umum yaitu 70-15-15 atau 80-10-10
- Minimum untuk training set adalah 60% jumlah instance dalam dataset
- Model Training
- Melatih model dengan training set
- Validation
- Evaluasi kinerja model dengan validation set
- Sesuaikan hyperparameter berdasarkan hasil validasi
- Final Evaluation
- Menilai kinerja model dengan test set untuk evaluasi akhir supaya tidak bias.
Cross Validation
Sumber: https://www.sharpsightlabs.com/blog/cross-validation-explained/
Cross-validation adalah teknik evaluasi yang digunakan untuk menilai kinerja model machine learning lebih akurat, terutama ketika data terbatas. Teknik ini membagi dataset menjadi beberapa subset atau “folds”, dan melakukan pelatihan dan validasi model beberapa kali, setiap kali menggunakan fold yang berbeda sebagai validation set dan sisa fold sebagai train set.
Langkah-langkahnya:
- Data Splitting
- Membagi dataset menjadi k subset (folds)
- Nilai umum yang digunakan untuk k adalah 5 atau 10
- Training and Validation
- Iterasi setiap fold
- Gunakan k-1 folds untuk training dan sisanya untuk validasi
- Latih dan evaluasi model sebanyak k kali
- Performance Metric
- Hitung performance metric: akurasi, precision, recall, f1-score untuk setiap iterasi
- Average Result
- Rata-ratakan performance metric pada semua iterasi untuk robust evaluation
Cross-validation memberikan penilaian kinerja yang lebih stabil dan kurang bias karena menggunakan beberapa subset data. Sedangkan Train-validate-test lebih sederhana tetapi bisa lebih rentan terhadap bias jika dataset terbatas.
Sumber:
https://datascience.stackexchange.com/questions/52632/cross-validation-vs-train-validate-test
https://machinelearningmastery.com/training-validation-test-split-and-cross-validation-done-right/
https://www.sharpsightlabs.com/blog/cross-validation-explained/