Model Evaluation Metrics untuk Machine Learning
What are Evaluation Metrics?
Evaluation Metrics adalah ukuran kuantitatif yang digunakan untuk menilai kinerja dan efektivitas model statistik atau machine learning. Metrics ini memberikan wawasan tentang seberapa baik model bekerja dan membantu dalam membandingkan model atau algoritma yang berbeda. Pemilihan metrik evaluasi bergantung pada domain masalah, jenis data, dan hasil yang diinginkan.
Penting untuk mengevaluasi kemampuan prediktif, generalisasi, dan kualitas keseluruhan model. Kesalahan umum adalah tidak memeriksa ketahanan model dan langsung menggunakan nilai prediksi pada data yang tidak terlihat, yang merupakan pendekatan yang salah. Evaluation Metrics membantu memastikan model yang dipilih memberikan akurasi tinggi pada data sampel.
Ada 12 model Evaluation Metrics yang umum digunakan:
- Confusion Matrix: Matriks yang menunjukkan kombinasi prediksi benar dan salah, digunakan untuk menghitung metrik seperti presisi, recall, dan akurasi.
- F1-Score: Harmonik rata-rata dari presisi dan recall, penting untuk klasifikasi yang memerlukan keseimbangan keduanya.
Atau
- Gain and Lift Charts: Grafik yang menilai pemeringkatan probabilitas prediksi.
- Kolmogorov-Smirnov Chart: Mengukur pemisahan antara distribusi positif dan negatif.
- AUC-ROC: Area di bawah kurva ROC, menunjukkan kemampuan model memisahkan kelas.
- Log Loss: Mengukur ketepatan probabilitas prediksi.
Dengan:
- p(yi) merupakan probabilitas prediksi dari kelas positif
- 1-p(yi) adalah probabilitas prediksi dari kelas negatif
- yi = 1 untuk kelas positif dan 0 untuk kelas negatif (nilai sebenarnya)
- Gini Coefficient: Derivasi dari AUC, digunakan dalam masalah klasifikasi.
- Concordant-Discordant Ratio: Mengukur kemampuan prediksi model dengan membandingkan pasangan nilai prediksi.
- Root Mean Squared Error (RMSE): Digunakan dalam regresi untuk menilai kesalahan prediksi.
- RMSLE (Root Mean Squared Logarithmic Error): Versi logaritmik dari RMSE, mengurangi penalti untuk perbedaan besar.
- R-Squared/Adjusted R-Squared: Mengukur proporsi variabilitas data yang dijelaskan oleh model.
R-Squared
Adjusted R-Squared
Dengan:
- k adalah jumlah fitur
- n adalah jumlah sampel
- Cross-Validation: Teknik untuk menguji generalisasi model dengan membagi data ke dalam beberapa subset.
K-Folds Cross-Validation
Contoh k-fold dengan 7-fold cross validation.
Sumber:
https://www.analyticsvidhya.com/blog/2019/08/11-important-model-evaluation-error-metrics/