Class Imbalance Learning
Class Imbalance Learning adalah konsep dalam machine learning di mana jumlah contoh dalam satu kelas jauh lebih besar dibandingkan kelas lainnya. Ini dapat menyebabkan model bias terhadap kelas mayoritas, sehingga mengabaikan kelas minoritas. Masalah ini sering terjadi dalam berbagai aplikasi seperti deteksi penipuan, diagnosis medis, dan analisis kredit.
Sumber: https://www.kaggle.com/code/marcinrutecki/best-techniques-and-metrics-for-imbalanced-dataset
Tidak ada perjanjian, atau standar terkait tingkat dari class imbalance (ketidakseimbangan kelas) yang diperlukan untuk dataset yang dianggap benar-benar “imbalanced”. Dataset dimana kelas yang paling umum kurang dari dua kali kelas yang sedikit hanya akan sedikit tidak seimbang, sedangkan dataset dengan imbalance ratio 10:1 akan tidak seimbang dan dataset dengan imbalance ratio 1000:1 akan sangat tidak seimbang.
Ada beberapa cara dalam mengatasi class imbalance diantaranya:
- Resampling Techniques:
- Oversampling: Menambah contoh kelas minoritas (misalnya, SMOTE, ADASYN).
- Undersampling: Mengurangi contoh kelas mayoritas.
- Algoritma yang Diadaptasi:
- Algoritma khusus seperti BalancedRandomForest atau EasyEnsemble.
- Pemberian Bobot:
- Memberikan bobot lebih besar pada kelas minoritas saat melatih model.
- Penyesuaian Threshold:
- Mengubah threshold keputusan untuk meningkatkan sensitivitas terhadap kelas minoritas.
- Penggunaan Metrik yang Tepat:
- Metrik seperti Precision, Recall, F1-score, dan AUC-ROC lebih informatif dibandingkan akurasi keseluruhan.
Secara keseluruhan, kita dapat menggunakan oversampling, undersampling, atau kombinasi keduanya untuk mengatasi ketidakseimbangan data. Jika memiliki sumber daya komputasi yang cukup, lebih baik menggunakan kombinasi kedua teknik ini; oversampling efektif ketika data poin sedikit, sementara undersampling baik jika terdapat banyak data poin serupa.
Selain itu, mengukur kinerja dataset yang tidak seimbang bisa rumit. Pastikan menggunakan metrik klasifikasi yang tepat tidak hanya akurasi tetapi juga menggunakan metrik lain seperti precision, recall, f1-score, dan AUC-ROC.
Sumber:
https://medium.com/metaor-artificial-intelligence/solving-the-class-imbalance-problem-58cb926b5a0f
https://towardsdatascience.com/class-imbalance-strategies-a-visual-guide-with-code-8bc8fae71e1a