School of Information Systems

Overfitting vs Underfitting dalam Machine Learning

Dalam dunia machine learning, dua masalah umum yang sering dihadapi adalah overfitting dan underfitting. Keduanya berhubungan dengan bagaimana model belajar dari data pelatihan dan seberapa baik model tersebut bekerja pada data yang belum pernah dilihat sebelumnya.

Sumber: https://noerbarry.medium.com/mengenal-overfitting-dan-underfitting-e9e37be46c71

Overfitting

Overfitting terjadi ketika model terlalu cocok dengan data pelatihan, termasuk menangkap noise dan fluktuasi acak dalam data. Model yang overfit menunjukkan kinerja yang sangat baik pada data pelatihan, tetapi kinerjanya menurun drastis pada data uji. Overfitting sering terjadi pada model yang terlalu kompleks atau ketika terlalu banyak fitur yang tidak relevan digunakan.

Cara Mengatasi Overfitting:

  1. Regularisasi: Menambahkan penalti terhadap kompleksitas model, seperti menggunakan L1 atau L2 regularisasi.
  2. Cross-Validation: Menggunakan teknik validasi silang untuk memastikan model tidak hanya bekerja baik pada subset data tertentu.
  3. Pruning: Mengurangi kompleksitas model, misalnya dengan memangkas pohon keputusan.
  4. Dropout: Dalam konteks jaringan neural, menggunakan teknik dropout untuk mengurangi overfitting dengan mengabaikan beberapa unit selama pelatihan.
  5. Penggunaan Data Lebih Banyak: Mengumpulkan lebih banyak data pelatihan agar model dapat generalisasi lebih baik.

Underfitting

Underfitting adalah kondisi di mana model gagal untuk menangkap pola dalam data pelatihan. Hal ini biasanya disebabkan oleh model yang terlalu sederhana atau kurangnya fitur yang relevan. Model yang underfit akan menunjukkan performa yang buruk baik pada data pelatihan maupun data uji. Dalam konteks regresi linear, underfitting dapat terjadi jika kita mencoba memodelkan hubungan yang non-linear dengan model linear yang sederhana.

Cara Mengatasi Underfitting:

  1. Menambah Kompleksitas Model: Menggunakan model yang lebih kompleks, seperti menambah jumlah lapisan dalam jaringan neural atau menggunakan algoritma yang lebih canggih.
  2. Menambah Fitur: Menggunakan lebih banyak fitur yang relevan dalam model.
  3. Pengaturan Hyperparameter: Mengoptimalkan hyperparameter model untuk meningkatkan kinerja.

Mengatasi underfitting dan overfitting adalah bagian penting dari pengembangan model machine learning yang efektif. Kunci untuk mengatasi kedua masalah ini adalah menemukan keseimbangan yang tepat antara kompleksitas model dan relevansi fitur yang digunakan. Teknik seperti regularisasi, cross-validation, dan penambahan data pelatihan yang lebih banyak dapat membantu dalam mencapai keseimbangan ini.

Sumber:

https://noerbarry.medium.com/mengenal-overfitting-dan-underfitting-e9e37be46c71

https://www.geeksforgeeks.org/underfitting-and-overfitting-in-machine-learning/

Yulia Ery