Model Drift Dalam Analisis Data: Apa Itu? Terus? Sekarang apa?
Sebuah laporan dari MIT mengatakan bahwa perusahaan yang matang secara digital 26% lebih menguntungkan daripada rekan-rekan mereka. Menurut Forrester, perusahaan berbasis data tumbuh rata-rata lebih dari 30% per tahun. Terlepas dari potensi data untuk meningkatkan kinerja bisnis, proyek analisis data memiliki tingkat keberhasilan yang buruk. Gartner mengatakan bahwa hanya 20% solusi analitik yang memberikan hasil bisnis. Sebuah laporan di VentureBeat mengatakan bahwa 87% proyek analitik data tidak pernah berhasil diproduksi.
Ada banyak alasan untuk tingkat keberhasilan yang buruk ini, salah satunya dari sisi teknis adalah masalah model drift dalam analisis data. Apa itu model drift? Model drift adalah penurunan performa model analitik data akibat perubahan data dan hubungan antar variabel data. Penyimpangan model terjadi ketika keakuratan wawasan, terutama dari analisis prediktif, berbeda secara signifikan dari wawasan yang diperoleh selama periode pelatihan dan penerapan model. Secara khusus, ada tiga sumber utama atau gejala penyimpangan model.
- Data Drift: Ketika karakteristik variabel independen, fitur atau prediktor berubah.
- Konsep Drift: Ketika karakteristik variabel dependen, label atau target berubah.
- Algoritma Drift: Ketika algoritma, termasuk asumsi kehilangan relevansi karena perubahan kebutuhan bisnis.
Apa akar penyebab dari ketiga sumber atau gejala utama model drift? Alasan utama penyimpangan model adalah perubahan dalam bisnis. Strategi dan tujuan bisnis berubah karena merger, akuisisi dan divestasi (MAD), pengenalan produk baru, undang-undang dan peraturan baru, masuk ke pasar baru dan banyak lagi. Pada dasarnya, bisnis adalah entitas yang terus berkembang. Semua gangguan ini akan mengubah cara model analitik data asli digunakan oleh bisnis. Mengetahui sumber penyimpangan model akan membantu Anda mengidentifikasi tindakan perbaikan yang tepat yang Anda perlukan untuk mengembalikan model ke tingkat kinerja yang dapat diterima atau diinginkan.
Mengapa model melayang itu penting? Apa dampak bisnis dari model drift? Saat ini, model analitik data semakin menjadi pendorong utama keputusan dan kinerja bisnis. Tren ini akan berlanjut dengan kecepatan yang jauh lebih cepat, mengingat kecepatan pengambilan data dan peningkatan kematangan platform machine learning (ML). Dalam kenyataan ini, mengelola penyimpangan model sangat penting untuk memastikan keakuratan wawasan atau prediksi. Pada dasarnya, mengurangi atau menghilangkan penyimpangan model akan meningkatkan kepercayaan yang dapat Anda berikan pada model, sehingga mendorong adopsi data dan analitik di seluruh organisasi Anda.
Jadi, bagaimana Anda bisa mengurangi atau menghilangkan model drift? Pada intinya, penyimpangan model bukanlah masalah manajemen teknologi; ini adalah masalah manajemen perubahan. Perubahan dalam konteks data dan analitik ini dapat dikelola secara efektif dengan menerapkan tiga strategi berikut.
Pertama, data adalah cerminan dari kenyataan, dan seringkali, degradasi data mengakibatkan degradasi model dan kinerja bisnis. Dengan demikian, Anda perlu mengelola penyimpangan data dengan praktik tata kelola data yang efektif. Kita semua tahu prinsip dasar pemrosesan data adalah “sampah yang masuk adalah sampah yang keluar”. Jadi, identifikasi variabel dalam hipotesis Anda, tentukan KPI kualitas data Anda, tetapkan target dan ambang batas, dan lacak KPI ini secara terus-menerus agar tetap up to date dengan perubahan kualitas data.
Kedua, terus menilai dinamika bisnis Anda dan terus meninjau relevansi model analisis data yang ada dengan pemangku kepentingan Anda. Saat berbicara dengan pemangku kepentingan Anda, ajukan pertanyaan berikut:
- Mengapa Anda ingin memiliki wawasan? Berapa banyak yang ingin Anda ketahui? Apa nilai mengetahui dan tidak mengetahui wawasan ini?
- Siapa yang memiliki wawasan yang keluar dari model kita? Siapa yang bertanggung jawab dalam hal mengubah wawasan menjadi keputusan dan tindakan?
- Apa atribut data relevan yang diperlukan model untuk memperoleh wawasan yang akurat dan tepat waktu?
Terakhir, integrasikan praktik ModelOps dan DataOps untuk memungkinkan penggantian yang cepat dan etis dari model analitik yang diterapkan dengan model lain jika keadaan bisnis berubah. Data adalah bahan bakar di mana model dijalankan; tanpa data, model praktis tidak memiliki utilitas bisnis. Pada dasarnya, integrasi yang baik dari praktik ModelOps dan DataOps membantu dalam memajukan model analitik dengan cepat dari lab ke produksi.
Secara keseluruhan, cara terbaik untuk mengelola penyimpangan model adalah dengan terus mengatur dan memantau kinerja model Anda dengan KPI yang tepat. Meskipun menerapkan model analitik data itu penting, yang terpenting adalah model yang benar-benar dapat dikonsumsi oleh bisnis untuk meningkatkan kinerja bisnis. Seperti yang mereka katakan, perubahan adalah satu-satunya yang konstan dalam hidup, dan bisnis juga berubah dan berkembang agar tetap relevan. Melibatkan pemangku kepentingan bisnis sejak dini, meninjau setiap perubahan dengan metrik dan terus menyesuaikan untuk perbaikan sangat penting dalam mengelola penyimpangan model.