Tahapan pada Data Preprocessing

Pembuatan model machine learning untuk menghasilkan prediksi perlu melakukan beberapa tahapan. Pada gambar 1 menggambarkan 7 tahapan yang harus dilewati, yaitu Data Gathering, Data Preprocessing, Choose Model, Train Model, Test Model, Tune Model, dan Prediction. Pada artikel ini akan dibahas cara untuk melakukan data preprocessing.
Data preprocessing merupakan proses pengolahan data dari data yang telah dikumpulkan yang masih mentah menjadi data dengan format data yang mudah dipahami untuk mempermudah proses data mining dan mudah untuk dibaca. Terdapat beberapa tahapan dalam data preprocessing:
- Data Cleaning
Data yang masih mentah tersebut dibersihkan terlebih dahulu. Pada proses ini memperhatikan nilai yang hilang, noisy data, dan inkonsistensi data. cara memperbaikinya dapat dilakukan dengan beberapa cara, yaitu:
- Menghapus data yang tidak relevan
- Melakukan perubahan format data, contohnya seperti typo, kesalahan huruf besar kecil, inkonsistensi format, misalnya: gender = Female dan F, dll.
- Memperhatikan data yang termasuk outlier
- Mengisi atau menghapus data yang tidak memiliki nilai atau hilang.
- Data Integration
Menggabungkan data dari berbagai sumber data menjadi satu kesatuan data, kemudian mengubah semua format data menjadi sama rata. Pastikan tidak ada format data yang berbeda. Pada data integration ini juga perlu dilakukannya penghapusan atribut yang tidak penting dan mendeteksi nilai yang konflik dikarenakan penggabungan data dari berbagai sumber ini.
- Data Transformation
Melakukan normalisasi dan generalisasi data, dimana normalisasi berarti menjaga range data seragam dan generalisasi data berarti menyeragamkan data. Berikut beberapa cara yang dapat dilakukan untuk data transformation:
- Melakukan penggabungan data dari berbagai sumber
- Melakukan data cleaning juga dapat menjadi salah satu cara dari data transformation
- Melakukan normalisasi yaitu membuat skala data numerik jd seragam misalnya skala kuesioner 1-6 disama kan menjadi 0-1
- Melakukan encoding, yaitu mengubah data kategorikal menjadi bilangan biner 0 dan 1
- Melakukan agregasi, yaitu merangkum keseluruhan data detail menjadi data umum misalnya menghitung jumlah data penjualan tahunan dari data bulanan.
- Data Reduction
Pada tahapan ini dilakukan pengurangan data untuk membuat akurasi lebih baik, tetapi tetap memperhatikan kembali data yang penting untuk dianalisis. Biasanya reduksi data ini bisa dilakukan dengan 3 teknik, yaitu dimensionality reduction, numerosity reduction, dan compression.
- Dimensionality Reduction yaitu melakukan pengurangan dimensi, dimana dapat dilakukan dengan cara feature selection yaitu menghilangkan atribut data yang tidak relevan dan feature extraction yaitu menggunakan proses manual untuk mengenali pola data yang tidak terpakai dan perlu dihapus.
- Numerosity Reduction yaitu melakukan pengurangan jumlah data
- Compression, yaitu melakukan pengurangan ukuran data dengan mengkodekan ulang data dalam format yang lebih efisien tetapi tetap mempertahankan informasi penting. Contohnya: Binning, dimana dilakukan pengurangan kompleksitas dengan mengubah nilai individual menjadi interval atau kategori
References:
https://accurate.id/teknologi/data-preprocessing/
https://dibimbing.id/blog/detail/data-cleaning-arti-manfaat-dan-cara-melakukannya
https://glints.com/id/lowongan/data-cleansing-cleaning/
https://revou.co/kosakata/data-transformation
https://undiksha.ac.id/data-reduction/