School of Information Systems

DATA PREPARATION (Kumpulan tulisan mengenai statistik)

Dalam analisis statistik, persiapan data atau data preparation merupakan tahapan krusial yang menentukan kualitas hasil analisis (Hair et al., 2010). Data mentah atau raw data yang tidak diolah dengan baik dapat menyebabkan kesalahan interpretasi dan kesimpulan yang tidak akurat. Oleh karena itu, memahami proses persiapan data menjadi kunci untuk menghasilkan analisis statistik yang valid dan handal.

Data preparation merupakan proses mempersiapkan data mentah untuk dianalisis. Tahap ini melibatkan beberapa langkah penting, termasuk pengumpulan data, pembersihan data, transformasi data, dan pengkodean data. Setiap langkah ini memiliki peran penting dalam memastikan data yang digunakan dalam bersih, lengkap, dan siap digunakan. Langkah pertama dalam persiapan data adalah pengumpulan data. Data dapat dikumpulkan dari berbagai sumber, seperti survei, eksperimen, basis data, atau sumber online. Sebelum pengujian statistik, penting untuk memastikan bahwa data yang dikumpulkan relevan dengan tujuan penelitian dan representatif terhadap populasi yang diteliti.

Setelah data dikumpulkan, langkah selanjutnya adalah pembersihan data. Proses ini melibatkan identifikasi, perbaikan kesalahan atau inkonsistensi dalam data. Adapun kegiatan dalam persiapan data ini antara lain integrasi data, missing data dan normalisasi data adalah bagian dari pembersihan data yang penting untuk memastikan integritas data.

  • Integrasi data

Dalam proses pengumpulan data terkadang peneliti mengunakan kombinasi beberapa Teknik pengumpulan data, misalnya web-based, kertas, sensor ataupun Teknik lainnya. Oleh karenanya data dari berbagai sumber berbeda tersebut perlu disatukan menjadi satu dataset yang kohesif dengan format data yang disesuaikan dengan tools yang digunakan.

  • Missing data

Missing data atau juga missing value terjadi ketika sebagian data yang diharapkan dari variable yang diamati tidak tersedia. Masalah ini umum terjadi dalam analisis statistik dan dapat terjadi karena berbagai alasan seperti non-response dalam survei, kesalahan pengukuran, atau kesalahan entri data. Missing data jika dibiarkan akan mempengaruhi hasil analisis sehingga kurang akurat dan reliable (Kwak and Kim, 2017). Oleh karenanya missing data ini harus ditangani. Secara sederhana  Tabachnick and Fidell (2001)) menjelaskan bahwa setiap missing data lebih dari 5% harus dibuang dan tidak disertakan dalam proses analisis selanjutnya. Secara khusus missing data ini akan dibahas pada bagian terpisah dari tulisan ini, termasuk cara menangani permasalahan tersebut.

  • Normalisasi

Peneliti perlu aware dengan distribusi data yang normal dan normal, utamanya pada SEM (structure Equation Model). Pada Covariate Based SEM (CB-SEM) yang merupakan metode statistik parametrik, distribusi data harus normal. Sedangkan pada PLS-SEM (Part Least Square-SEM) tidak diperlukan data terdistribusi normal. Meskipun demikian, Hair et al. (2022) tetap menyarankan uji normalitas untuk melihat distribusi data tersebut pada uji statistik dengan PLS-SEM. Vaithilingam et al. (2024) melakukan summary terhadap teknik yang digunakan untuk uji normalitas. Bagaimana jika data tidak normal? Maka perlu dilakukan transformasi data agar distribusi data menjadi normal atau mendekati normal dengan menggunakan algoritma tertentu, seperti log, square root ataupun jenis transformasi lainnya.

Selanjutnya langkah persiapan data ini adalah modifikasi yang merupakan proses mengubah format atau struktur data untuk membuatnya lebih cocok untuk analisis. Beberapa teknik modifikasi data meliputi scaling, encoding, dan aggregasi. Scaling melibatkan penyesuaian skala data, misalnya dengan standardisasi atau normalisasi, sehingga semua data memiliki rentang yang sama. Encoding mengubah data kategorikal menjadi format numerik, sedangkan aggregasi menggabungkan data dari beberapa sumber atau mengelompokkan data untuk menganalisis pola pada level agregat.

Pengkodean data merupakan langkah untuk mengubah data mentah menjadi format yang bisa dianalisis oleh algoritma statistik. Dalam beberapa kasus, peneliti mengumpulkan data berbentuk kategori (seperti gender, Pendidikan, rentang umur dan lainnya. Agar data tersebut dapat diolah oleh tools statistik perlu dilakukan pengkodean. Misalnya, data kategorikal seperti “gender” dapat diubah menjadi angka 0 dan 1 untuk pria dan wanita.

Pada tulisan selanjutnya akan dibahas mengenai data screening. Meskipun dalam beberapa literature kedua istilah ini dianggap sama, tetapi kami membedakan keduanya.

References:

HAIR, J., BLACK, W., BABIN, B. & ANDERSON, R. 2010. Multivariate data analysis, Upper Saddle River, NJ, Pearson Prentice Hall.

HAIR, J., HULT, G. T. M., RINGLE, C. & SARSTEDT, M. 2022. A Primer on Partial Least Squares Structural Equation Modeling (PLS-SEM).

KWAK, S. K. & KIM, J. H. 2017. Statistical data preparation: management of missing values and outliers. Korean journal of anesthesiology, 70, 407.

TABACHNICK, B. G. & FIDELL, L. S. 2001. Using multivariate statistics.

VAITHILINGAM, S., ONG, C. S., MOISESCU, O. I. & NAIR, M. S. 2024. Robustness checks in PLS-SEM: A review of recent practices and recommendations for future applications in business research. Journal of Business Research, 173, 114465.

Dedy Syamsuar