School of Information Systems

Data Screening, seberapa penting? (Kumpulan tulisan mengenai statistik)

Dalam penelitian kualitatif, peneliti mengumpulkan data empiris dengan menggunakan kuistioner. Berdasarkan pertanyaan yang ada, responden menjawab pertanyaan sesuai dengan pemahaman mereka. Ada kalanya data yang dikumpulkan memiliki masalah yang disebabkan oleh berbagai hal, misalnya respon yang tidak lengkap dari responden ataupun jawaban yang menyimpang. Oleh karena itu sebelum melakukan analisis data statistik, peneliti perlu melakukan data preparation atau data screening untuk memastikan dataset yang akan dianalisis terbebas dari permasalahan yang pada akhirnya akan menghasilkan temuan yang akurat dan ‘mungkin’ bermanfaat.

Istilah data screening juga sering dipadankan dengan data preparation atau data clearning dengan tujuan untuk menjamin dataset yang akan diolah telah bersih dan bebas dari kesalahan. Data screening merupakan proses pemeriksaan dan penyaringan data untuk mengidentifikasi kesalahan, inkonsistensi, atau outlier yang dapat mempengaruhi kualitas dan keandalan data. Selain itu, data screening juga memainkan peran penting dalam menghasilkan kesimpulan yang andal dan valid dari proses analisis data. Data mentah sering kali mengandung kesalahan, inkonsistensi, atau nilai yang hilang karena berbagai faktor seperti kesalahan manusia, gangguan sistem, atau masalah pengumpulan data. Langkah ini penting dalam analisis data karena memastikan bahwa data yang digunakan untuk analisis lebih lanjut akurat dan valid. Dengan menyaring data, peneliti dapat mengidentifikasi dan mengatasi masalah apa pun yang mungkin timbul, sehingga pada akhirnya memberikan hasil yang lebih andal dan kuat. Proses screening ini  membantu peneliti mengidentifikasi dan memperbaiki potensi masalah sejak awal proses analisis data, sehingga menghemat waktu dan sumber daya dalam jangka panjang. Selain itu, data screening juga dapat melibatkan eksplorasi hubungan antar variabel dan mengidentifikasi pola yang mungkin mempengaruhi hasil analisis.

Data screening yang tepat memainkan peran penting dalam memastikan efektivitas dan keakuratan analisis data. Dengan melakukan langkah penting ini, analis dapat mengidentifikasi dan mengatasi potensi masalah pada data, sehingga meminimalkan risiko pengambilan kesimpulan yang salah. Penyaringan data melibatkan serangkaian prosedur cermat yang dirancang untuk memeriksa berbagai aspek data, seperti pengecekan nilai yang hilang (missing value), outlier, inkonsistensi, dan permasalahan data lainnya. Melalui prosedur ini, kesalahan atau anomali apa pun dapat dideteksi dan, jika memungkinkan, diperbaiki. Selain itu, metode statistik digunakan untuk membantu identifikasi kesalahan, memberikan wawasan berharga mengenai kualitas data secara keseluruhan. Berdasarkan penilaian ini, analis kemudian dapat membuat keputusan berdasarkan informasi mengenai kesesuaian data untuk dianalisis. Jika data tidak mencukupi atau masih terdapat ketidakpastian, disarankan untuk menunda analisis dan fokus pada upaya pembersihan data lebih lanjut untuk memastikan kualitas data yang optimal.

Missing Data

Missing data, missing value atau juga disebut incomplete data terjadi ketika tidak ada jawaban dari responden terhadap salah satu atau lebih pertanyaan. Data yang hilang dapat menyebabkan bias dalam analisis data dan mengurangi keakuratan hasil yang diperoleh (Amusa & Hossana, 2024). Oleh karena itu, penting untuk menangani missing data dengan tepat, baik dengan menghapus baris atau kolom yang mengandung missing value atau mengisi nilai yang hilang dengan metode imputasi yang sesuai. Hair et al. (2022) merekomendasikan bila terdapat 15% data yang hilang dari keseluruhan jawaban maka respon tersebut harus dihapus.

Kemudian muncul pertanyaan mengapa hal ini bisa terjadi? Ada beberapa alasan mengapa data respon tersebut tidak lengkap. Pertama, disebabkan kesalahan manusia misalnya responden memang enggan menjawab pertanyaan tersebut dengan berbagai alasan. Kedua adanya permasalahan teknis pada proses pengumpulan data. Ataupun, permasalahan yang muncul akibat dikarenakan kesalahan pada instrument yang digunakan.

Outlier

Proses pengumpulan data penelitian mengharapkan responden atau partisipan menjawab pertanyaan sesuai dengan apa yang mereka pahami. Tetapi, terkadang jawaban yang diperoleh terpisah atau terpencil dari jawaban pada umumnya yang disebut dengan outliers.  Outliers bisa disebabkan oleh berbagai faktor, seperti kesalahan dalam interpretasi pertanyaan, perbedaan pemahaman antara responden, atau bahkan kesalahan dalam pengisian data oleh responden. Outliers dapat mempengaruhi validitas dan reliabilitas data yang dikumpulkan, sehingga penting bagi peneliti untuk mengidentifikasi dan menangani outliers dengan tepat agar hasil penelitian menjadi akurat dan dapat dipercaya. Dengan demikian, peneliti dapat memastikan bahwa kesimpulan yang diambil dari analisis data tidak terpengaruh oleh data yang anomali tersebut.

Terdapat dua jenis outlier yaitu untuk masing-masing variabel, dan untuk model. Pencilan untuk masing-masing variabel mengacu pada titik data yang berbeda secara signifikan dari data lainnya dalam variabel tertentu, sedangkan outlier untuk model mengacu pada titik data yang secara signifikan mempengaruhi kesesuaian model secara keseluruhan. Peneliti perlu mengidentifikasi dan mengatasi outlier ini sangat penting untuk memastikan keakuratan dan keandalan temuan penelitian. Dengan menangani outlier dengan tepat, peneliti dapat dengan percaya diri menarik kesimpulan dari analisis datanya tanpa campur tangan titik data anomali tersebut.

Data Distribution

Normalitas mengacu pada bentuk distribusi data dan karakteristik statistiknya untuk satu variabel metrik individu yang memenuhi distribusi normal. Distribusi normal berbentuk kurva berbentuk lonceng dan dipengaruhi oleh distribusi dan jumlah sampel (Goodhue et al., 2012). Ada beberapa teknik yang digunakan untuk memeriksa normalitas suatu data. Salah satunya dengan memeriksa skewness dan kurtosis. Skewness mengukur seberapa miringnya distribusi data, sedangkan kurtosis mengukur seberapa curam atau landai puncak distribusi data tersebut. Jika data memiliki skewness dan kurtosis mendekati nol, maka dapat dianggap sebagai data yang berdistribusi normal. Pada statistik parametrik yang menuntut data terdistribusi secara normal. Sehingga, pada kasus data terdistribusi secara tidak normal maka peneliti harus melakukan transformasi dengan menggunakan algoritma tertentu sebelum mengolah data lebih lanjut.

Pada lanjutan tulisan ini akan dibahas lebih lanjut tentang metode untuk mendeteksi permasalahan data diatas serta permasalahan data lainnya. Juga akan dibahas mengenai beberapa cara untuk mengatasi permasalah tersebut.

References:

Amusa, L. B., & Hossana, T. (2024). An empirical comparison of some missing data treatments in PLS-SEM. PLoS ONE, 19(1), e0297037. doi:10.1371/journal.pone.0297037

Goodhue, D. L., Lewis, W., & Thompson, R. (2012). DOES PLS HAVE ADVANTAGES FOR SMALL SAMPLE SIZE OR NON-NORMAL DATA? MIS Quarterly, 36(3), 981-A916.

Hair, J., Hult, G. T. M., Ringle, C., & Sarstedt, M. (2022). A Primer on Partial Least Squares Structural Equation Modeling (PLS-SEM).

Dedy Syamsuar