School of Information Systems

What is Exploratory Data Analysis?

Exploratory Data Analysis (EDA) adalah proses penting dalam analisis data yang digunakan untuk memahami struktur, pola, dan karakteristik data. EDA membantu analisis untuk menemukan wawasan awal sebelum melakukan pemodelan yang lebih kompleks.

Sumber: https://datos.gob.es/en/documentacion/practical-introductory-guide-exploratory-data-analysis

Tujuan Exploratory Data Analysis

  1. Memahami Struktur Data: EDA membantu dalam memahami bentuk dan struktur data, termasuk tipe data, jumlah baris dan kolom, dan distribusi nilai.
  2. Identifikasi Pola dan Hubungan: Melalui EDA, analis dapat mengidentifikasi pola dan hubungan antara variabel yang mungkin tidak terlihat secara langsung.
  3. Deteksi Anomali: Proses EDA memungkinkan deteksi outliers atau nilai yang tidak biasa yang dapat mempengaruhi analisis lebih lanjut.
  4. Memeriksa Asumsi: Sebelum membangun model statistik atau machine learning, EDA membantu dalam memeriksa asumsi dasar, seperti normalitas dan linearitas.

Teknik dalam Exploratory Data Analysis

  1. Statistik Deskriptif: Teknik ini melibatkan perhitungan seperti mean, median, mode, varians, dan standar deviasi untuk memberikan gambaran umum tentang data.
  2. Visualisasi Data: Penggunaan grafik dan plot untuk melihat distribusi data dan hubungan antara variabel. Beberapa visualisasi umum meliputi:
    • Histogram: Menunjukkan distribusi frekuensi dari satu variabel.
    • Box Plot: Menampilkan distribusi data berdasarkan kuartil dan membantu dalam mendeteksi outliers.
    • Scatter Plot: Menggambarkan hubungan antara dua variabel.
    • Pair Plot: Menggambarkan hubungan antara semua pasangan variabel dalam dataset.
  3. Analisis Korelasi: Menghitung koefisien korelasi untuk mengukur kekuatan dan arah hubungan linear antara dua variabel.
  4. Analisis Missing Values: Mengidentifikasi dan menangani data yang hilang, yang dapat mempengaruhi hasil analisis.

Alat untuk Exploratory Data Analysis

  1. Python: Python adalah salah satu bahasa pemrograman yang paling populer untuk EDA, dengan pustaka seperti Pandas, Matplotlib, Seaborn, dan SciPy.
  2. R: Bahasa pemrograman R juga sangat populer di kalangan statistik dan data science, dengan paket-paket seperti ggplot2, dplyr, dan tidyr yang digunakan untuk EDA.
  3. Tableau: Alat visualisasi data yang memungkinkan pengguna untuk membuat grafik interaktif dan dashboard untuk analisis eksploratif.
  4. Microsoft Excel: Meskipun lebih terbatas, Excel tetap populer untuk EDA dasar, terutama karena kemudahannya dalam penggunaan dan ketersediaan. 

Proses Exploratory Data Analysis

  1. Pengumpulan Data: Mengumpulkan data yang relevan dari berbagai sumber.
  2. Pembersihan Data: Menghilangkan atau memperbaiki data yang hilang, duplikat, atau tidak valid.
  3. Transformasi Data: Mengubah data menjadi format yang sesuai untuk analisis, seperti normalisasi atau standarisasi.
  4. Visualisasi dan Analisis: Menggunakan teknik statistik dan visualisasi untuk memahami data dan menemukan wawasan.
  5. Pembuatan Laporan: Menyusun temuan dalam bentuk laporan atau presentasi yang mudah dipahami oleh pemangku kepentingan.

Exploratory Data Analysis adalah langkah awal yang krusial dalam setiap proyek analisis data. EDA membantu dalam memahami data secara mendalam, mengidentifikasi pola dan hubungan, serta mendeteksi anomali. Dengan menggunakan teknik statistik dan visualisasi yang tepat, serta alat yang sesuai, analis dapat menemukan wawasan berharga yang akan membimbing langkah-langkah analisis berikutnya. Dalam dunia yang semakin didorong oleh data, EDA menjadi keterampilan esensial bagi setiap profesional data.

Sumber:

https://www.ibm.com/topics/exploratory-data-analysis

https://datos.gob.es/en/documentacion/practical-introductory-guide-exploratory-data-analysis

Yulia Ery Kurniawati