School of Information Systems

DATA MINING

Perkembangan teknologi yang pesat mempengaruhi seluruh aspek dalam kehidupan. Seiring dengan pertumbuhan teknologi informasi, membuka peluang terhadap petumbuhan data yang terakumulasi dalam jumlah besar. Belum tentu semua data yang ada memiliki nilai dan tervalidasi kebenarannya, untuk dapat memfasilitasi seluruh data tersbut, dibutuhkan sebuah wadah untuk memproses, menampung, dan menyimpan seluruh data tersebut. Data mining dapat menjadi salah satu cara untuk memfasilitasi hal tersebut.

Data mining adalah ekstraksi atau pemahaman pattern yang menarik pada data, atau dapat juga diartikan sebagai serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.  Tujuan dilakukannya data mining adalah menemukan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat.

Proses yang terjadi pada data mining ialah sebagai berikut:

  1. Data selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.

  1. Pre-processing / cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.

  1. Transformation

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

  1. Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

  1. Interpretation / evalution

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

Data mining mempunyai fungsi yang penting untuk membantu mendapatkan informasi yang berguna serta meningkatkan pengetahuan bagi pengguna. Berikut adalah fungsi dari data mining:

  • Generalisasi
    • Karakterisasi = mendeskripsikan suatu class dari ciri-ciri atau atributnya
    • Diskriminasi = karakteristik yang membedakan antar class
  • Asosiasi dan korelasi / mining frequent pattern
    Mendeskripsikan hubungan antar atribut.
  • Classification dan Regression:
    • Classification = Dari ciri-ciri akan menghasilkan label
    • Regression = Lebih ke ciri-cirinya, dan yang dicari adalah nominal value
  • Cluster analysis
    Data untuk melatih mesin tidak ada label. Digunakan untuk klasifikasi preposisi, termasuk unsupervised learning.
  • Outlier analysis
    • Transaksi normal jumlahnya banyak sekali, mendeteksi terjadinya keanehan atau masalah pada transaksi (mendeteksi anomaly/ kejadian tidak biasa).

Dalam melakukan data mining terdapat 2 tipe teknik yaitu:

  1. Teknik Klasik (Classical Technique) yang terdiri atas:
    1. Statistic
      Statistik adalah cabang ilmu matematika yang mempelajari tentang sekumpulan dan deskripsi data yang akan digunakan dalam membuat laporan tentang informasi yang penting agar seseorang dapat membuat keputusan yang berguna. Salah satu keuntungan statistik adalah menampilkan database dalam tampilan ber-level tinggi yang menyediakan informasi-informasi yang berguna tanpa perlu mengerti setiap record secara detail.
    2. Nearest Neighbor
      Teknik prediksi pengelompokan dan nearest neighbour merupakan teknik yang tertua yang digunakan dalam data mining. Nearest neighbour merupakan teknik prediksi yang hampir sama dengan pengelompokan, untuk memperkirakan apakah nilai prediksi ada dalam satu record, mencari kesamaan nilai prediktor didalam basis data historis dan menggunakan nilai prediksi dari record yang “Terdekat” untuk tidak membagi-bagikan record.
    3. Pengelompokan (Clustering)
      Pengelompokan merupakan metode yang mengklasifikasikan data kedalam kelompok-kelompok berdasarkan kriteria masing-masing data. Biasanya,teknik ini dipakai untuk memberikan pengguna akhir sebuah gambaran level atas dari apa yang telah terjadi didalam basis data. Pengelompokan terkadang digunakan untuk segmentasi.
  2. Teknik generasi selanjutnya (The Next Generation Technique)Decision Tree (Pohon Keputusan)
    Pohon keputusan merupakan model prediktif yang dapat digambarkan seperti pohon, dimana setiap node didalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data. Struktur ini dapat digunakan untuk membantu memperkirakan kemungkinan nilai setiap atribut data. Beberapa hal menarik tentang tree:

    • Tree ini membagi data pada setiap cabangnya tanpa kehilangan data sedikit pun. Jumlah total record pada node parent sama dengan jumlah total record yang ada node children.
    • Sangat mudah dimengerti bagaimana sebuah model dibangun, kebalikan dengan model dari neural network atau dari statistik standar.

    Mudah untuk menggunakan model ini jika kita mempunyai target pelanggan yang sepertinya tertarik dengan penawaran marketing.

Secara teoritis, data mining tentu memiliki kelebihan dan kekurangan yakni sebagai berikut:

Kelebihan:

  • Menangani data skala besar
  • Memungkinkan penerapan dalam masalah kompleks yang tidak dibatasi lagi oleh otak manusia

Kekurangan:

  • Data mining belum tentu menjadi solusi untuk setiap masalah, kadang dengan statistik sederhana solusi dapat dicapai
  • Pengetahuan tidak diproses secara instan

Inggried Kurniawan