School of Information Systems

Perbedaan Proses pada Text Mining vs Data Mining

Text Mining  

Text mining dapat didefinisikan secara luas sebagai suatu proses menggali informasi dimanaseorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen-komponen dalam data miningyang salah satunya adalah kategorisasi. Text mining adalah proses mengeksplorasi dan menganalisis sejumlah besar data teks tidak terstruktur yang dibantu oleh perangkat lunak yang dapat mengidentifikasi konsep, pola, topik, kata kunci, dan atribut lainnya dalam data.

Tujuan text mining untuk menggali informasi yang dapat berguna dari beberapa Dokumen, Selain itu text mining dapat mendukung proses knowledge discovery pada beberapa Dokumen yang besar.

Proses pada Text Mining

Terdapat beberapa tahapan proses dalam text mining, yaitu text, text preprocessing / text transformation, feature generation, feature selection, dan pattern discovery.

a. Text

Tahap  pertama  adalah  permasalahan  yang  dihadapi  pada text  mining sama dengan  permasalahan  yang  terdapat  pada  data  mining,  yaitu  jumlah  data  yang besar,  dimensi  yang  tinggi,  data  dan  struktur  yang  terus  berubah,  dan  data noise.

b. Text Preprocessing

Pada tahap ini adalah tahap untuk melakukan analisis semantic dan sintaktik terhadap teks. Pada proses ini memiliki tujuan ada mempersiapkan teks agar dapat dijadikan pengelohan tahap selanjutnya

c. Text Transformation

Transformasi teks atau pembentukan atribut mengacu pada proses untuk mendapatkan representasi dokumen yang diharapkan.

d. Feature Selection

Pada tahap ini adalah tahp kelanjutan dari pengurangan dimensi pada proses transformasi teks. Terdapat beberapa operasi pada feature selesction, yaitu Stop Words Removal dan Stemming

e. Pattern Discovery

Text mining merupakan tahap penting untuk menemukan pola atau pengetahuan (knowledge) dari keseluruhan teks.  Tindakan yang lazim dilakukan pada tahap ini adalah operasi textmining, dan biasanya menggunakan teknik-teknik data mining.

Data Mining

Data mining merupakan proses menemukan sesuatu yang bermakna oleh suatu pola dengan cara memilah-milah data yang berukuran besar, dimana data tersebut disimpan dalam repository, sehingga menggunakan statistik dan teknik matematika.

Setipa proses dari data mining memiliki tujuannya masing-masing, yaitu explanatory (Sarana Penjelasan), confirmatory (Konfirmasi), dan exploratory (Eksplorasi).

Proses pada Data Mining

  1. Predictive Modeling

Terdapat dua teknik yaitu Classification dan Value Prediction

  1. Database Segmentation

Melakukan partisi database menjadi sejumlah segmen, cluster, atau record yang sama.

  1. Link Analysis

Sebuah teknik untuk membuat hubungan antara record yang individu atau sekumpulan record dalam database.

  1. Deviation Detection

Sebuah teknik untuk mengidentifikasi outlier yang mengekspresikan sebuah deviasi dari ekspektasi yang sudah diketahui sebelumnya.

  1. Nearest Neighbour

Teknik yang memprediksi pengelompokan, Teknik ini sendiri merupakan teknik yang tertua yang digunakan dalam data mining.

  1. Clustering

Merupakan teknik untuk mengklasifikasikan data berdasarkan kriteria masing-masing data.

  1. Decision Tree

Merupakan teknik generasi selanjutnya, dimana teknik ini adalah sebuah model prediktif yang dapat digambarkan seperti pohon. Setiap node yang terdapat dalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data.

Zaki Izzani Akbar