Perbedaan Proses pada Text Mining vs Data Mining
Text Mining
Text mining dapat didefinisikan secara luas sebagai suatu proses menggali informasi dimanaseorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen-komponen dalam data miningyang salah satunya adalah kategorisasi. Text mining adalah proses mengeksplorasi dan menganalisis sejumlah besar data teks tidak terstruktur yang dibantu oleh perangkat lunak yang dapat mengidentifikasi konsep, pola, topik, kata kunci, dan atribut lainnya dalam data.
Tujuan text mining untuk menggali informasi yang dapat berguna dari beberapa Dokumen, Selain itu text mining dapat mendukung proses knowledge discovery pada beberapa Dokumen yang besar.
Proses pada Text Mining
Terdapat beberapa tahapan proses dalam text mining, yaitu text, text preprocessing / text transformation, feature generation, feature selection, dan pattern discovery.
a. Text
Tahap pertama adalah permasalahan yang dihadapi pada text mining sama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise.
b. Text Preprocessing
Pada tahap ini adalah tahap untuk melakukan analisis semantic dan sintaktik terhadap teks. Pada proses ini memiliki tujuan ada mempersiapkan teks agar dapat dijadikan pengelohan tahap selanjutnya
c. Text Transformation
Transformasi teks atau pembentukan atribut mengacu pada proses untuk mendapatkan representasi dokumen yang diharapkan.
d. Feature Selection
Pada tahap ini adalah tahp kelanjutan dari pengurangan dimensi pada proses transformasi teks. Terdapat beberapa operasi pada feature selesction, yaitu Stop Words Removal dan Stemming
e. Pattern Discovery
Text mining merupakan tahap penting untuk menemukan pola atau pengetahuan (knowledge) dari keseluruhan teks. Tindakan yang lazim dilakukan pada tahap ini adalah operasi textmining, dan biasanya menggunakan teknik-teknik data mining.
Data Mining
Data mining merupakan proses menemukan sesuatu yang bermakna oleh suatu pola dengan cara memilah-milah data yang berukuran besar, dimana data tersebut disimpan dalam repository, sehingga menggunakan statistik dan teknik matematika.
Setipa proses dari data mining memiliki tujuannya masing-masing, yaitu explanatory (Sarana Penjelasan), confirmatory (Konfirmasi), dan exploratory (Eksplorasi).
Proses pada Data Mining
- Predictive Modeling
Terdapat dua teknik yaitu Classification dan Value Prediction
- Database Segmentation
Melakukan partisi database menjadi sejumlah segmen, cluster, atau record yang sama.
- Link Analysis
Sebuah teknik untuk membuat hubungan antara record yang individu atau sekumpulan record dalam database.
- Deviation Detection
Sebuah teknik untuk mengidentifikasi outlier yang mengekspresikan sebuah deviasi dari ekspektasi yang sudah diketahui sebelumnya.
- Nearest Neighbour
Teknik yang memprediksi pengelompokan, Teknik ini sendiri merupakan teknik yang tertua yang digunakan dalam data mining.
- Clustering
Merupakan teknik untuk mengklasifikasikan data berdasarkan kriteria masing-masing data.
- Decision Tree
Merupakan teknik generasi selanjutnya, dimana teknik ini adalah sebuah model prediktif yang dapat digambarkan seperti pohon. Setiap node yang terdapat dalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data.