School of Information Systems

Perbedaan konsep text mining dan data mining (definisi, penerapan dan contoh algoritma yang dipakai)

Pengertian:

Text mining adalah proses mendeteksi informasi atau sesuatu yang baru dan meneliti informasi besar. Text mining menganalisis text yang tidak terstruktur yang terkait satu sama lain dan yang berhubungan dengan prinsip dan aturan lain. Hasil yang diharapkan adalah pemahaman baru yang yang tidak diketahui dan belum jelas sebelumnya. Text mining berisikan tentang sejumlah sub-task, information retrieval, categorization, POS tagging, Clustering, dan lainnya, yang bisa dikatergorikan didalam framework Knowledge Discovery in Databases yang tidak lain adalah metode menerangkan pattern di bagian dalam keterangan yang benar, unik, dan dimengerti. Knowledge Discovery and Data Mining adalah proses yang dibantu oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi dan pengetahuan yang berguna.

Data Mining adalah suatu proses mencari dan mengumpulkan data yang bermanfaat dari suatu kumpulan data yang besar. Data Mining lebih dekat pada bidang pencarian pengetahuan dalam basis data (knowledge discovery in database / KDD), yang merupakan proses konversi dari data mentah menjadi informasi yang bermanfaat.

Proses:

Proses text mining bertujuan untuk memproses data tidak terstruktur untuk mengekstrak pola yang berarti dan dapat ditindaklanjuti untuk pengambilan keputusan yang lebih baik.

Step 1, Membangun Corpus, Tujuan utama dari kegiatan tugas pertama adalah mengumpulkan semua dokumen yang terkait dengan konteks yang sedang dipelajari.

Step 2, Membuat Term–Document Matrix. Dalam tugas ini, dokumen digital dan terorganisir (korpus) digunakan untuk membuat file term – document matrix (TDM)

Step 3, Mengekstrak Pengetahuan, Menggunakan TDM yang terstruktur dengan baik, dan berpotensi ditambah dengan elemen data terstruktur lainnya, pola baru diekstraksi dalam konteks masalah spesifik yang sedang ditangani.

Untuk melaksanakan proses data mining secara sistematis, proses umum biasanya diikuti berdasarkan praktik terbaik, peneliti dan praktisi data mining telah mengusulkan beberapa proses untuk memaksimalkan peluang keberhasilan dalam melakukan proyek data mining.

Step 1, untuk pemahaman bisnis diperlukan orang yang bertanggung jawab untuk mengumpulkan data, menganalisis data, dan melaporkan temuan. Pada tahap awal ini, anggaran untuk mendukung studi juga harus didirikan, setidaknya pada tingkat tinggi dengan angka kasar.

Step 2, pemahaman data, data mining dikhususkan untuk menangani tugas bisnis yang terdefinisi dengan baik, dan berbeda tugas bisnis membutuhkan kumpulan data yang berbeda. Mengikuti pemahaman bisnis, file Kegiatan utama dari proses data mining adalah untuk mengidentifikasi data yang relevan dari banyak yang tersedia database. Beberapa poin penting harus dipertimbangkan dalam identifikasi dan pemilihan data tahap. Pertama dan terpenting, analis harus jelas dan ringkas tentang deskripsi tugas penambangan data sehingga data yang paling relevan dapat diidentifikasi.

Step 3, persiapan data, Tujuan dari persiapan data (lebih sering disebut data preprocessing) adalah untuk mengambilnya data yang diidentifikasi pada langkah sebelumnya dan mempersiapkannya untuk dianalisis dengan metode data mining.

Step 4, pembuatan model, teknik pemodelan dipilih dan diterapkan pada yang sudah disiapkan kumpulan data untuk memenuhi kebutuhan bisnis tertentu. Langkah pembangunan model juga mencakup penilaian dan analisis komparatif dari berbagai model yang dibangun. Karena tidak ada metode atau algoritma terbaik yang dikenal secara universal untuk tugas data mining, seseorang harus menggunakan file berbagai jenis model yang layak bersama dengan eksperimen dan penilaian yang terdefinisi dengan baik strategi untuk mengidentifikasi metode “terbaik” untuk tujuan tertentu.

Algoritma yang dipakai:

Algoritma yang dipakai pada data mining Prediction: Decision Trees, Linear/Nonlinear Regression, Autoregressive Methods Association: Apriori, Expectation Maximization, Graph- Based Matching Segmentation: k-means, Expectation Maximization.

Algoritma yang dipakai pada text mining Algoritma stoplist, Algoritma Nazief dan Adriani, Algoritma Arifin & Setiono, Algoritma Vega, Algoritma Rabin-Karp.

Referensi :

http://www.informatika.unsyiah.ac.id/arie/books/text%20mining/Minggu1.pdf

http://web.ipb.ac.id/~ir-lab/pdf/tm%20(text%20summarization).pdf

Business intelligence, Analytics, and Data Science A Managerial Perspective

http://repository.usu.ac.id/bitstream/handle/123456789/48002/Chapter%20II.pdf;jsessionid=C84 053152A3367B1B519A4C9B86B86E4?sequence=3

Ifdal, Edi Purnomo Putra