Apa itu Text Mining?
Pengertian Text Mining Menurut Para Ahli
Beberapa para ahli telah menjelaskan pengertian text mining, diantaranya adalah:
- Hearst
Text mining dapat diartikan sebagai penemuan informasi yang baru dan tidak diketahui sebelumnya oleh komputer, dengan secara otomatis mengekstrak informasi dari sumber-sumber yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber.
- Harlian
Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen.
- Ronen Feldman dan James Sanger
Text mining dapat didefinisikan secara luas sebagai suatuprosesmenggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen-komponen dalam data mining yang salah satunya adalah kategorisasi.
Tujuan Text Mining
Tujuan text mining untuk menggali informasi yang dapat berguna dari beberapa Dokumen, Selain itu text mining dapat mendukung proses knowledge discovery pada beberapa Dokumen yang besar.
Area Penerapan Text Mining
Terdapat beberapa area penerapan text mining, yaitu:
- Ekstraksi Informasi (Information Extraction)
Idetifikasi frasa kunci dan keterikatan di dalam teks dengan melihat urutan tertentu melalui pencocokan pola.
- Pelacakan Topik (Toping Tracking)
Penetuan Dokumen lain tang menarik seorang pengguna berdasarkan profil dan Dokumen yang dilihat pengguna tersebut.
- Perangkuman (Summarization)
Pembuatan rangkuman Dokumen untuk mengefisiensikan proses membaca.
- Kategorisasi (Categorization)
Penentuan tema utama suatu teks dan pengelompokan teks berdasarkan tema tersebut ke dalam kategori yang telah ditentukan.
- Penggugusan (Clustering)
Pengelompokan Dokumen yang serupa tanpa penentuan kategori sebelumnya.
- Penautan Konsep (Concept Lingking)
Penautan Dokumen terkait dengan identifikas konsep yang dimiliki bersama sehingga membantu pengguna untuk menemukan informasi yang mungkin tidak akan ditemukan dengan hanya menggunakan metode penrcarian tradisional.
- Penjawaban Pertanyaan (Question Answering)
Pemberian jawaban terbaik terhadapa suatu pertanyaan dengan pencocokan pola berdasarkan pengetahuan.
Proses pada Text Mining
Terdapat beberapa tahapan proses dalam text mining, yaitu text, text preprocessing / text transformation, feature generation, feature selection, dan pattern discovery.
A. Text
Tahap pertama adalah permasalahan yang dihadapi pada text mining sama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise.
B. Text Preprocessing
Pada tahap ini adalah tahap untuk melakukan analisis semantic dan sintaktik terhadap teks. Pada proses ini memiliki tujuan ada mempersiapkan teks agar dapat dijadikan pengelohan tahap selanjutnya. Operasi yang dilakukan pada tahap ini adalah
- Text Clean Up
Melakukan penghapusan iklan yang terdapat pada halaman web dan mengubah teks menjadi format biner.
- Case Folding
Pada proses ini adalah mengubah semua huruf dalam Dokumen menjadi huruf kecil. Karakter selain huruf ‘a’ sampai dengan ‘z’ dihilangkan dan dianggap menjadi delimiter.
- Tokenization
Mengubah karakter menjadi konstituen bermakna. Pendekatan yang paling sering ditemukan dalam sistem text miningmelibatkan teks menjadi kalimat dan kata-kata, yang disebut tokenization.
- Part-of-speech (PoS) tangging
Pada tahap ini mengahsilkan parse tree untuk setiap kalimat dan menghapus teks yang ambigu.
C. Text Transformation
Transformasi teks atau pembentukan atribut mengacu pada proses untuk mendapatkan representasi dokumen yang diharapkan.
D. Feature Selection
Pada tahap ini adalah tahp kelanjutan dari pengurangan dimensi pada proses transformasi teks. Terdapat beberapa operasi pada feature selesction, diantaranya:
- Stop Words Removal
Untuk mengurangi dimensi, pemilihan hanya dilakukan terhadap kata-kata yang relevan yang benar-benar merepresentasikan isi dari suatu dokumen.Langkah preprocessing yang menghilangkan atau menghapuskata-kata yang tidak penting atau tidak relevan disebut fiturseleksi. Banyak sistem, bagaimanapun, melakukan penyaringan jauh lebih agresif, menghilangkan 90 hingga 99 persen.
- Stemming
Stemming merupakan suatu proses yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Algoritma Nazief & Adriani sebagai algoritma stemminguntuk teks berbahasa Indonesia yang memiliki kemampuan presentase keakuratan (presisi) lebih baik dari algoritma lainnya.
Terdapat empat macam feature yang sering digunakan, diantaranya:
- Character, merupakan komponen individual (huruf, angka, karakter special, dan spasi). Representasi character-based ini jarang digunakan pada beberapa teknik pemrrosesan teks.
- Words
- Terms, merupakan single word dan multiword phrase yang terpilih secara langsung dari corpus. Represntasi term-based dari Dokumen tersusun dari subset term dalam dokumen.
- Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual, rule-based, atau metodologi lain.
E. Pattern Discovery
Text mining merupakan tahap penting untuk menemukan pola atau pengetahuan (knowledge) dari keseluruhan teks. Tindakan yang lazim dilakukan pada tahap ini adalah operasi textmining, dan biasanya menggunakan teknik-teknik data mining.