Perbedaan Teknik pada Web Mining vs Data Mining
Web Mining
Web mining merupakan ekstraksi pola-pola penting dan bermanfaat namun tersimpan secara implisit pada kumpulan data yang relatif besar pada layanan world wide web. Web mining terdiri atas tiga bagian yaitu: web content mining, web structure mining, dan web usage mining.
Teknik pada Web Mining
Terdapat beberapa teknik yang digunakan pada proses web mining, yaitu web content mining, web structure mining, dan web usage mining.
- Web Content Mining
Web Content Mining adalah suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada dokumen. Teknik Web Content Mining berfokus pada penggalian informasi dari isi (content) yang ada pada sebuah web, seperti teks, gambar, audio, video, metadata dan hyperlink. Ada dua strategi umum yang digunakan: pertama langsung melakukan mining terhadap data; kedua melakukan pencarian serta mengimprove hasil pencarian seperti layaknya search engine. Web Content Mining juga dapat disebut sebagai Web Text Mining yang dalam implementasi biasanya penggalian data terletak pada daerah teks. Teknik ini juga lebih banyak berhubungan dengan disiplin Information Retrieval (IR), tetapi dengan inovasi yang terus menerus dan seiring dengan perkembangan dunia teknologi informasi, secara dramatis akan meningkatkan akurasi dalam analisis dan mamp menghemat biaya.
- Web Structure Mining
Web Structure Mining adalah teknik yang digunakan untuk menemukan struktur link dari hyperlink sehingga dapat diketahui keterkaitan antara suatu halaman web dengan halaman web lainnya, kemudian akan digunakan untuk membangun rangkuman website dan halaman web. Jadi kategori kedua dari Web Mining ini berfokus pada penggalian informasi dari isi (content) yang disajikan dalam web.
- Web Usage Mining
Kategori ketiga dari Web Mining adalah Web Usage Mining. Model ini merupakan teknik yang selalu mengedepankan penggalian pada pola (pattern) dari pengguna (user) dalam mengakses halaman-halaman web yang ditandai melalui informasi dari log, click stream, cookies, dan query. Manfaat web usage mining adalah untuk melakukan perubahan halaman berdasarkan profil pengguna, menentukan ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market yang sesuai.
Data Mining
Data Mining, dalam istilah proses komputer, disebut sebagai jenis proses di mana kumpulan data besar dapat ditemukan dengan bantuan berbagai metode dan teknologi canggih, seperti penggunaan proses ‘Machine Learning’, ‘various database systems‘, ‘and also its related statistics‘, di mana jenis proses ini digunakan untuk mengekstrak sejumlah besar data yang dapat digunakan dari kumpulan data mentah lainnya yang lebih besar. Data Mining juga dikenal sebagai Knowledge Discovery in Data (KDD).
Teknik pada Data Mining
- Aturan Asosiasi
Aturan Asosiasi atau Association Rule adalah dengan menemukan asosiasi dan hubungannya di antara item data. Ini terdiri dari pernyataan if/then sederhana. Berikut adalah contoh aturan asosiasi, “jika pelanggan membeli ponsel, mereka 60% cenderung membeli penutup ponsel”. Pengecer sering menggunakan aturan ini dalam Analisis Keranjang Pasar untuk melihat apakah jenis barang tertentu dibeli bersama.
- Klasifikasi
Klasifikasi membedakan data menjadi kelas-kelas yang telah ditentukan sebelumnya. Teknik ini bekerja berdasarkan prinsip ‘belajar dari sejarah’; yaitu, model klasifikasi pertama-tama belajar dari data yang sudah diklasifikasikan (tahap pelatihan) dan mengklasifikasikan sampel yang tidak diketahui ke dalam kelas (tahap validasi / pengujian). Misalnya, menentukan churn pelanggan adalah masalah klasifikasi dengan dua kelas yang mungkin – Churn / Not Churn.
- Pengelompokan
Teknik ini adalah dengan membagi kumpulan data yang sangat besar menjadi beberapa kelompok (atau kelompok) yang berbeda berdasarkan kesamaan dalam setiap cluster. Berbeda dengan teknik klasifikasi, pengelompokan tidak memiliki fase pelatihan dan bekerja langsung pada sampel yang tidak diketahui. Misalnya, ketika segmen pelanggan target tidak ditentukan sebelumnya, mereka dapat ditemukan menggunakan teknik pengelompokan.
- Regresi
Teknik ini berguna untuk menemukan hubungan antar variabel (yaitu, kolom dalam database). Misalnya, departemen SDM perusahaan dapat menggunakan regresi untuk menentukan probabilitas atrisi karyawan (diberi skor antara 0 dan 1).
- Prediksi
Prediksi digunakan untuk menemukan nilai dari pola dan tren historis. Sistem rekomendasi Netflix yang menyesuaikan umpan pengguna adalah contoh utama aplikasi prediksi data mining.
- Outlier Detection
Teknik yang digunakan untuk menemukan distorsi, anomali, atau pencilan dalam data. Deteksi outlier digunakan dalam deteksi penipuan, deteksi kesalahan, dll.