Yuk Cari Tahu Perbedaan Supervised dan Unsupervised Pada Data Mining
Sebelum kita masuk pada pembahasan perbedaan supervised dan unsupervised, mari kita pahami terlebih dahulu apa itu data mining.Data mining atau data science merupakan suatu proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, machine learning untuk mendefinisikan informasi yang bermanfaat serta pengetahuan yang terkait dalam database.Data mining ini sering digunakan untuk menemukan pengetahuan yang tersembunyi pada database.Tanpa adanya data mining informasi tidak dapat diperoleh.
Setelah kita paham pengertian dari data mining, mari kita simak tugas dari data mining terlebih dahulu.Tugas data mining yaitu menganalisis otomatis atau semi-otomatis data yang besar untuk mengekstrak pola yang menarik yang sebelumnya tidak dapat diketahui berdasarkan cluster, anomali, ataupun asosiasi.Tujuan adanya data mining ini untuk menentukan hubungan-hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat.
Nah, pasti sudah paham dong apa itu data mining? Mari kita masuk ke pembahasan lebih dalam, di dalam dunia data mining atau data science kita sering kali mendengar supervised dan unsupervised learning yang dimana secara garis besar terdapat 2 pendekatan untuk melakukan teknik data mining.Tentunya pada setiap pembelajaran memiliki teknik dan algoritma tersendiri.
Mari kita pelajari apa itu 2 jenis pendekatan pada data mining, yaitu supervised learning dan unsupervised learning.
Pengertian Supervised
Supervised merupakan sebuah proses pengelompokkan data – data yang dimana telah memiliki label dan akan dimasukkan/dikelompokkan berdasarkan labelnya, juga algoritma yang terdapat pada supervised bertujuan untuk memperkirakan atau memprediksi fungsi pada bidang pemetaan sehingga ketika ada variable input (X) kita pun dapat memprediksi variable output (Y).
Dan proses untuk mendapatkan labelnya tentu harus melakukan training/uji coba terlebih dahulu. Supervised juga menggunakan algoritma yang terbilang lebih sederhana dibandingkan unsupervised, juga dalam uji coba algoritma supervised hasilnya lebih akurat, mengapa? karena mengggunakan model dengan potensi error paling kecil, dengan kata lain algoritma pada unsupervised kurang akurat.
Pengelompokan data pada supervised disebut dengan classification atau klasifikasi, yang mana klasifikasi sendiri merupakan aktivitas proses pengkatagorian sekumpulan data-data menjadi kedalam
kelas-kelas yang dapat dilakukan pada data yang terstruktur maupun tidak terstruktur. Proses klasifikasinya sendiri dimulai dengan memprediksikan kelas pada titik data, kemudian kelas-kelas tersebut sering disebut juga sebagai label, target, kategori.
Untuk kekurangan algoritma pada supervised sendiri yaitu seperti menghasilkan batas keputusan yang terlalu berlebihan, tetapi itu terjadi jika kita tidak memiliki sampel secara proper atau tepat ke dalam kelas-kelas datanya, juga membutuhkan lebih banyak sampel dari setiap kelas-kelas untuk tahap klasifikasi, dan juga membutuhkan biaya dan waktu yang lebih untuk hal tersebut (proses komputasi).
Contoh gambaran dari supervised learning :
Penjelasannya, jika kamu memiliki sejumlah buah-buahan yang sudah dilabeli dengan kategori tertentu dan kamu membeli sejumlah buah-buahan baru maka kamu harus mengidentifikasi isi dari jenis buah-buahan tersebut dan memasukannya ke dalam kategori.
Untuk melakukan hal tersebut butuh algoritma yang mendukung pengimplementasian dari metode tersebut, algoritma supervised learning ialah :
Decision Tree
Naive Bayes Classifier
Artifical Neural Network
Nearest – Neighbor Classifier
Support Vector Mechine
Pengertian Unsupervised
Unsupervised pada data mining merupakan tipe algoritma yang memiliki variable input (X) dan juga tidak memiliki variable output yang sesuai. Tujuan dari unsupervised sendiri adalah untuk memodelkan struktur data yang mana agar dapat mempelajari data-data tersebut lebih lanjut lagi. Untuk penggunaan algoritma artificial intelligence di unsupervised sendiri bertujuan untuk mengindentifikasikan pola – pola dalam sekumpulan data yang pada umumnya tidak diklasifikasikan atau dengan kata lain tidak diberi label.
Dalam pengelompokan datanya juga berdasarkan persamaan dan perbedaan meskipun tidak ada pedoman yang spesifik untuk pengkatagoriannya. Fungsi dari algoritma sendiri adalah untuk mempermudah pemprosesan data-data yang lebih kompleks dibandingkan menggunakan algoritma pada supervised learning. Perbedaan pada unsupervised learning dengan supervised sendiri adalah seperti dari segi penerapan, fungsi, juga algoritma.
Contoh lainnya adalah jika unsupervised learning dengan supervised sendiri, unsupervised tidak membutuhkan semacam uji coba dan sedangkan supervised membutuhkan proses percobaan dan error sehingga variable yang ingin diinput harus dibagi lagi menjadi data learning dan data yang diujikan/dianalisis.
Contoh gambaran dari unsupervised learning :
Penjelasan unsupervised learning ini berbeda dengan supervised learning, yang dimana belum memiliki data yang dilatih sebelumnya seperti belum pernah membeli buah-buahan sama sekali, namun suatu hari kamu membeli banyak buah-buahan dan ingin membagikannya kedalam beberapa kategori yang nantinya mudah untuk dicari.Terlebih dahulu kamu harus mengidentifikasikan buah-buahan mana yang mirip dan setelah itu memilih pendekatan buah-buahan bedasarkan jenisnya.
Untuk melakukan hal tersebut butuh algoritma yang mendukung pengimplementasian dari metode tersebut, algoritma unsupervised learning ialah :
K-Means
DBSCAN
Hierarchical Clustering
Fuzzy C-Means
Self – Organizing Map
Dari pembahasan diatas dapat kita simpulkan bahwa jika sebelumnya telah memiliki data-data dan memiliki variabel target yang akan diklasifikasikan, maka dapat menggunakan metode supervised learning.Dan jika ingin membagikan data-data tersebut ke dalam beberapa kelompok dapat menggunakan metode unsupervised learning.
Referensi :
https://www.uc.ac.id/ict/perbedaan-supervised-learning-and-unsupervised-learning/
https://www.jagoanhosting.com/blog/cari-tahu-apa-bedanya-supervised-vs-unsupervised-learning/
https://www.youtube.com/watch?v=0y97NJLTNdQ
https://www.dqlab.id/pahami-algoritma-machine-learning-bersama-dqlab
https://medium.com/@ksnugroho/confusion-matrix-untuk-evaluasi-model-pada-unsupervised-machine-learning-bc4b1ae9ae3f