Data Mining, Tujuan dan Contoh Pengaplikasian
Perkembangan teknologi yang bertumbuh semakin cepat hari demi hari, juga memberikan dampak kepada orang-orang, kelompok hingga perusahaan yang menjalankan bisnis mereka dalam pemanfaatannya. Ketika orang-orang semakin paham akan teknologi beserta kemudahan yang didapatkan saat pengaplikasiannya, dari situlah volume data semakin meningkat dari waktu ke waktu seiring dengan bagaimana teknologi terus berkembang. Karena jumlahnya yang besar dan terus bergerak dengan cepat, diperlukan aktivitas atau proses untuk mengolahnya. Salah satunya adalah data mining. Untuk mengenal lebih lanjut, kita perlu mengetahui apa itu Data Mining?
Data Mining merupakan sebuah proses mengidentifikasi data yang valid, yang dinilai memiliki potensial untuk data tersebut berguna, yang mudah dipahami patternnya dari struktur database. Proses data mining ini dilakukan dari big data yang merupakan suatu data yang besar. Dengan dilakukannya data mining ini tentu memiliki tujuan di dalamnya. Terdapat dua tujuan yang menjadi karakteristik utama dari data mining, yaitu descriptive dan predictive. Descriptive berarti data mining digunakan untuk mengenal lebih jauh mengenai data yang diamati, atau dalam kata lain bagaimana kita mencari tahu karakteristik dari data tersebut. Sedangkan predictive berarti untuk memperkirakan nilai suatu variabel yang belum terungkap atau dikenali, ketika kita telah menemukan pattern dari data tersebut. Pattern yang dimaksudkan disini adalah suatu matematika yang menggambarkan hubungan data item. Ketika kita melihat pattern tersebut, kita dapat mengoptimalkan bisnis kita seperti bagaimana cara kita untuk meningkatkan potensi pembelian. Adapun beberarapa tujuan lainnya, seperti menyediakan data yang berkualitas untuk bisnis seperti mengenai transaksi ataupun pelanggan, peningkatan tajam dalam pemrosesan data dan kemampuan penyimpanan, dan sebagainya. Data mining juga dikatakan sebagai campuran dari berbagai jenis disiplin ilmu, seperti statistik, artificial intelligence, machine learning dan pattern recognition, information visualization, database management dan data warehousing, juga management science dan information system. Beberapa jenis disiplin umum tersebut juga digunakan untuk mengalisa data.
Ada beberapa karakteristik yang menjadi ciri khas sebenarnya seperti apakah data mining itu? Karakteristik yang dimilikinya antara lain, biasanya sumber dari data mining berasal dari data warehouse yang sudah terintegrasi. Bagi data mining, sifat data paling kritikal karena di dalamnya bisa terdapat data yang unstruktur. Data mining juga memiliki kemampuan untuk memproses data secara bersamaan atau yang sering disebut Parallel Processing.
Dalam pemrosesan data mining, ada beberapa metode yang digunakan. Pertama ada prediction method. Sifat dari metode ini adalah supervised atau dalam artian datanya sudah ada aturannya atau sudah mengacu. Beberapa metode yang digunakan dalam prediction method antara lain; klasifikasi, regresi, dan time series. Tidak sedikit pertanyaan sering diajukan apakah klasifikasi dan regresi merupakan suatu hal yang berbeda? Perbedaan utama yang ditemukan antara klasifikasi dan regresi terletak pada apa yang diprediksi. Klasifikasi memprediksikan kelas. Contohnya, seorang guru ingin mendata muridnya berdasarkan tinggi badan dan berat badan.
Tinggi badan (cm) | Berat badan (kg) | Jenis Kelamin |
180 | 65 | Laki-laki |
185 | 70 | Laki-laki |
155 | 42 | Perempuan |
160 | 45 | Perempuan |
183 | 67 | ??? |
Dari data di atas, kita dapat melihat pengkategorian jenis kelamin murid berdasarkan tinggi dan berat badan. Dan dapat diperkirakan untuk murid dengan tinggi badan 183cm, dan berat badan 67cm dikategorikan sebagai siswa laki-laki. Inilah gambaran mengenai klasifikasi.
Namun bagaimanakah dengan regresi? Jika klasifikasi memprediksikan kelas, maka regresi memprediksikan angka. Contohnya adalah ketika kita mengetahui beberapa lama waktu yang dibutuhkan untuk menyelesaikan suatu pekerjaan
Jumlah Pekerja (orang) | Waktu (hari) |
2 | 30 |
5 | 25 |
10 | 18 |
17 | 10 |
20 | ??? |
Dari data di atas, dapat disimpulkan bahwa semakin banyak jumlah pekerja, maka semakin singkat waktu yang dibutuhkan untuk menyelesaikan pekerjaan tersebut. Dan dapat dipastikan bahwa 20 pekerja dapat membutuhkan waktu kurang dari 10 hari.
Metode yang kedua adalah association. Berbeda dengan prediction yang dimana sifatnya adalah supervised, sifat dari association adalah unsupervised yaitu ketika data belum mengacu pada aturan, yang dimana akan mencari keterkaitan dan mencari kelompok baru. Beberapa metode yang dapat digunakan adalah dengan market-basket, link analysis, dan sequence analysis.
Metode yang ketiga ada segmentation yang sifatnya juga unsupervised. Metode yang digunakan ada clustering dan outlier analysis. Tidak hanya dengan regresi, klasifikasi juga sering dipertanyakan apakah sifatnya sama seperti clustering? Keduanya memang bertugas untuk mengelompokan data. Namun perbedaannya adalah, klasaifikasi merupakan data yang sudah dikelompokkan, atau dalam artian data tersebut akan dimasukkan ke dalam kelas yang telah di tentukan. Seperti contoh mengenai klasifikasi jenis kelamin berdasarkan tinggi dan berat badan. Namun untuk clustering, mereka mengelompokkan data yang berdekatan letaknya, dan data tersebut belum memiliki kelas. Dengan demikian, clustering adalah ketika kita tidak tahu bagaimana data harus dikelompokkan, atau dalam artian lain masih berupa asumsi, dan kita kan membuat data grup dan membentuk kelas baru. Sedangkan outlier analysis biasa digunakan untuk mendeteksi perilaku yang tidak sesuai dari data. Outlier analysis cocok digunakan untuk mendeteksi fraud.
Ada tiga proses data mining yang paling umum diterapkan. Pertama ada CRISP-DM (Cross Industry Standard Process – DM). Dalam CRISP – DM, fase-fase yang terjadi adalah yang pertama ketika kita memahami bisnisnya bergerak di bidang apa, kemudian memahami datanya, dan dilanjutkan dengan mempersiapkan data. Persiapan data dapat dilakukan dengan membuat data warehouse. Ketiga fase ini umumnya yang paling memakan banyak waktu, sekitar 85% dari total keseluruhan waktu. Setelah data dipersiapkan, kemudian kita membangun model. Hasil dari model yang sudah dibuat, akan dilakukan pengecekkan dan dievaluasi apakah ada hal yang perlu diperbaiki atau tidak. Dan yang terakhir adalah ketika kita menjalankannya. Proses pada CRISP-DM ini sangat berpotensi berulang-ulang, seperti ketika di proses evaluasi perlu diadakan perbaikan, maka proses akan diulang kembali.
Proses berikutnya adalah SEMMA (Sample, Explore, Modify, Model, Assess). Singkatan dari SEMMA ini mengacu pada fase yang diterapkannya, antara lain:
- Sample: mencari datanya
- Explore: melihat deskripsi dari datanya
- Modify: melakukan seleksi mana data yang penting
- Model: memasukkan ke dalam model biasanya berupa model statistik
- Assess: setelah keluar dari pattern dan knowledge, kemudian akan diukur apakah benar atau salah
Dan proses yang lain adalah KDD (Knowledge Discovery in Database). Tahapan dalam proses KDD antara lain, pertama-tama data mentah dipilih terlebih dahulu, kemudian data tersebut akan dimasukkan kedalam tempat. Di tempat tersebut, data akan melewati proses pembersihan atau cleansing. Kemudian, data akan diubah ke dalam format tertentu. Selanjutnya adalah proses data mining, yang dimana hasil dari data mining akan keluar patternnya. Pattern akan diekstrak menjadi knowledge yang membantu dalam pengambilan keputusan, contohnya adalah dengan melihat produk mana yang laku dan tidak laku terjual untuk dibuat solusinya.
Setelah kita mengenal beberapa hal-hal dasar mengenai data mining, kira-kira seperti apa ya pengaplikasian data mining dalam kehidupan sehari-hari? Berikut adalah contoh pengaplikasian data mining di beberapa bidang industri:
- Financial and Banking, data mining biasanya digunakan untuk mendeteksi transaksi keuangan yang dinilai mencurigakan dan mampu merugikan perusahaan, seperti tindakan money laundr.
- Customer Relationship Management, data mining dapat digunakan untuk memaksimalkan return, meningkatkan hubungan antara pelanggan, meningkatkan customer value, hingga memberikan pelayanan khusus yang dinilai mampu menjaga loyalitas pelanggan. Pelayanan khusus tersebut dapat berupa memberikan harga special kepada membership starbucks yang sering melakukan transaksi pembelian minuman.
- Retail and logistic, data mining dapat membantu pengoperasian inventory atau barang. Seperti meningkatkan store layout, yang dimana hal ini sering kita temukan ketika kita belanja di supermarket, kita dapat melihat penempatan produk yang sesuai atau saling berhubungan, seperti di rak roti-roti terdapat rak selai, meses, dan keju di sebelahnya. Lalu juga dapat mengoptimalisasikan logistik dengan memprediksikan efek musiman, seperti ketika bulan ramadhan tiba, minimarket akan memajang aneka biskuit dan sirup di layout depan dekat pintu masuk.
- Manufacturing, data mining dapat membantu beberapa hal yang berhubungan dengan proses manufaktur seperti mendeteksi kegagalan pada mesin.
- Brokerage and securities trading, data mining juga dapat membantu dalam perdagangan dan trading sekuritas, seperti memprediksi naik turunnya harga saham, melakukan forecasting untuk melihat arah dari fluktuasi harga saham, hingga mengidentifikasi kecurangan-kecurangan yang terjadi
- Insurance, yaitu bagaimana data mining mampu meramalkan biaya klaim yang akan diajukan peserta asuransi, hingga mengidentifikasi dan mencegah yang sekiranya dapat terjadi dalam penggunaan klaim.
Referensi:
Andy. 2020. Mengenal Konsep Dasar, Tujuan dan Teknik Data Mining. qwords.com. Diakses pada 9 Oktober 2020 https://qwords.com/blog/data-mining-adalah/
Sharda, R., Delen, D., Turban, E . (2018). Big data Intelligence, Analytics, and Data Science: A Managerial Perspective. 04th Edition. Pearson Education. New Jersey.
Sutanto, Taufik. 2020. Proses Data Mining. tau-data.id. Diakses pada 10 Oktober 2020 https://tau-data.id/adm-02/
Twin Alexandra. 2020. Data Mining. Investopedia.com. Diakses pada 9 Oktober 2020 https://www.investopedia.com/terms/d/datamining.asp