School of Information Systems

Proses Data Mining SEMMA

Data mining adalah suatu proses pengerukan atau pengumpulan informasi penting dari suatu data yang besar. Proses data mining seringkali menggunakan metode statistika, matematika, hingga memanfaatkan teknologi artificial intelligence. Data mining memiliki 2 fungsi dalam melakukan proses pengumpulan data, yang pertama yaitu descriptive merupakan suatu proses yang dapat digunakan untuk memahami tentang data yang dicari sehingga bisa mengetahui perilaku dari data tersebut dan bisa didapat untuk mengetahui karakteristik dari data tersebut sehingga bisa menemukan pola tertentu yang tersembunyi dalam sebuah data. Kedua yaitu predictive merupakan suatu proses yang digunakan untuk mengetahui bagaimana nantinya akan ketemunya pola tertentu dari suatu data sehingga dapat diketahui dari berbagai variable yang ada di data dan pola yang didapatkan bisa digunakan untuk mempreiksi variable lain yang belum diketahui nilai ataupun jenis data yang belum ditemukan. Data mining masih memiliki fungsi yang lainnya yaitu characterization, discrimination, association, classification, clustering, outlier and trend analysis. 

SEMMA merupakan singkatan dari Sample, Emplore, Modify, Model, dan Assess. Metode ini dapat ditemukan oleh SAS Institute yang dapat digunakan untuk memudahkan penggguna untuk memprediksi tentang variable-variabel yang mengacu melakukan proses sebuah proyek data mining. Proses data mining SEMMA dapat digunakan dengan mudah dan mudah dipahami proses yang terkait dalam pemeliharaan proyek data mining. Proses data mining SEMMA memiliki 5 proses tahapan yaitu Sample, Explore, Modify, Model, dan Assess, dari masing-masing tersebut memiliki peran sendiri dalam proses data mining dan memiliki manfaat dalam proses data mining tersebut. Berikut ini adalah penjelasan mengenai tahapan proses data mining SEMMA tersebut: 

Tahap pertama dalam proses data mining SEMMA yaitu Sample. Sample merupakan sebuah proses data mining yang dapat digunakan untuk mengumpulkan sampel yang digunakan untuk mencari data yang cukup besar dan dapat membentuk informasi yang penting dan signifikan, namun data tersebut dapat dimanipulasi dengan cepat. Tahap sample ini bersifat optional jadi untuk melakukan proses data mining tidak mewajibkan untuk melakukan sample untuk melakukan proses data tersebut. 

Tahap kedua dalam proses data mining SEMMA yaitu Explore. Explore merupakan sebuah proses data mining yang dapat digunakan untuk mencari kumpulan data dan menjadi informasi yang terkait dengan tren dan anomaly yang tidak terduga yang dapat digunakan untuk mendapatkan pengertian dan ide. Jika eksplorasi visual tidak mengungkapkan tren yang jelas, maka dapat melakukan menjelajahi data melalui teknik statistik termasuk analisis faktor, analisis korespondensi, dan pengelompokan untuk mendapatlan data yang jelas. 

Tahap ketiga dalam proses data mining SEMMA yaitu Modify. Modify merupakan sebuah proses data mining yang dapat digunakan untuk memodifikasikan data dan mengubah variable-variabel untuk memfokuskan proses pemilihan model. Untuk memilih model maka perlu adanya memanipulasi model data untuk memasukkan informasi seperti pengelompokan pelanggan dan subkelompok yang signifikan, atau untuk memperkenalkan variabel baru. 

Tahap keempat dalam proses data mining SEMMA yaitu Model. Model merupakan sebuah proses data mining yang dapat digunakan untuk memodelkan data dengan menyediakan software untuk mencari kombinasi data yang memprediksi hasil terpercaya yang diinginkan secara otomatis. Data yang sudah dikombinasikan dapat digunakan untuk memprediksi hasil yang diinginkan. 

Tahap kelima dalam proses data mining SEMMA yaitu Assess. Assess merupakan sebuah proses data mining yang dapat digunakan untuk menilai data dengan mengevaluasi kegunaan dan keandalan penemuan dari data proses data mining dan memperkirakan seberapa baik kinerja tersebut. 

Referensi:  

 

Kevin Wilson