CRISP-DM Methodology
Dalam melaksanakan proyek data analisis, sangat penting bagi seorang data analyst untuk memahami bagaimana untuk me – manage sebuah proyek analisis data sehingga dapat memastikan keefesiensian dan mendapatkan hasil yang terbaik untuk diberikan kepada client. Terdapat data analytics lifecycle yang mendeskripsikan tahap – tahap yang dilakukan dalam sebuah proyek analisis data. Salah satu standar metodologi yang dapat digunakan adalah CRISP – DM Methodology.
Dalam CRISP – DM atau Cross Industry Standard Process for Data Mining memiliki 6 langkah untuk memahami proyek data mining dan memiliki siklus yang berulang sesuai dengan kebutuhan pengembang. Metodologi CRISP – DM dibuat pada tahun 1996 untuk membentuk proyek data mining. Berikut adalah gambar langkah – langkah dalam CRISP – DM:
Gambar 1 CRISP – DM Methodology
Berikut adalah langkah – langkah dalam CRISP – DM Methodology:
- Business Understanding:
Tujuan dari tahap ini adalah memberikan konteks pada goal dan data sehingga developer/engineer mendapatkan gagasan tentang data yang relevan dalam business model tertentu. Sebelum memulai proyek analisis data, development team perlu untuk menetapkan elemen – elemen secara jelas sehingga dapat memberikan hasil yang terbaik. Elemen – elemen tersebut, seperti: key objective dari bisnis tersebut, business objective, goal proyek sebelum proyek dimulai, scope proyek, informasi yang dicari oleh stakeholders, tipe analisis yang ingin digunakan oleh client, dan output atau hasil yang diinginkan oleh client. Untuk dapat menetapkan elemen – elemen tersebut dengan jelas, development team dapat membaca brief outline yang diberikan, melakukan meeting dengan client, membaca dokumentasi, membuat pertanyaan mengenai konteks yang relevan, dll. - Data Understanding:
Tujuan dari tahap ini adalah developer/engineer perlu untuk untuk memeriksa kualitas dari data dalam beberapa kondisi, seperti: data completeness, value distributions, data governance compliance sehingga developer/engineer dapat mengetahui apa yang dapat diharapkan dan dicapai dari data tersebut. Pada tahap ini, development team perlu untuk mengidentifikasi key variables yang dapat membantu untuk mengkategorikan data, mengekplore dan menyiapkan data dengan menggunakan tools, seperti: Python, Alteryx, Tableau Prep. Tahap ini merupakan tahap untuk menentukan seberapa layak dan hasil yang dapat dipercaya sehingga tahap ini penting dalam proyek analisis data dan development member perlu untuk melakukan brainstorming mengenai cara untuk mengekstrak nilai terbaik dari potongan informasi yang didapatkan. - Data Preparation:
Pada tahap ini melibatkan ETL(Extract-Transform-Load) proses yang dapat mengubah beberapa bagian informasi data dari berbagai sumber menjadi sesuatu yang berguna dari algoritma dan proses. Pada tahap ini, development team melakukan pengumpulan data dari berbagai sumber, menginput variable yang hilang, membuat kategori board yang baru untuk membantu mengkategorikan data yang tidak tepat ditempatnya, dan menghapus duplikasi pada data. - Modelling:
Tahap ini bertanggungjawab atas hasil yang akan diperoleh atau membantu memenuhi tujuan proyek dan tahap ini merupakan core dari machine learning project. Pada langkah ini, development team akan menggunakan metode model statistik, seperti: linear regressions, decision trees, random forest modelling, dll dalam membangun model untuk menguji data dan mencari jawaban atas objective yang diberikan. - Evaluation:
Pada tahap ini, development team akan menverifikasi atau menilai data yag sudah dimodelkan untuk memastikan bahwa hasil yang didapatkan adalah valid dan benar. Jika terjadi hasilnya salah, maka pada metodologi ini memperbolehkan untuk kembali dan melakukan tahap no.1 yaitu business understanding untuk mengetahui penyebab terjadinya hasil yang salah. Biasanya data scientist akan membagi data menjadi training dan testing. Pada tahap ini, akan digunakan data testing untuk memverifikasi model yang dibuat adalah akurat dengan kenyataan. - Deployment:
Pada tahap ini, terdiri dari menyajikan hasil yang berguna dan dimengerti dan dengan mencapai ini, maka proyek akan mencapai goals. Pada tahap ini, kita memvisualisakan data dan hal ini akan penting dalam mengkomunikasikan temuan team kepada client. Karna tidak semua client akan paham dengan data dan solusinya dapat menggunakan tools visualisasi yang berguna untuk mengilustrasikan kesimpulan kepada client, seperti tool Tableau.
Sources:
https://towardsdatascience.com/crisp-dm-methodology-leader-in-data-mining-and-big-data-467efd3d3781
https://www.northeastern.edu/graduate/blog/data-analysis-project-lifecycle/