Step by Step Proses Sederhana Menggunakan RapidMiner Studio atau Altair AI Studio

Pada tahun 2024, RapidMiner Studio berubah nama menjadi Altair AI Studio. RapidMiner Studio atau Altair AI Studio adalah platform data science yang menyediakan lingkungan pemrograman visual untuk mengembangkan dan menerapkan aplikasi analitik prediktif. Platform ini merupakan pilihan populer bagi ilmuwan data dari berbagai tingkat keahlian, namun sangat menarik bagi pengguna non-teknis karena antarmukanya yang ramah pengguna dan beragam fitur yang disediakan.
Pada latihan ini, akan menerapkan algoritma Decision Tree dengan menggunakan dataset Health Care dari Kaggle. Terdapat lima proses sederhana dalam menggunakan Altair AI Studio yaitu:
1.Load Data
- Sebagai latihan proses machine learning dengan menggunakan Altair AI Studio data dapat menggunakan public repository misalnya Kaggle (https://www.kaggle.com/) atau UCI Machine Learning Repository (https://archive.ics.uci.edu/datasets).
- Selain menggunakan data dari public repository, Altair AI Studio juga menyediakan dataset yang dapat diakses pada “Repository Panel” menu “Import Data” kemudian pilih “Samples”.
- Namun, dalam latihan ini akan menggunakan dataset Health Care dari Kaggle yang dapat diakses pada https://www.kaggle.com/datasets/prasad22/healthcare-dataset .
- Pilih Read CSV pada Operator Panel kemudian drag and drop pada Panel Process. Jangan lupa untuk menentukan label atau class dari dataset yang dipilih dengan memilih “change role” dengan label.
2.Preprocess Data
- Tambahkan operator “Filter Examples” untuk menyaring baris-baris tertentu berdasarkan kondisi.
- Condition Class: Pilih sebuah kondisi (misalnya, attribute_value_filter) dan tentukan kondisinya (misalnya, filter rows where age > 30).
- Replace Missing Values: Tambahkan operator “Replace Missing Values” untuk menangani data yang hilang.
- Method: Pilih metode penggantian (misalnya, mengganti dengan rata-rata, modus, atau nilai tertentu).
3.Model Training
- Decision Tree Operator
- Tambahkan Decision Tree operator untuk classification.
- Label: pilih target attribute (kolom yang ingin diprediksi).
- Criterion: pilih splitting criterion (misalnya Gini index, information gain).
4.Model Validation
- Split Validation: Tambahkan operator Split Validation untuk menilai kinerja model.
- Training Part: Hubungkan data pelatihan ke operator Decision Tree.
- Testing Part: Terapkan model ke data uji dan evaluasi kinerjanya.
- Performance Matrics: Tambahkan operator Performance (Classification) untuk menghitung accuracy, precision, recall, dan sebagainya.
5.Run the Process
- Klik tombol Run (ikon play berwarna biru) untuk menjalankan proses.
- Tinjau hasilnya di Results View:
- Decision Tree: Visualisasikan struktur pohon keputusan.
- Performance Metrics: melihat accuracy, confusion matrix, dan metrics yang lain.
Hasil:
Note: Hasil dari latihan tidak menghasilkan hasil yang bagus karena diperlukan proses untuk membersihkan dataset untuk menghapus fitur-fitur (kolom) yang tidak berguna dalam proses classification.
Referensi: