Mengenal Predictive Analysis
Analisis prediktif adalah proses menggunakan data untuk meramalkan hasil di masa depan. Proses ini menggunakan analisis data, pembelajaran mesin, kecerdasan buatan, dan model statistik untuk menemukan pola yang dapat memprediksi perilaku di masa depan. Organisasi dapat menggunakan data historis dan data saat ini untuk meramalkan tren dan perilaku dalam hitungan detik, hari, atau tahun ke depan dengan sangat akurat. Dalam penggunaannya, data scientist akan mengidentifikasi korelasi antara berbagai elemen dalam kumpulan data yang dipilih. Setelah pengumpulan data selesai, model statistik diformulasikan, dilatih, dan dimodifikasi untuk menghasilkan prediksi. Workflow dalam membangun framework analisis prediktif adalah:
1.Penentuan masalah: Pembangunan framework dimulai dengan ditentukannya permasalahan dan serangkaian persyaratan. Contohnya, dibuat pertanyaan seperti:
- Dapatkah model analisis prediktif mendeteksi penipuan?
- Menentukan tingkat inventaris yang optimal untuk musim belanja liburan?
- Mengidentifikasi potensi tingkat banjir akibat cuaca buruk?
Berbagai masalah tersebut akan membantu menentukan metode analitik prediktif apa yang harus digunakan.
2. Memperoleh dan mengatur data: Sebelum model analisis prediktif dapat dikembangkan, aliran data harus diidentifikasi, dan kemudian kumpulan data dapat diatur dalam sebuah repositori seperti gudang data seperti BigQuery.
3. Data pra-proses: Data mentah hanya berguna secara nominal saja. Untuk mempersiapkan data untuk model analitik prediktif, data harus dibersihkan untuk menghilangkan anomali, titik data yang hilang, atau outlier yang ekstrem, yang mungkin disebabkan oleh kesalahan input atau pengukuran.
4. Mengembangkan model prediktif: Data scientist memiliki berbagai alat dan teknik untuk mengembangkan model prediktif, tergantung pada masalah yang ingin dipecahkan dan sifat dataset. Pembelajaran mesin, model regresi, dan pohon keputusan adalah beberapa jenis model prediktif yang paling umum.
5. Memvalidasi dan menerapkan hasil: Periksa keakuratan model dan sesuaikan. Setelah hasil yang dapat diterima tercapai, sediakan hasil tersebut untuk para pemangku kepentingan melalui aplikasi, situs web, atau dasbor data.
Secara umum, ada dua jenis model analisis prediktif, yaitu model klasifikasi dan regresi. Model klasifikasi mencoba menempatkan objek data (seperti pelanggan atau hasil potensial) ke dalam satu kategori atau lainnya. Misalnya, jika peritel memiliki banyak data tentang berbagai jenis pelanggan, mereka dapat mencoba memprediksi jenis pelanggan apa yang akan menerima email pemasaran. Sementara itu, model regresi mencoba untuk memprediksi data yang berkelanjutan, seperti berapa banyak pendapatan yang akan dihasilkan oleh pelanggan selama hubungan mereka dengan perusahaan. Dalam penggunaannya, analisis prediktif cenderung dilakukan dengan tiga jenis teknik utama yang mencakup:
- Analisis regresi
Regresi adalah teknik analisis statistik yang memperkirakan hubungan antar variabel. Regresi berguna untuk menentukan pola dalam kumpulan data yang besar untuk menentukan korelasi antara input. Regresi paling baik digunakan pada data kontinu yang mengikuti distribusi yang diketahui. Regresi sering digunakan untuk menentukan bagaimana satu atau lebih variabel independen memengaruhi variabel lainnya, seperti bagaimana kenaikan harga akan memengaruhi penjualan suatu produk.
- Decision trees
Merupakan model klasifikasi yang menempatkan data ke dalam kategori yang berbeda berdasarkan variabel yang berbeda. Metode ini paling baik digunakan ketika mencoba memahami keputusan individu. Model ini terlihat seperti pohon, dengan setiap cabang mewakili pilihan potensial, dan daun dari cabang tersebut mewakili hasil keputusan. Pohon keputusan biasanya mudah dipahami dan bekerja dengan baik ketika sebuah set data memiliki beberapa variabel yang hilang.
- Neural networks
Merupakan metode pembelajaran mesin yang berguna dalam analisis prediktif ketika memodelkan hubungan yang sangat kompleks. Pada dasarnya, jaringan saraf adalah mesin pengenal pola yang hebat. Jaringan saraf paling baik digunakan untuk menentukan hubungan nonlinier dalam kumpulan data, terutama ketika tidak ada rumus matematika yang diketahui untuk menganalisis data. Neural network dapat digunakan untuk memvalidasi hasil pohon keputusan dan model regresi.
Source:
https://cloud.google.com/learn/what-is-predictive-analytics