School of Information Systems

Arsitektur Data Modern 2

DUA JENIS DATA DI GUDANG DATA

Perhatikan bahwa jika data kontekstual dikirim ke gudang data, disimpan di tempat khusus di gudang data.

Basis data akhirnya memiliki dua jenis data di dalamnya – data yang sumbernya adalah data terstruktur berbasis transaksi tradisional, dan data yang sumber data tidak terstruktur. Meskipun gudang data ditempatkan dalam struktur relasional klasik, sumber data di gudang data berbeda secara drastis. Oleh karena itu, data warehouse klasik akhirnya memiliki dua jenis data yang berbeda – data berbasis transaksi, terstruktur dan data yang tidak terstruktur dan kontekstual.

Salah satu hal yang sangat bagus tentang dua jenis data di gudang data adalah karena semua data masuk dalam format relasi terstruktur, data dapat dicampur dan dicocokkan secara bebas, dan digabungkan dan dianalisis melintasi berbagai jenis data dapat dilakukan. .

JENIS BARU PENGOLAHAN ANALYTICAL

Kemampuan untuk menggabungkan berbagai jenis data menghasilkan pemrosesan analitis yang sampai sekarang tidak dapat dilakukan. Data relasi terstruktur sebelumnya tidak dapat dicampur secara analitis dan disesuaikan dengan data tekstual yang tidak terstruktur. Tetapi dengan munculnya kontekstualisasi, jenis analisis ini dapat dilakukan dan alami dan mudah dilakukan.

REPETITIF DATA / DATA INTERFACE WAREHOUSE

Ada tipe data lain yang ditemukan di lingkungan Big Data dan data adalah jenis data berulang. Data berulang tidak perlu dilewatkan melalui teknik disambiguasi tekstual karena data berulang tidak berdasarkan tekstual. Tapi data berulang bisa ditempatkan di gudang data jika diinginkan. Ada dua cara dasar agar data berulang dilewatkan ke gudang data. Salah satunya adalah melalui penyaringan. Dalam penyaringan, data berulang dibaca dan kemudian setelah data telah dipilih, data dikirim ke gudang data. Sebagai contoh, analis mungkin ingin menemukan semua catatan detail panggilan telepon untuk St Louis, MO untuk 22 September 2015 dan mencatatnya ke gudang data. Begitu catatan disimpan di gudang data, mereka akan diperiksa dan diperiksa lebih lanjut.

Penyaringannya kemudian hanya berupa pembacaan dan seleksi rekaman yang kemudian dikirim ke gudang data.

Jenis pengolahan kedua adalah distilasi. Distilasi mirip dengan penyaringan kecuali penyulingan mengharuskan pemrosesan lebih lanjut dilakukan sebelum catatan dikirim ke gudang data. Contoh sederhana penyulingan mungkin adalah penghitungan catatan yang telah dipilih. Misalnya, proses penyulingan hanya bisa menghitung jumlah penjualan barang lebih besar dari $ 10.00 untuk setiap toko Wal-Mart pada bulan September 2015.

Hasil distilasi dan penyaringan Big Data ditempatkan di gudang data. Biasanya hasilnya ditempatkan di bagian terpisah dari data warehouse karena basis data yang ditemukan di data warehouse tidak terstruktur, data berbasis transaksi.

Perlu dicatat bahwa proses penyaringan dan distilasi data berulang bisa menjadi sangat terlibat. Biasanya komplikasi datang dalam bentuk penanganan volume data yang dibutuhkan untuk analisis. Dalam beberapa kasus, ada sejumlah besar data yang harus diolah. Dalam kasus lain, karakteristik data yang dicari tidak didefinisikan secara jelas dan tidak jelas.

Sumber : W.H. Inmon

Sulistyo Heripracoyo