Apa itu Data Mart?
Artikel ini membahas aplikasi utama data mart, strukturnya, dan bagaimana data mart dapat dibandingkan dengan data warehouse dan data lake dalam hal rencana penyimpanan data organisasi secara keseluruhan. Artikel ini juga membahas manfaat dan kekurangan dari beberapa arsitektur data mart, seperti system dependen, independent, dan hibrida.
Terakhir, ini memberikan ringkasan tentang beberapa Batasan dan kesulitan yang mungkin dimiliki oleh beberapa unit bisnis saat menggunakan data mart.
Sebuah Data Mart: Apakah itu?
Bagian yang berfokus pada subjek dari model logis basis data atau gudang data yang melayani basis pengguna tertentu disebut dengan data mart. Data Mart dirancang untuk memudahkan unit bisnis tertentu seperti penjualan, pemasaran, atau layanan pelanggan untuk mendapatkan data penting agar dapat dianalisis dengan lebih cepat.
Hanya Sebagian data dari seluruh tabel di gudang data yang ada di banyak data mart. Misalnya, tidak aka nada banyak sumber dalam data mart untuk departemen tertentu, meskipun mungkin berisi informasi dari beberapa sumber, seperti transaksi penjualan dan catatan inventaris, Dibandingkan dengan gudang data Perusahaan, yang sering memiliki 4.000 tabel atau lebih, sebuah data mart biasanya memiliki lima hingga dua puluh tabel.
Jumlah data yang sedikit tidak selalu berarti jumlah tabel yang terbatas. Ratusan gigabyte dapat dimasukkan ke dalam satu tabel data mart. Namun, jumlah yang sangat besar itu hanya satu jenis data-misalnya, catatan panggilan dari penyedia telepon seluler. Selain itu, data mart dapat kehilangan hal-hal yang penting karena mereka hanya mencatat ringkasan data dalam bentuk tabel hasil.
Data Mart vs Data Warehouse vs Data Lake
Data mart menjadi komponen penting dari rencana manajemen data banyak bisnis secara keseluruhan. Untuk alasan ini, ada baiknya kita meluangkan waktu untuk menjelaskan secara tepat bagaimana perbedaannya dengan data lake dan juga dengan gudang data pusat, serta pentingnya perbedaan tersebut.
Data Mart
Menggunakan repositori dengan banyak terabyte log panggilan sebagai contoh, “dalam, tetapi tidak pernah lebar” akan menjadi cara yang baik untuk mendeskripsikan data mart. Selain itu, data mart tidak selalu bersifat jangka panjang: Setiap minggu atau bulan, beberapa data mart mengalami pemuatan ulang secara menyeluruh karena mudah untuk menghapus dan menyegarkan data untuk melihat transaksi dari satu bulan saja.
Data Warehouse
Karena gudang data dirancang untuk menangani data perusahaan dalam jumlah yang sangat besar, banyak di antaranya yang memiliki beberapa data mart. Area subjek dan integrasi memberikan kontras yang paling jelas antara data mart dan gudang data: Data mart tidak bergantung pada gudang data dan dikhususkan untuk satu atau sejumlah kecil data mart. Sebaliknya, integrasi diperlukan agar data warehousing dapat berfungsi sebagai tempat penyimpanan informasi.
Data Lake
Dimensi sebuah data lake berpotensi tidak terbatas, sedangkan data mart bisa sangat dalam namun tidak luas dan data warehouse bisa sangat luas namun terbatas pada data yang terorganisir atau semi-terstruktur. Tujuan dari data lake adalah untuk menyimpan data yang belum diproses dalam format aslinya dari berbagai sumber yang berbeda. Hal ini membuatnya berbeda dengan gudang data atau database relasional karena dapat mengelola data terstruktur dan tidak terstruktur. Dalam hal komputasi awan, penyimpanan, dan manajemen, data lake telah melampaui gudang data awan dalam hal kepentingan.
Struktur Data Mart: Tabel dan Skema
Blok bangunan inti dari data mart adalah tabel, yang terdiri dari dua jenis utama ketika digabungkan untuk menghasilkan skema:
Star Schema
Lima spreadsheet dengan masing-masing baris dan kolom data. Kolom-kolom kunci yang sesuai dengan lembar terbesar, yang dikenal sebagai tabel fakta, menghubungkan empat lembar kerja. Mungkin tidak akan muat dalam spreadsheet tradisional jika tabel fakta memiliki 50 juta catatan, maka perlu dibagi menjadi beberapa tabel data mart. Pola desain yang dihasilkan disebut sebagai skema bintang ketika diorganisir menjadi lima hingga sepuluh tabel. Tabel-tabel lainnya, yang disebut sebagai tabel dimensi, adalah titik-titik yang membentuk bintang, dengan tabel fakta sebagai intinya.
Snowflake Schema
Sebuah data mart masih dapat mengelola kumpulan data yang sangat besar yang membutuhkan beberapa tabel fakta; namun, strukturnya perlu diubah: Hasilnya adalah skema kepingan salju, yang disebut demikian karena bentuk diagram hubungan dan tabel dalam struktur data mart ini. Snowflake dibuat dengan menggabungkan tabel empat atau lima dimensi yang ditemukan di setiap tabel fakta dalam data mart.
Jenis Data Mart: Keuntungan dan Kerugian
Perusahaan saat ini dapat menggunakan salah satu dari jenis data mart berikut ini, dan terkadang melakukannya secara bersamaan.
Dependent Data Mart
Seperti yang telah disebutkan sebelumnya, data mart yang bergantung memanfaatkan informasi dari gudang data untuk mengatur data ke dalam subset tertentu. Orang-orang yang bertanggung jawab atas gudang mengelola penyimpanan, teknik, dan fungsi penting lainnya.
Unit bisnis yang anggota timnya ingin memanfaatkan analitik tanpa harus menjadi spesialis dalam ilmu data atau arsitektur data warehouse akan merasa sangat terbantu dengan adanya dependent data mart. Mereka dapat berkonsentrasi pada pertanyaan dan penelitian tertentu yang paling relevan dengan departemen mereka. Namun, karena data mart ini terkait dengan gudang, masalah dengan gudang juga memengaruhi data mart.
Independent Data Mart
Sebuah gudang data tidak diperlukan agar sebuah data mart independen dapat berfungsi.
Faktanya, gudang data berfungsi sebagai gudangnya sendiri karena mengumpulkan data dari berbagai sumber, baik internal maupun eksternal, dan mengkompilasikannya ke dalam sebuah gudang data kecil.
Inisiatif jangka pendek, usaha kecil dan menengah yang ingin membangun gudang data dengan cepat, dan unit bisnis khusus yang mencari tempat penyimpanan data yang sangat khusus akan menemukan jenis data mart ini sangat membantu. Kerugian utama dari data mart independen adalah datanya harus melalui proses ekstraksi, transformasi, dan pemuatan (ETL) serta prosedur pembersihan, yang mana keduanya membutuhkan keahlian teknik data tingkat tinggi.
Hybrid Data Mart
Analis dan pengguna lain mendapatkan data dari gudang data menggunakan data mart hybrid, tetapi juga dapat mengakses sumber data lain, seperti: Selain itu, data dari aplikasi cloud, database terpisah yang terputus dari gudang data bisnis, dan beberapa sumber lainnya dikumpulkan oleh hybrid mart.
Organisasi dengan banyak database atau bahkan beberapa gudang adalah kandidat yang bagus untuk data mart hybrid. Namun, untuk berfungsi dengan baik, dibutuhkan ketajaman teknis yang hampir seperti ahli, seperti halnya mitra independen.
Tantangan dari Data Mart
Alat lain dalam perangkat manajemen data adalah data mart, yang paling baik digunakan ketika menawarkan keuntungan tertentu. Sebagai contoh, alat ini sangat cocok untuk pelaporan ad hoc dalam keadaan darurat atau untuk menjaga proses pelaporan tetap berjalan ketika sumber daya terbatas karena struktur dan kesederhanaannya yang relatif.
Namun tidak semua unit bisnis dapat menggunakannya karena adanya batasan-batasan data mart. Penggunaan data mart yang berlebihan dapat mengakibatkan redundansi dan duplikasi data, yang dapat membahayakan operasi pelaporan yang penting dan menyebabkan penyimpangan data. Selain itu, silo data selalu dihasilkan oleh data mart. Meskipun silo data tunggal tidak selalu buruk – bahkan mungkin diperlukan untuk unit bisnis dengan persyaratan keamanan yang sangat tinggi – banyak silo yang mengarah ke perusahaan yang terisolasi.
Terakhir, gudang mampu menangani pertanyaan yang lebih rumit daripada data mart.
Strategi yang seimbang yang memanfaatkan data mart, gudang, dan danau pada situasi yang tepat harus digunakan oleh tim data dan para pemimpin tim tersebut. Pendekatan metodis yang komprehensif untuk manajemen data ini paling cocok untuk sistem manajemen basis data (DBMS), seperti Teradata VantageCloud, platform analitik dan data awan yang lengkap.
Referensi
“What is a data mart.” (n.d.). Teradata. https://www.teradata.com/insights/data-architecture/what-is-a-data-mart