School of Information Systems

Data Warehouse and Data Lake

Data Warehouse

Data Warehouse merupakan bagian dari database. Data Warehouse adalah gudang penyimpan informasi yang dikumpulkan dari satu atau lebih sumber data. Menggunakan Data Warehouse, memungkinkan untuk mengatur data dan menjalankan analisis yang cepat pada volume data yang besar, dan dapat mengungkap pola tersembunyi menggunakan alat yang ada dalam BI (business inteligence). DWH menyimpan data terkini dan historis dan digunakan untuk membuat laporan analitis untuk pengguna data di organisasi. Contoh laporan dapat berkisar dari laporan keuangan tahunan hingga tren setiap jam analisis penjualan.

Data Lake

Data Lake, atau “danau data”, adalah istilah baru yang diperkenalkan oleh James Dixon, CTO dari Pentaho. Pada dasarnya, Data Lake adalah sebuah repositori untuk menyimpanan data mentah (atau sedikit disiapkan) dengan jumlah yang besar dalam format aslinya.

Data Lake menyimpan data dalam struktur “flat”, biasanya berbentuk file. Data “di danau” dipasangkan dengan kata kunci yang unik dan ditandai dengan metadata. Ketika sebuah pertanyaan bisnis muncul, Data Lake dapat diambil untuk data yang relevan dengan pertanyaan, dan hasil data yang diambil tersebut dapat dianalisis untuk menjawab pertanyaan bisnis. Hadoop, Google Cloud Storage, Azure Storage dan Amazon S3 dapat digunakan untuk membangun Data Lake.

Data Lake biasanya tidak memerlukan banyak perencanaan, tidak ada skema atau proses ETL (extract, transform, load) yang biasanya diperlukan oleh Data Warehouse. Dengan berbagai jenis tempat penyimpanan data, baik fisik maupun cloud, Data Lake dapat dibuat dengan cepat.  Bahkan sebelum ada yang tahu pertanyaan apa yang ingin mereka tanyakan, data dapat ditransfer dengan cepat ke dalam Data Lake dari berbagai sumber dan dalam beberapa format.

Namun, karena Data Lake berisi dengan beragam format data dan volume data yang sangat besar, permintaannya akan jauh lebih sulit. Alat yang ada dalam BI yang biasa belum mendukung Data Lake, seringkali membutuhkan “penyesuaian” untuk menghasilkan informasi dari data. Ini membuat Data Lake sebagai tempat untuk “bermain” bagi orang-orang dengan keterampilan data tingkat lanjut, seperti data scientist dan developer yang sudah berpengalaman, tetapi tidak oleh pengguna bisnis. Untungnya Data Lake tidak perlu berdiri sendiri. Data yang ada tetap bisa diproses menggunakan ETL lalu dikembalikan kedalam Data Lake atau Data Warehouse, jadi semuanya tetap diuntungkan.

ETL vs. ELT

ETL (extract, transform, load) sering digunakan didalam proses pembuatan Data Warehouse. Awalnya data diekstraksi dari satu atau lebih sumber data. Kemudian, data dibersihkan (cleansed), diperkaya (enriched), diubah (transformed) dan akhirnya disimpan menjadi Data Warehouse. Berbeda dengan ELT (extract, load, transform), data yang diekstraksi tempat penyimpnan. Dan transformasi dilakukan setelah data dimuat ke dalam Data Warehouse. ELT biasanya bekerja dengan baik ketika sistem cukup kuat untuk menangani transformasi. Analytical databases seperti Amazon Redshift dan Google BigQuery sering digunakan dalam ELT karena memang sangat efisien dalam melakukan transformasi.

Lay Christian