School of Information Systems

Big Data Analitik Hadoop : Cara Kerja dan Ekosistem Komponen Tambahan

Apache Hadoop atau biasa dikenal sebagai Hadoop merupakan proyek besar yang dikembangkan sebagai perangkat lunak open-source yang dapat diandalkan, terukur, dan mengkomputasikan secara terdistribusi. Perangkat lunak Hadoop adalah kerangka kerja yang membantu untuk memproses dan mendistribusikan jumlah data yang sangat besar atau big data melalui kluster yang ada pada komputer dengan bantuan model pemrograman yang sederhana. Hadoop didesain untuk dapat bekerja pada server tunggal hingga ribuan mesin yang mana menawarkan komputasi lokal dan penyimpanan. Hadoop tidak bergantung kepada jenis perangkat keras untuk mendistribusikan data dengan kemampuan yang tinggi melainkan perangkat lunaknya sendiri didesain untuk mampu mendeteksi dan mengontrol kesalahan yang diakibatkan oleh  perangkat keras pada bagian lapisan aplikasi sehingga mampu mendistribusikan data dengan baik.  

Hadoop mudah digunakan untuk menyimpan dan memproses data yang berkapasitas sangat besar di kluster server. Perangkat lunak ini dapat menyimpan dan mengumpulkan data dengan berbagai format pada kluster Hadoop dengan menggunakan operasi API untuk menghubungkannya ke NameNode. Kemudian NameNode akan melacak struktur file dan penempatan chunk untuk masing-masing file lalu mereplikasi file melalui DataNode. Dalam mengkueri data, Hadoop menggunakan MapReduce yang terdiri dari banyak peta kemudian mereduksi tugas yang berjalan  pada HDFS yang mana tersebar diseluruh DataNode. Map task berjalan pada masing-masing node untuk mengontrol file yang masuk sedangkan reducer bekerja untuk mengagregat dan mengorganisir keluaran akhir.  

Ekosistem Hadoop tumbuh secara signifikan dari tahun ke tahun. Saat ini ekosistem Hadoop memiliki banyak tools dan aplikasi untuk membantu dalam mengumpulkan, menyimpan, memproses, menganalisis, dan mengatur data yang besar. Beberapa aplikasi dan yang bekerja menggunakan Hadoop yaitu :  

  • Spark, suatu open-source bekerja sebagai sistem pemrosesan yang terdistribusi. Umumnya digunakan untuk menampung big data. Apache Spark menggunakan memori internal untuk menyimpan chace dan mengoptimalkan proses sehingga meningkatkan performa. Spark juga didukung dengan babak pemrosesan umum, streaming analytic, mesin pembelajaran, grafik database, dan queri ad hoc.  
  • Presto, suatu open-source dengan mesin queri SQL yang terdistribusi dan digunakan untuk latensi yang rendah serta data analisis ad hoc. Presto dapat memproses data dari sumber yang sangat banyak termasuk Hadoop Distributed File System (HDFS) dan Amazon S3.  
  • Hive, pengguna Hive dapat menggunakan Hadoop MapReduce melalui anatarmuka SQL sehingga memungkinkan untuk proses analisis skala besar.  
  • HBase, merupakan open-source yang tak saling terhubung dan bagian dari database berversi yang bekerja pada Amazon S3 atau HDFS. HBase bersifat terukur, menyimpan big data secara terdistribusi dan acak, dan memiliki akses real time untuk memantau tabel yang terdiri dari milyaran baris dan kolom.  
  • Zeppelin, merupakan buku catatan interaktif yang memungkinkan untuk eksplorasi data secara interaktif.  

Sumber :  

Richard, S.Kom., M.M.