School of Information Systems

Komponen Inti dalam Ekosistem Big Data Analitik Hadoop

Perangkat lunak Hadoop yang dirilis sejak 2006 merupakan kumpulan dari open-source. Hadoop menyediakan kemudahan bagi penggunanya untuk mengelola dan mengkomputasi data yang sangat besar menggunakan jaringan dari berbagai komputer sehingga tidak salah Hadoop disebut sebagai aplikasi untuk menganalisis big data. Hadoop memiliki suatu kerangka kerja perangkat lunak yang digunakan untuk menyimpan data secara terdistribusi dan memproses big data menggunakan MapReduce. MapReduce sendiri adalah model pemrograman yang digunakan untuk memproses dan menghasilkan suatu set data besar yang bekerja secara paralel dan memiliki algoritma terdistribusi pada klusternya.  

Hadoop menggunakan bahasa pemrograman Java, awalnya didesain untuk kluster komputer yang dibangun dari perangkat keras komoditas. Hadoop menggunakan suatu modul desain fundamental bahwa semua kesalahan atau kegagalan yang diakibatkan oleh perangkat keras merupakan suatu kasus yang umum terjadi dan akan diselesaikan secara otomatis oleh kerangka kerja yang ada. Hadoop sendiri telah mengalami perilisan sebanyak 7x untuk terus membaharui sistem yang dimilikinya, sehingga versi sistem Hadoop terdiri dari 2.7.7, 2.8.5, 2.9.5, 2.10.1, 3.1.4, 3.2.2, dan 3.3.0.  

Komponen  Hadoop yang dikembangkan oleh Apache Software Foundation terdiri dari bagian penyimpanan yang dikenal sebagai Hadoop Distributed File System (HDFS) dan bagian pemrosesan yang menggunakan model pemrograman MapReduce. Hadoop bekerja dengan cepat karena mampu memotong file ke dalam block yang luas dan mendistribusikan file tersebut kedalam beberapa node yang ada pada block. Kemudian Hadoop akan memindahkan paket code ke dalam node dan memproses data secara paralel. Sistem seperti ini sangat menguntungkan dalam proses lokalisasi data sehingga Hadoop bekerja lebih cepat dan efisien dibandingkan dengan arsitektur superkomputer konvensional.  

Hadoop memiliki ekosistem yang terdiri dari komponen inti dan komponen tambahan, hal ini karena Hadoop bukan hanya suatu aplikasi namun suatu platform yang terdiri dari berbagai gabungan komponen yang digunakan untuk menyimpan data secara terdistribusi kemudian memproses data tersebut sehingga gabungan komponen inilah yang disebut sebagai ekosistem. Dengan komponen inti yang ada pada Hadoop adalah:  

  • HDFS : Hadoop Distributed File System  

HDFS merupakan pilar utama yang bekerja untuk memelihara sistem fail secara terdistribusi. Dengan HDFS, Hadoop mampu menyimpan dan mereplikasi data melalui beberapa server. HDFS memiki layanan berupa NameNode dan DataNode. DataNode merupakan server komoditas dimana data benar-benar disimpan sedangkan NameNode menampung metadata dengan informasi pada data disimpan di node yang berbeda.  

  • YARN : Yet Another Resource Negotiator  

YARN bertugas untuk mengatur dan menjadwalkan sumber-sumber penyetor data dan memutuskan proses apa yang tepat untuk diberikan pada data-data yang terdapat pada nodeNode utama akan bekerja untuk mengatur semua proses yang diminta sehingga disebut sebagai Resource Manager dimana Resource Manager akan berinteraksi dengan node manager (setiap data node memiliki node manager masing-masing untuk mengeksekusi tugas yang diminta) 

  • MapReduce  

MapReduce adalah model pemrograman yang pertama kali digunakan oleh Google untuk mengindeksikan operasi pencarian. mapReduce merupakan logika atau algoritma yang digunakan untuk membagikan atau memecah big data menjadi bentuk yang lebih kecil. mapReduce bekerja berdasarkan dua fungsi dasar yaitu Map dan Reduce. Map bekerja untuk menyaring dan menyortir kumpulan data yang sangat banyak secara paralel untuk menghasilkan tuple (kunci, nilai, dan kelompok). Sedangkan Reduce berfungsi untuk mengagregat data dari bentuk tuple untuk menghasilkan keluaran yang diinginkan.  

 

Sumber :  

Talend. 2019. What is Hadoop?https://www.talend.com/resources/what-is-hadoop/ Diakses 21 Juni 2021  

Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng. 2014. “Characterization and Optimization of Memory-Resident MapReduce on HPC Systems”. IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. pp. 799–808.   

Woodie, A. 2014. Why Hadoop on IBM Powerhttps://www.datanami.com/2014/05/12/hadoop-ibm-power/ Diakses 21 Juni 2021  

Richard, S.Kom., M.M.