School of Information Systems

Penggunaan Hadoop Sebagai Big Data Analitik

Hadoop merupakan kumpulan dari open-source yang memfasilitasi penggunaan jaringan dari berbagai perangkat komputer untuk menyelesaikan permasalahan yang melibatkan sejumlah besar data dan komputasi. Hadoop menyediakan suatu kerangka kerja perangkat lunak untuk penyimpanan terdistribusi dan memproses data yang besar menggunakan model pemrograman MapReduce. Hadoop dirancang untuk komputer yang dibangun menggunakan kluster perangkat keras komoditas namun juga ditemukan pada penggunaan perangkat keras yang terbaru. Semua model pada Hadoop dirancang dengan asumsi bahwa semua kesalahan atau kegagalan pada perangkat keras merupakan hal yang wajar terjadi dan seharusnya dapat dikontrol secara otomatis menggunakan kerangka kerja yang ada.  

Beberapa tahun belakangan ini daya pemrosesan penyedia aplikasi meningkat berkali-kali lipat, namun pada teknologi pemrosesan database memiliki ketertinggalan akibat batasan kapasitas dan kecepatan. Teknologi pemrosesan database atau big data analitik merupakan suatu proses mengevaluasi set data yang sangat besar untuk menemukan pola tersembunyi, korelasi yang tidak diketahui sebelumnya, tren pasar, preferensi masyarakat dan lain-lain. Saat ini banyak aplikasi yang menghasilkan suatu pemrosesan data yang besar atau big data, dalam hal ini Hadoop memiliki peranan signifikan dalam penyediaan dan pemrosesan database seluruh dunia.  

Hadoop didesain untuk dapat meningkatkan dua tantangan besar utama dibandingkan database konvensional. Dua kemampuan utama yang dimiliki Hadoop adalah kapasitas dan kecepatan. Dalam hal kapasitas, Hadoop mampu menyimpan data dengan volume yang sangat besar. Hal ini dapat terjadi karena Hadoop menggunakan sistem pendistribusi file yang disebut dengan HDFS (Hadoop Distributed File System), data akan dipisahkan ke dalam beberapa bagian dan disimpan dalam kluster penyedia komoditas. Sedangkan dalam hal kecepatan, Hadoop akan mampu menyimpan dan mengambil data kembali dalam waktu yang sangat singkat karena menggunakan model pemrograman MapReduce. Hal inidapat terjadi karena jika terdapat kueri yang dikirimkan ke database, tugas atau permintaan yang ada akan dibagikan dan didistribusikan keseluruh server sehingga tidak dikerjakan secara berurutan karena akan lebih lama.  

Sebagai teknologi big data analitik, Hadoop merupakan suatu platform yang sangat membantu dan menguntungkan. Hadoop membantu menyingkirkan tantangan dari proses pemrosesan data besar dengan keuntungan sebagai berikut:  

  • Ketahanan, data yang disimpan pada node akan direplikasi pada node lainnya dalam kluster yang sama sehingga memberikan jaminan atas toleransi kesalahan. Jika suatu node sedang mengalami masalah masih terdapat node lain yang memiliki data yang sama pada kluster tersebut.  
  • Skalabilitas, Hadoop tidak seperti sistem konvesional yang memiliki batasan jumlah kapasitas penyimpanan karena Hadoop beroperasi dengan cara mendistribusikan data. Jika terjadi peningkatan permintaan, sistem akan berkembang dengan mudah untuk menampung banyak server yang dapat menyimpan data hingga Petabite.  
  • Biaya rendah, karena Hadoop berupa kerangka kerja open-source maka tidak dibutuhkan suatu prosedur lisensi dan biaya yang dibutuhkan lebih rendah secara signifikan dibandingkan dengan sistem database yang serupa.   
  • Tingkat kecepatan, Hadoop menggunakan model pemrograman MapReduce dalam mendistribusikan sistem file, memproses secara bersamaan sehingga banyaknya kueri yang ada hanya membutuhkan waktu sepersekian detik.  
  • Diversitas data, HDFS memiliki kapabilitas untuk menyimpan data pada berbagai bentuk format seperti format tak terstruktur (video), semi terstruktur (XML file), dan terstruktur.  

Hadoop terlihat sangat sempurna untuk memproses suatu database, namun perlu diingat bahwa terdapat juga tantangan yang mungkin muncul jika menggunakan Hadoop. Salah satunya sistem pemrograman MapReduce yang tidak cocok untuk menyelesaikan semua jenis permasalahan. Sistem MapReduce sangat baik untuk informasi yang sederhana sehingga persoalan dapat dibagi kedalam beberapa unit independen. Namun hal ini tidak efisien iteratif dan interaktif pada tugas analisis karena MapReduce merupakan intensif file, antar node nya tidak terhubung secara interkomunikatif kecuali melalui pengurutan dan pengacakan, iteratif algoritmanya membutuhkan fase pengacakan ganda untuk benar-benar berjalan.  

 

Sumber :  

Richard, S.Kom., M.M.