BIG DATA : PERMASALAHAN
Saat ini banyak masalah perusahaan untuk dipecahkan dan akhirnya memiliki data dan kekuatan komputasi untuk menyelesaikan masalah. Peningkatan pendapatan dan potensi penghematan biaya cukup signifikan untuk mendukung pertumbuhan ekonomi selama satu dekade. Jadi, daripada menghabiskan waktu untuk membangun teknik algoritma baru, kita perlu memanfaatkan pikiran terbaik dan tercerdas kita tentang “getting scrappy” untuk menyelesaikan masalah dunia nyata dengan analisis Big Data.
Sementara pikiran cerdas yang terus berkembang pada inovasi dan pengakuan pada awalnya mungkin dimatikan oleh proposisi ini, kita harus memfokuskan mereka pada pengakuan meyertai sesuatu yang nyata. Ini seperti ketika saya menginginkan mobil saya dibersihkan. Saya bisa membayar seseorang untuk membersihkanya (seperti yang kadang-kadang saya lakukan) tapi saya merasa lebih baik saya yang membersihkanya sendiri. Karena hasil kerja keras saya terlihat lebih nyata.
Inovasi pada era ini adalah dalam menerapkan semua teknik algoritma yang terkenal dan dikembangkan ke dalam model analitik. Serahkan pengembangan algoritma kepada mereka yang bekerja di industri atau untuk industri seperti layanan keuangan atau perusahaan media digital yang sangat matang dan berpengalaman dalam menerapkan analisis data pada data yang besar. Di industri yang matang ini, fokusnya harus pada penemuan teknik algoritma baru dengan manfaat teknis tambahan yang tampaknya kecil yang dapat menghasilkan manfaat ekonomi yang besar.
Teknologi seperti apa yang tersedia?
Semua pemain tradisional seperti SAS, IBM SPSS, KXEN, Matlab, Starsoft, Tableu, Pentaho, dan lainya bekerja menuju analitik Big Data berbasis Hadoop. Namun, masing-masing pemain perangkat lunak ini harus menyeimbangkan teknologi mereka saat ini dengan portfolio pelanggan secara bersama dengan langkah inovasi yang terjadi di komunitas open-source. Sebagian besar alat memiliki konektor yang merupakan konektor berkecepatan tinggi untuk memindahkan data bolak-balik antara Hadoop dan alat/lingkungannya. Dengan Big Data, tujuannya adalah untuk menjaga data tetap di tempatnya dan membawa pemrosesan analitik ke data guna menghindari hambatan dan kendala yang terkait dengan pergerakan data.
Seiring berjalannya waktu, setiap vendor akan mengembangkan strategi dan pendekatan untuk menjaga data tetap di tempatnya dan memindahkan pemrosesan analitiknya ke data. Sementara itu, ada vendor komersil baru dan proyek open-source yang berkembang untuk mengatasi selera yang besar untuk analisis Big Data.
Karmasphere (https://karmasphere.com/) merupakan alat berbasis Hadoop untuk eksplorasi dan visualisasi data. Datameer (http://www.datameer.com) adalah alat presentasi seperti spreadsheet. Alpine Data Miner (http://www.alpinedatalabs.com/) memiliki kerja analitik lintas-platform. R (http://cran.r-project.org/) sejauh ini merupakan alat analisis paling dominan di ruang Big Data. R merupakan bahasa statistik open-source dengan konstruksi yang memudahkan ilmuwan data untuk mengeksplorasi dan membangun model. R juga terkenal karena banyaknya analitik yang tersedia. Ada perpustakaan yang berfokus pada masalah industry (contoh: clinical trials, genetics, finance, and others) serta tujuan perpustakaan umum (contoh: econometrics, natural language processing, optimization, time series).
Pada saat ini, diperkirakan ada lebih dari dua juta pengguna R di seluruh dunia dan distribusi komersial tersedia melalui Revolution Analytics.
Teknologi yang termasuk open-source:
- Apache Mahout, a scalable, Hadoop machine learning library, http://mahout.apache.org
- Apache Lucune, a high-performance text search library, http://lucune.apache.org/core
- Sofia ML, a fast machine learning library, http://code.google.com.p.sofia-ml
- Vowpal Wabbit, Yahoo! Research project for fast, parallel-learning algorithms, http://www.vowpalwabbit.org