School of Information Systems

Proses Analisa Gambar dan Audio Melalui Aplikasi Google Lens dan Google Gemini dengan Implikasi Deep Learning

Deep learning (DL) merupakan suatu cabang komputasi dari machine learning yang telah mentransformasi interaksi digital. Sistem ini beroperasi menggunakan jaringan saraf tiruan dalam untuk secara otomatis mempelajari representasi kompleks dari data mentah. Untuk mencapai skalabilitas dan generalisasi yang dibutuhkan oleh jutaan pengguna, alat-alat canggih ini mengandalkan alur kerja (pipeline) pemrosesan berbasis cloud. Pendekatan ini adalah kunci untuk mengubah input visual dan audio menjadi pemahaman yang berarti dan dapat ditindaklanjuti, salah satu penerapan utamanya terlihat pada Google Lens dan Google Gemini

Sistem modern seperti Google Lens dan Gemini mengandalkan pipeline pemrosesan yang terstruktur. Prosesnya dimulai ketika pengguna mengirimkan raw data (gambar, audio). Layanan cloud kemudian melakukan pembersihan data terlebih dahulu misalnya, menormalisasi data audio menjadi spektrogram atau mengubah ukuran gambar. Data yang telah dibersihkan ini kemudian diumpankan ke Deep Neural Network (DNN), seperti CNN atau Transformer. DNN ini bertindak sebagai mesin ekstraksi fitur, mengubah input mentah menjadi embeddings atau fitur berlevel tinggi. Fitur-fitur ini kemudian digunakan oleh model tingkat atas (klasifikasi, deteksi, transkripsi) untuk menghasilkan hasil akhir (label, teks, atau bounding box) yang dikembalikan secara efisien kepada pengguna.

Pengambilan dan pemrosesan data adalah suatu langkah krusial yang mendasari kekuatan model Deep Learning di dalam Google. Model seperti yang mendukung Google Lens dan Gemini harus dilatih pada set data yang sangat besar dan beragam hingga mendapatkan tingkat akurasi dan generalisasi yang tinggi di berbagai bahasa, aksen, dan lingkungan visual. Data dapat dikumpulkan melalui berbagai sumber, seperti data publik, hingga data pengguna (seringkali secara anonim dan teragregasi) untuk meningkatkan layanan, seperti koreksi terjemahan atau penandaan gambar untuk meningkatkan hasil pencarian visual. Sebagai contoh, layanan Machine Learning for Google Android (Figura, 2012) menunjukkan bagaimana umpan balik pengguna (user feedback) dapat ditambahkan sebagai contoh pelatihan baru untuk meningkatkan performa model.

Ketika pengguna mengambil foto, data piksel mentah dikirim ke cloud untuk diproses oleh Convolutional Neural Networks (CNN). Proses CNN dalam aplikasi Google ini melalui abstraksi dengan memproses data secara hierarkis lapisan awal mendeteksi tepi, sedangkan lapisan yang lebih dalam mengidentifikasi objek dan konsep yang kompleks. Proses ini memungkinkan Lens untuk melakukan pengenalan objek, pembacaan teks seperti OCR, atau penentuan lokasi secara akurat. Hasil yang didapat dari proses CNN ini adalah embeddings visual yang padat, yang kemudian digunakan oleh model klasifikasi untuk memberikan informasi kontekstual yang relevan kepada pengguna.

Untuk analisis suara, aplikasi Google menggunakan Automatic Speech Recognition (ASR) untuk mengkonversi gelombang suara menjadi teks. Model deep learning ini seperti yang sering ditemukan di Google Cloud Speech API, yang dimana API ini mengandalkan jaringan saraf yang dilatih untuk menggeneralisasi ucapan di berbagai kondisi. Penelitian menunjukkan bahwa akurasi ASR dapat ditingkatkan secara signifikan dengan menggunakan informasi kontekstual (Aleksic et al., 2015). Dengan menyesuaikan bobot Language Model (LM) berdasarkan status dialog atau lokasi pengguna, model ini dapat mengatasi ambiguitas dan kata-kata yang jarang muncul (out-of-vocabulary) untuk memastikan layanan ini tetap bermanfaat, bahkan bagi individu dengan gangguan bicara (speech impaired) (Anggraini et al., 2018).

Google Gemini membawa konsep deep learning ke dimensi multimodal dengan mampu mengintegrasikan fitur dari teks, gambar, audio, dan video dalam satu model terpadu. Sebagai “alat pendidikan AI generasi berikutnya” (Imran & Almusharraf, 2024), kemampuan multimodal Gemini dapat mempresentasikan kemajuan dalam pembelajaran, di mana model menciptakan embeddings yang kohesif dari berbagai modalitas data. Hal ini memungkinkan Sistem Machine Learning yang diterapkan didalam Gemini ini dapat memahami hubungan yang kompleks antar data, seperti ketika pengguna bertanya tentang objek dalam gambar melalui perintah suara. Dengan demikian, Gemini memberikan pemahaman secara kontekstual yang jauh lebih kaya dibandingkan model unimodal sebelumnya, membuka jalan bagi sistem tutoring cerdas (intelligent tutoring systems) dan pembelajaran yang dipersonalisasi.

Secara keseluruhan, Google Lens dan Gemini berfungsi sebagai ilustrasi sempurna dari kemampuan transformatif deep learning, yang diaktifkan melalui alur kerja berbasis cloud yang efisien dan set data yang masif. Kemampuan untuk mencapai generalisasi, melakukan pembelajaran representasi, dan beroperasi secara multimodal adalah bukti dari kematangan teknologi ini. Meskipun layanan ini telah merevolusi cara kita berinteraksi dengan dunia digital, penelitian di masa depan harus terus memprioritaskan penyelesaian tantangan seperti bias model dan kebutuhan big computing. Integrasi yang bertanggung jawab dan efektif dari AI semacam ini adalah kunci untuk memaksimalkan potensinya di masa depan.

Daftar Pustaka

Aleksic, P., Ghodsi, M., Michaely, A., Allauzen, C., Hall, K., Roark, B., Rybach, D., & Moreno, P. (2015). Bringing Contextual Information to Google Speech Recognition. INTERSPEECH 2015.

Anggraini, N., Kurniawan, A., Wardhani, L. K., & Hakiem, N. (2018). Speech Recognition Application for the Speech Impaired using the Android-based Google Cloud Speech API. TELKOMNIKA, 16(6), 2733-2739.

Figura, J. (2012). Machine Learning for Google Android. Bachelor’s Thesis, Charles University in Prague.

Imran, M., & Almusharraf, N. (2024). Google Gemini as a next-generation AI educational tool: a review of emerging educational technology. Smart Learning Environments, 11(22).

Alexander Tristan, Felicia Evan