School of Information Systems

Voice User Interface

Voice User Interface

Perkembangan teknologi yang sangat pesat membuat interaksi Human Computer Interaction (HCI) semakin nyata dengan real-world interaction. Salah satu perkembangan teknologi berkaitan dengan HCI adalah teknologi pengenalan suara dan penggunaan suara. Interaksi berbasis suara dapat meningkatkan kemudahan penggunaan perangkat yang kompleks dan kecil, memungkinkan interaksi yang lebih alami dalam menjalankan tugas. Hal ini mengakibatkan adanya peningkatan tingkat penyelesaian tugas, pengurangan waktu dan upaya, dan peningkatan kepuasan pengguna. Apple Siri, Cortana, Amazon’s Alexa dan Google Assistant on Home and Smartphone merupakan beberapa contoh penggunaan dari teknologi ini.

Menurut analisis Gartner (fernandocomet, 2018), salah satu tren dalam emegerging technologies yang dikeluarkan pada tahun 2017, Virtual Assistant menduduki Peak of Inflated Expectation yang berarti publisitas teknologi tersebut akan menghasilkan sejumlah kisah sukses – seringkali disertai dengan sejumlah kegagalan  dan diprediksi akan mencapai titik stabil dalam kurun waktu 5-10 tahun (Interpreting technology hype, n.d.). Voice User Interface atau disingkat VUI merupakan teknologi yang berkembang dibawah ranah Virtual Assistant.

Menurut Dirk Schnelle-Walka  dalam Pyae dan Joelsson mendefinisikan VIU sebagai antarmuka pengguna yang menggunakan input ucapan melalui pengenal ucapan dan output suara melalui sintesis ucapan atau audio yang direkam sebelumnya. VUI memungkinkan pengguna untuk berinteraksi dengan suatu sistem melalui perintah berbasis suara, memiliki kelebihan seperti interaksi hands-free dan eyes-free, dan intuitif, dan fleksibilitas (Pyae & Joelsson, 2018). Pedoman desain untuk VUI dengan Graphical User Interface (GUI) tidak dapat disamakan. Dalam VUI, tidak ada biaya visual; jadi, ketika melihat VUI, pengguna tidak memiliki indikasi yang jelas tentang apa yang dapat dilakukan antarmuka atau apa pilihan mereka. Ketika merancang tindakan VUI, perlu diperhatikan bahwa sistem dengan jelas menyatakan kemungkinan opsi interaksi, memberi tahu pengguna fungsi apa yang ia gunakan, dan membatasi jumlah informasi yang diberikannya ke jumlah yang dapat diingat pengguna. (Wathieu, n.d.)

Berbeda dengan desain dan implementasi pengguna grafis antarmuka (GUI), di mana perancang (dalam koneksi dekat dengan pengguna akhir) mendefinisikan bahasa kontrol itu mengoperasikan aplikasi, pembangunan VUI bergantung pada data interaksi alami spesifik-domain (mis. variasi input yang diucapkan dan perilaku dialog). Pada kasus GUI, klik tombol dapat diartikan sebaga sinyal yang jelas didefinisikan untuk memulai tindakan terkait perintah yang diucapkan sering sangat ambigu. Bahkan di kasus di mana interaksi secara ketat didorong oleh sistem, dan oleh karena itu pengguna secara aktif diminta input spesifik, respons aktual dapat bervariasi secara signifikan.

Sedangkan pada VUI, perancang antarmuka suara yang perlu mendefinisikan serangkaian respons yang memungkinkan sehingga model bahasa yang sesuai dapat diintegrasikan; tugas yang dapat sulit khususnya jika aplikasi terletak di domain baru yang belum dijelajahi. Oleh karena itu, membangun VUI yang menarik tidak hanya membutuhkan perangkat keras yang mampu dan algoritma pembelajaran mesin yang efisien, tetapi juga menuntut sejumlah data percakapan dan dialog yang diperlukan untuk secara memadai mendefinisikan ruang interaksi potensial.

Pemrosesan Bahasa yang diucapkan biasanya membutuhkan satu set komponen teknologi untuk diselaraskan dalam rantai pemrosesan yang agresif. Berikut adalah framework dalam melakukan desain pada VUI atau dikenal dengan Spoken Dialog System (SDS) (Schlogl, Milhorat, & Chollet, 2013):

  1. Automatic Speech Recognition (ASR) yang mengubah input lisan menjadi teks.
  2. Natural Language Understanding (NLU) selanjutnya akan menafsirkan teks ini, NLU adalah komponen yang mengekstraksi makna yang relevan (tugas yang dapat kali sulit).
  3. Dialog Manager menerima output dari NLU dan mulai merespons sesuai perintah yang diberikan.
  4. Natural Language Generation (NLG) kemudian memproses input dari DM dan menghasilkan ucapan teks yang relevan dan mengirimkannya ke modul Text-to-Speech Synthesis (TTS).
  5. Text-to-Speech Synthesis (TTS) akan mengubah teks menjadi output

Dalam membangun VUI perlu adanya pendoman bagi developer untuk membangun VUI yang memenuhi ekspetasi pengguna. Berikut adalah pendoman yang diinspirasi dari pembuatan Amazon’s Alexa yang dapat digunakan sebagai pendoman membuat VUI (Wathieu, n.d.):

  • Provide users with information about what they can do.

Pada GUI, dapat dengan jelas menunjukkan kepada pengguna opsi apa yang dapat dipilih. Tetapi VUI tidak memiliki cara untuk menunjukkan kepada pengguna opsi apa yang mungkin dapat dipilih dan pengguna bergantung pada pengalaman pengguna dengan percakapan. Oleh karena itu, pengguna mungkin mulai meminta sesuatu yang tidak masuk akal bagi sistem atau yang tidak mungkin. Dalam hal ini, berikan opsi interaksi kepada pengguna dalam kata lain memberikan sugesti interaksi bagi pengguna. Misalnya, “You can ask for today’s weather or a weekly forecast.” Demikian pula, Anda harus selalu memberi pengguna jalan keluar yang mudah dari suatu fungsionalitas — dengan menyediakan opsi ‘exit’ sebagai salah satu opsi mereka.

  • Where am I?

Dalam GUI, pengguna dapat melihat kapan mereka memasuki bagian atau antarmuka baru. Dalam VUI, pengguna harus diberi tahu fungsionalitas apa yang mereka gunakan. Pengguna dapat dengan cepat menjadi bingung tentang di mana mereka berada, atau mereka mungkin mengaktifkan fungsi secara tidak sengaja. Dengan demikian, ketika pengguna mis. meminta cuaca hari ini, adalah ide yang baik untuk mengatakan: “Prakiraan cuaca hari ini sebagian besar cerah dan kering” daripada hanya “cerah dan kering.” Hal ini memungkinkan pengguna mengetahui fungsionalitas apa yang mereka gunakan. Misalnya, jika pengguna ingin melihat apakah mereka perlu menyirami tanaman outdoor mereka saat mereka pergi berlibur selama seminggu, mereka hampir pasti ingin mendengar ramalan selama tujuh hari ke depan. VUI, pengguna tidak memiliki panduan visual, dan mudah “terseta”. Penting untuk memberi tahu pengguna fungsi apa yang ia gunakan dan bagaimana cara keluar

  • Express intentions in examples.

Ketika orang berbicara, mereka sering tidak mengungkapkan niat penuh mereka. Bahasa gaul atau slang words sering menjadi jalan pintas utuk mengungkapan apa yang dirasakan. Namun, dalam VUI, mengekspresikan niat diperlukan agar sistem memahami apa yang diinginkan pengguna. Selain itu, semakin banyak informasi tentang niatnya yang dimasukkan pengguna dalam kalimat — semakin baik. Amazon menggunakan aplikasi Horoscope Daily sebagai contoh. Seorang pengguna dapat mengatakan, “Alexa, tanyakan horoskop untuk Astrologi Harian kepada Leo.” dan dapatkan informasi yang diinginkannya segera, alih-alih mengatakan, “Alexa, tanyakan horoskop pada Astrologi Daily.” dan kemudian meminta horoskop yang dia inginkan. Pengguna mungkin tidak menyadari hal ini, tetapi sistem dapat menunjukkannya kepada pengguna jika developer menggunakan niat penuh dalam semua contoh interaksi Anda – misalnya, dalam panduan pengguna tertulis Anda atau ketika pengguna meminta bantuan sistem atau informasi lebih lanjut terkait sistem untuk suatu interaksi.

  • Limit the amount of information.

Ketika pengguna menelusuri konten atau daftar visual, pengguna dapat kembali ke informasi yang mereka abaikan atau lupakan. Tetapi kondisi tersebut tidak terjadi dengan konten verbal. Dengan konten verbal, Anda harus menjaga semua kalimat dan informasi tetap singkat agar pengguna tidak menjadi bingung atau lupa item dalam daftar. Amazon merekomendasikan agar Anda tidak mencantumkan lebih dari tiga opsi berbeda untuk suatu interaksi. Jika Anda memiliki daftar yang lebih panjang, Anda harus mengelompokkan opsi dan mulai dengan memberikan kepada pengguna yang paling populer. Beri tahu pengguna bahwa mereka dapat meminta lebih banyak opsi dengan menanyakan apakah mereka menginginkan lebih banyak opsi.

  • Use visual feedback.

Jika memungkinkan, gunakan beberapa bentuk umpan balik visual sederhana untuk memberi tahu pengguna bahwa sistem mendengarkan. Pengguna menjadi frustrasi jika mereka tidak yakin apakah antarmuka pengguna suara telah terdaftar bahwa mereka mencoba berinteraksi dengannya. Pikirkan percakapan telepon ketika Anda berbicara dan hanya mendengar kesunyian yang berkepanjangan, mendorong Anda untuk bertanya kepada pihak lain apakah dia masih di sana. Jika Anda hanya menggunakan umpan balik suara untuk memberi tahu pengguna apakah sistem tahu pengguna mencoba berinteraksi dengannya, pengguna harus menunggu sampai dia selesai berbicara sebelum dia tahu apakah sistem telah mendengar atau tidak.

Sumber:

fernandocomet. (2018, August 30). Voice User Interface Insights. Retrieved from prototypr: https://blog.prototypr.io/voice-user-interface-insights-686fe441e425

Interpreting technology hype. (n.d.). Retrieved from gartner: https://www.gartner.com/en/research/methodologies/gartner-hype-cycle

Pyae, A., & Joelsson, T. N. (2018). Investigating the Usability and User Experiences of Voice User Interface: A Case of Google Home Smart Speaker. 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct, (pp. 127 – 131).

Schlogl, S., Milhorat, P., & Chollet, G. (2013). Designing, Building and EvaluatingVoice User Interfaces for the Home. Workshop on Methods for Studying Technology in the Home at the ACM SIGCHI Conference on Human Factors in Computing.

Wathieu, M. (n.d.). Voice User Interfaces. Retrieved from interaction-design: https://www.interaction-design.org/literature/topics/voice-user-interfaces

Inggried Kurniawan