- Di industri teknologi, setiap beberapa tahun sekali saat teknologi AI baru muncul, fantasi bahwa “kali ini antarmuka bahasa alami akan mengubah segalanya” terus berulang
- Siri, Alexa, chatbot, platform AirPods, dan belakangan model bahasa besar (LLM) semuanya mengikuti arus ini
- Namun dalam praktiknya, cara kita menggunakan komputer hampir tidak berubah
- Orang cenderung percaya bahwa bahasa alami itu "alami, jadi tentu merupakan bentuk akhir"
- Argumen tulisan ini adalah bahwa antarmuka bahasa alami bukanlah bentuk ideal, dan pada kenyataannya bukan cara yang efisien
Bahasa alami adalah cara transfer data yang lambat dan penuh kehilangan
- Bahasa alami adalah mekanisme transfer data untuk saling bertukar ide dan pengetahuan antarmanusia
- Dua unsur penting dalam transfer data adalah kecepatan dan tingkat kehilangan (lossiness)
- Kita berpikir dengan cepat pada tingkat 1.000~3.000 kata per menit, tetapi kecepatan berbicara atau menuliskannya jauh lebih lambat
- Misalnya, membaca/mendengar (menerima) itu cepat, tetapi menulis/berbicara (mengirim) itu lambat → bahasa alami menjadi bottleneck
- Sebagai gantinya, orang memakai gestur (jempol, anggukan, dll.) untuk menyampaikan maksud dengan lebih cepat dan ringkas
- Cara ini mirip dengan kompresi data → ada kehilangan, tetapi unggul dari sisi kecepatan dan kemudahan
- Contoh paling efisien tampak seperti momen ketika pasangan yang sudah lama bersama saling memahami kebutuhan tanpa perlu bicara
Evolusi interaksi manusia dan komputer
- Komputer awal memakai antarmuka teks berbasis perintah, tetapi dengan hadirnya GUI, tugas jadi lebih mudah dilakukan lewat elemen visual
- Saat ini kita berada pada keseimbangan produktivitas dengan kombinasi GUI dan shortcut keyboard
- Shortcut seperti ⌘b, ⌘t, ⌘c/v bukan bahasa alami, melainkan bentuk kompresi data yang jauh lebih cepat dan efisien
- Tool seperti Linear, Raycast, dan Superhuman memaksimalkan input terkompresi ini → setelah terbiasa, pekerjaan nyaris bisa dilakukan seiring pikiran muncul
- Antarmuka sentuh sudah menjadi fungsi pelengkap, tetapi pekerjaan produktivitas yang serius masih dilakukan di desktop
- Di mobile, input teks lambat dan tidak nyaman (rata-rata 36WPM) → tidak ada alternatif shortcut yang cocok untuk mobile
- Akibatnya, tool produktivitas mobile tidak bisa berkembang setara desktop
Antarmuka percakapan kalah dalam kecepatan input
- Suara adalah sarana input yang lebih cepat daripada mengetik (150WPM vs 60WPM), tetapi dalam penggunaan nyata tetap tidak efisien
- Contoh: “Hey Google, beri tahu cuaca” 10 kali lebih lambat daripada menekan ikon aplikasi
- Alasan Siri dan Alexa gagal bukan kualitas output AI, melainkan keribetan cara inputnya
- LLM juga tidak menyelesaikan inefisiensi cara input ini
- Menjelaskan dengan kalimat sesuatu yang bisa dilakukan dengan satu tombol justru merupakan kemunduran
UI percakapan seharusnya dipakai sebagai sarana pelengkap
- LLM sangat berguna bukan untuk menggantikan antarmuka yang ada, melainkan dalam bentuk pelengkap
- Penulis benar-benar menyusun draf tulisan ini lewat percakapan suara dengan ChatGPT saat berjalan-jalan → memakai LLM sebagai partner berpikir
- Ini adalah pekerjaan yang berpusat pada pemikiran, bukan pada kecepatan, dan merupakan kasus penggunaan yang sepenuhnya baru, bukan pengganti workflow yang ada
- Contoh paling ideal adalah kasus hackathon yang memanfaatkan Alexa sebagai sarana input tambahan di StarCraft II
- Bukan menggantikan mouse/keyboard, tetapi menambahkan suara sebagai metode input tambahan untuk memperluas bandwidth transfer data
- Tool seperti Figma, Notion, dan Excel tidak akan digantikan oleh chat UI
- Sebaliknya, LLM harus menempati posisi sebagai meta-layer yang selalu berjalan yang menghubungkan antartool
- Contoh: bahkan saat pengguna sedang bekerja dengan mouse atau keyboard, mereka harus bisa menjalankan perintah sederhana lewat suara
- Untuk itu, AI harus bekerja bukan sebagai satu aplikasi tunggal, melainkan di tingkat sistem operasi
- Pada saat yang sama, juga dibutuhkan cara untuk membuat input suara lebih cepat (misalnya siulan, pengenalan emosi, dll.)
- Bahkan untuk antarmuka percakapan, kecepatan dan kemudahan tetap merupakan inti
Kesimpulan: harus dilihat dari perspektif pelengkap, bukan pengganti
- Judul tulisan ini adalah hiperbola untuk menarik klik
- Argumen yang sebenarnya bukan “menentang antarmuka percakapan”, melainkan menentang cara berpikir zero-sum
- AI bukan menggantikan antarmuka yang ada, melainkan elemen pelengkap yang membuka kemungkinan baru
- Masa depan yang ideal adalah ketika manusia dan komputer berinteraksi secara alami dan bawah sadar
- Seperti mentega yang otomatis diulurkan di meja sarapan tanpa perlu mengatakan apa pun
5 komentar
Saya juga sempat memikirkan hal yang mirip dari sisi antarmuka, tapi saya juga tidak bisa membayangkan antarmuka baru yang benar-benar cocok.
Tulisan https://upsidelab.io/blog/design-voice-user-interface-starcraft yang diperkenalkan di artikel utama menarik juga meskipun merupakan tulisan dari tahun 2018
Saya penasaran metode apa yang akan dipilih dan digunakan di masa depan.
Manusia cenderung tidak menyukai ketidakpastian saat berdialog, sehingga sulit melepaskan keinginan untuk memakai kata yang tepat. Namun, ChatAI atau LLM pada dasarnya mengandung ketidakpastian. Jika informasi probabilistik hanya ada pada saya, itu tidak masalah, tetapi jika lawan bicara juga bergantung pada probabilitas, hal itu terasa menegangkan. Terkadang, cara yang deterministik bisa terasa lebih menenangkan.
Opini Hacker News
Ini menjelaskan dengan jelas berbagai hal yang selama ini ingin saya jelaskan kepada orang-orang yang tertarik pada "percakapan" dengan komputer
Bagian yang keliru dalam artikel
Star Trek menunjukkan penggunaan antarmuka percakapan yang tepat dengan baik
UI suara paling efektif saat digunakan bersama keyboard/mouse
Perlu mencari cara agar input suara bisa ditransmisikan lebih cepat
Judul artikel bisa menimbulkan salah paham
Orang-orang yang ekstrover dan berorientasi manajerial lebih suka melemparkan kata-kata untuk menyelesaikan masalah
Hingga 20-30 tahun lalu, manusia belum terkomputerisasi
Alat AI text-to-CAD tidak memahami kebutuhan pengguna dengan baik
Saya ingin hubungan dengan komputer menjadi seperti telepati