Sanggahan terhadap antarmuka percakapan

(julian.digital)

25 poin oleh GN⁺ 2025-04-03 | 5 komentar | Bagikan ke WhatsApp

Di industri teknologi, setiap beberapa tahun sekali saat teknologi AI baru muncul, fantasi bahwa “kali ini antarmuka bahasa alami akan mengubah segalanya” terus berulang
Siri, Alexa, chatbot, platform AirPods, dan belakangan model bahasa besar (LLM) semuanya mengikuti arus ini
Namun dalam praktiknya, cara kita menggunakan komputer hampir tidak berubah
Orang cenderung percaya bahwa bahasa alami itu "alami, jadi tentu merupakan bentuk akhir"
Argumen tulisan ini adalah bahwa antarmuka bahasa alami bukanlah bentuk ideal, dan pada kenyataannya bukan cara yang efisien

Bahasa alami adalah cara transfer data yang lambat dan penuh kehilangan

Bahasa alami adalah mekanisme transfer data untuk saling bertukar ide dan pengetahuan antarmanusia
Dua unsur penting dalam transfer data adalah kecepatan dan tingkat kehilangan (lossiness)
Kita berpikir dengan cepat pada tingkat 1.000~3.000 kata per menit, tetapi kecepatan berbicara atau menuliskannya jauh lebih lambat
Misalnya, membaca/mendengar (menerima) itu cepat, tetapi menulis/berbicara (mengirim) itu lambat → bahasa alami menjadi bottleneck
Sebagai gantinya, orang memakai gestur (jempol, anggukan, dll.) untuk menyampaikan maksud dengan lebih cepat dan ringkas
Cara ini mirip dengan kompresi data → ada kehilangan, tetapi unggul dari sisi kecepatan dan kemudahan
Contoh paling efisien tampak seperti momen ketika pasangan yang sudah lama bersama saling memahami kebutuhan tanpa perlu bicara

Evolusi interaksi manusia dan komputer

Komputer awal memakai antarmuka teks berbasis perintah, tetapi dengan hadirnya GUI, tugas jadi lebih mudah dilakukan lewat elemen visual
Saat ini kita berada pada keseimbangan produktivitas dengan kombinasi GUI dan shortcut keyboard
Shortcut seperti ⌘b, ⌘t, ⌘c/v bukan bahasa alami, melainkan bentuk kompresi data yang jauh lebih cepat dan efisien
Tool seperti Linear, Raycast, dan Superhuman memaksimalkan input terkompresi ini → setelah terbiasa, pekerjaan nyaris bisa dilakukan seiring pikiran muncul
Antarmuka sentuh sudah menjadi fungsi pelengkap, tetapi pekerjaan produktivitas yang serius masih dilakukan di desktop
Di mobile, input teks lambat dan tidak nyaman (rata-rata 36WPM) → tidak ada alternatif shortcut yang cocok untuk mobile
Akibatnya, tool produktivitas mobile tidak bisa berkembang setara desktop

Antarmuka percakapan kalah dalam kecepatan input

Suara adalah sarana input yang lebih cepat daripada mengetik (150WPM vs 60WPM), tetapi dalam penggunaan nyata tetap tidak efisien
Contoh: “Hey Google, beri tahu cuaca” 10 kali lebih lambat daripada menekan ikon aplikasi
Alasan Siri dan Alexa gagal bukan kualitas output AI, melainkan keribetan cara inputnya
LLM juga tidak menyelesaikan inefisiensi cara input ini
Menjelaskan dengan kalimat sesuatu yang bisa dilakukan dengan satu tombol justru merupakan kemunduran

UI percakapan seharusnya dipakai sebagai sarana pelengkap

LLM sangat berguna bukan untuk menggantikan antarmuka yang ada, melainkan dalam bentuk pelengkap
Penulis benar-benar menyusun draf tulisan ini lewat percakapan suara dengan ChatGPT saat berjalan-jalan → memakai LLM sebagai partner berpikir
Ini adalah pekerjaan yang berpusat pada pemikiran, bukan pada kecepatan, dan merupakan kasus penggunaan yang sepenuhnya baru, bukan pengganti workflow yang ada
Contoh paling ideal adalah kasus hackathon yang memanfaatkan Alexa sebagai sarana input tambahan di StarCraft II
- Bukan menggantikan mouse/keyboard, tetapi menambahkan suara sebagai metode input tambahan untuk memperluas bandwidth transfer data
Tool seperti Figma, Notion, dan Excel tidak akan digantikan oleh chat UI
Sebaliknya, LLM harus menempati posisi sebagai meta-layer yang selalu berjalan yang menghubungkan antartool
- Contoh: bahkan saat pengguna sedang bekerja dengan mouse atau keyboard, mereka harus bisa menjalankan perintah sederhana lewat suara
Untuk itu, AI harus bekerja bukan sebagai satu aplikasi tunggal, melainkan di tingkat sistem operasi
Pada saat yang sama, juga dibutuhkan cara untuk membuat input suara lebih cepat (misalnya siulan, pengenalan emosi, dll.)
Bahkan untuk antarmuka percakapan, kecepatan dan kemudahan tetap merupakan inti

Kesimpulan: harus dilihat dari perspektif pelengkap, bukan pengganti

Judul tulisan ini adalah hiperbola untuk menarik klik
Argumen yang sebenarnya bukan “menentang antarmuka percakapan”, melainkan menentang cara berpikir zero-sum
AI bukan menggantikan antarmuka yang ada, melainkan elemen pelengkap yang membuka kemungkinan baru
Masa depan yang ideal adalah ketika manusia dan komputer berinteraksi secara alami dan bawah sadar
- Seperti mentega yang otomatis diulurkan di meja sarapan tanpa perlu mengatakan apa pun

5 komentar

dbs0829 2025-04-04

Saya juga sempat memikirkan hal yang mirip dari sisi antarmuka, tapi saya juga tidak bisa membayangkan antarmuka baru yang benar-benar cocok.

winterjung 2025-04-03

Tulisan https://upsidelab.io/blog/design-voice-user-interface-starcraft yang diperkenalkan di artikel utama menarik juga meskipun merupakan tulisan dari tahun 2018

girr311 2025-04-03

Saya penasaran metode apa yang akan dipilih dan digunakan di masa depan.

fantajeon 2025-04-03

Manusia cenderung tidak menyukai ketidakpastian saat berdialog, sehingga sulit melepaskan keinginan untuk memakai kata yang tepat. Namun, ChatAI atau LLM pada dasarnya mengandung ketidakpastian. Jika informasi probabilistik hanya ada pada saya, itu tidak masalah, tetapi jika lawan bicara juga bergantung pada probabilitas, hal itu terasa menegangkan. Terkadang, cara yang deterministik bisa terasa lebih menenangkan.

GN⁺ 2025-04-03

Opini Hacker News

Ini menjelaskan dengan jelas berbagai hal yang selama ini ingin saya jelaskan kepada orang-orang yang tertarik pada "percakapan" dengan komputer
- Contoh yang dipakai adalah membayangkan situasi mengoperasikan mobil hanya dengan suara
- Itu tidak nyaman, membuat kita tidak bisa berbicara dengan penumpang, dan percakapan dengan komputer pada dasarnya adalah membuatnya melakukan apa yang kita inginkan
- Ada cara yang lebih sederhana dan lebih cepat daripada berbicara dengan bahasa alami
Bagian yang keliru dalam artikel
- Klaim bahwa "bahasa alami adalah mekanisme transfer data"
- Dalam mekanisme transfer data, kecepatan dan kehilangan data itu penting
- Bahasa alami tidak memiliki kedua hal itu
- Ciri utama antarmuka percakapan bukanlah penyampaian informasi, melainkan "blissful ignorance" dan "intelligent interpretation"
- "Blissful ignorance" memungkinkan kita menyatakan tujuan tanpa perlu mengetahui caranya
- "Intelligent interpretation" memungkinkan penafsiran niat, bukan sekadar perintah
- Mirip seperti mengelola tim, kepada tim yang berpengalaman kita bisa memberi instruksi singkat dan tetap mengharapkan hasil yang baik
Star Trek menunjukkan penggunaan antarmuka percakapan yang tepat dengan baik
- Antarmuka suara melengkapi input manual dan digunakan sebagai kanal tambahan
- Bukan untuk memberikan input kontrol tertentu lewat suara, melainkan cocok untuk delegasi, kueri, dan penggunaan yang tidak bergantung lokasi
- Interaksi suara digunakan dalam bentuk penjelasan, dan mereka tampaknya memahami dengan baik apa yang terasa canggung
UI suara paling efektif saat digunakan bersama keyboard/mouse
- Memori visual dan memori auditori memiliki buffer yang terpisah, dan buffer auditori masih punya ruang
- Menanyakan cuaca lewat suara lebih cepat daripada membuka aplikasi
- Bahasa terkompresi secara otomatis, dan menciptakan kata-kata baru untuk konsep yang kompleks
- Seperti menyingkat judul buku saat menyebutnya, UI suara juga bisa dibuat efisien
Perlu mencari cara agar input suara bisa ditransmisikan lebih cepat
- Saya jadi teringat video Travis Rudd yang menulis kode Python dengan suara
- Pengalaman membaca materi pembelajaran dan mengerjakan kuis lewat antarmuka suara terasa mengesankan
Judul artikel bisa menimbulkan salah paham
- Judul yang hanya bertujuan memancing klik itu tidak bagus
Orang-orang yang ekstrover dan berorientasi manajerial lebih suka melemparkan kata-kata untuk menyelesaikan masalah
- Saat menulis email, penting memberi kesan bahwa kita telah mempertimbangkan berbagai opsi
- Orang yang benar-benar mengerjakan pekerjaan nyata menyadari bahwa melemparkan kata-kata ke komputer itu tidak efisien
Hingga 20-30 tahun lalu, manusia belum terkomputerisasi
- Pernah ada klaim bahwa wearable computing adalah masa depan
- Tetapi kecanduan layar dan remote control bukanlah sesuatu yang manusiawi
- Orang lebih suka menggunakan remote control
Alat AI text-to-CAD tidak memahami kebutuhan pengguna dengan baik
- Bengkel mesin menginginkan gambar, bukan puisi 300 kata
Saya ingin hubungan dengan komputer menjadi seperti telepati
- Lebih buruk jika komputer mengambil alih semuanya
- Lebih mudah mengajari manusia untuk berpikir seperti komputer
- JavaScript menyelesaikan 80% masalah dengan 20% fungsinya
- ChatGPT/Bard/Gemini menulis JavaScript sebagai gantinya
- Antarmuka mobile tidak cocok untuk mengetik