- Mengapa pemesanan penerbangan menjadi "Hello World" untuk demo agen AI?
- Pengguna lebih memilih UX yang sudah matang (misalnya Google Flights) daripada AI yang memesankan penerbangan untuk mereka
- Satu kesalahan saja bisa memulai neraka layanan pelanggan yang rumit
- Sistem yang intuitif dan dapat diprediksi justru lebih inovatif
- AI masih berada pada tahap awal, dan pengguna umum mengharapkan konsistensi serta prediktabilitas
- Contoh: bahkan akurasi 80% pun dapat diterima jika menghasilkan hasil yang konsisten
Sebaliknya, akurasi 90% yang tidak teratur meruntuhkan kepercayaan
- Banyak proyek AI mengabaikan hal ini dan mengejar demo yang mencolok serta fitur yang dipaksakan → pada akhirnya kehilangan kepercayaan
- Semakin banyak IDE yang kehilangan transparansi
- Pengguna tidak dapat mengetahui apa yang sedang dilakukan AI
- Contoh: insiden Cursor yang menghapus seluruh pekerjaan yang sempat ramai di Reddit
- Kurangnya kemampuan pengguna dalam version control juga merupakan masalah, tetapi akar penyebab yang sebenarnya adalah desain UI/UX
- Desain yang baik harus mencegah kesalahan, menjelaskan dengan jelas perilaku AI, dan menyediakan fitur undo
- Pada awalnya, Cursor:
- Menyediakan interaksi yang transparan dan ringan melalui antarmuka tab-completion
- Menjadi populer dengan pendekatan yang membangun kepercayaan pengguna secara bertahap
- Desain yang sederhana dan bisa dibatalkan efektif dalam mengurangi ketidakpercayaan terhadap AI
- Devin, yang menerima investasi $200 juta, berorientasi pada "agen yang sepenuhnya otonom"
- Sistem yang kompleks, respons lambat, dan hasil yang tidak dapat diprediksi menyebabkan runtuhnya kepercayaan
- Pendekatan yang terlalu ambisius justru menimbulkan kebingungan pengguna
Kecepatan vs. Keandalan: Dilema tim pengembang AI
- Tim pengembang AI harus memilih salah satu dari berikut ini:
- Bergerak cepat sambil menerima risiko kesalahan
- Memprioritaskan keandalan dan stabilitas
- Jawabannya adalah berfokus pada fitur yang dapat memberikan "hasil luar biasa dalam cakupan kecil", lalu terus melakukan perbaikan secara iteratif
Prinsip inti: prediktabilitas lebih penting daripada kompleksitas
- Lebih baik fokus pada tugas yang sudah dipahami dengan baik daripada sistem yang kompleks
- Agen AI tetap bersifat transformatif, tetapi tiga hal berikut harus menjadi pusatnya:
- Keandalan
- Transparansi
- Prediktabilitas
Workflow vs. agen
- Framing dari Anthropic: "Jika suatu tugas bisa diekspresikan sebagai workflow, buatlah workflow, bukan agen"
- Workflow bersifat dapat diprediksi, dapat dikendalikan, dan sederhana
- Agen kompleks dan sulit dikendalikan, sehingga sebaiknya hanya digunakan dalam situasi yang benar-benar dinamis
1 komentar
Komentar Hacker News
Agen "pemesanan pesawat" sekarang sudah menjadi bahan lelucon. Ini juga disebutkan dalam keynote acara AI engineering terbaru dari Swyx
Para peneliti Google Deepmind sedang melakukan riset untuk meningkatkan keandalan agen
Pemesanan pesawat adalah tugas yang tidak bisa diserahkan kepada AI
Dalam banyak kasus, orang cenderung mencoba menyesuaikan AI ke workflow yang sudah ada
Dari pengalaman menggunakan Cursor, saya sampai pada kesimpulan bahwa keandalan itu penting
Dari perkembangan teknologi selama 20 tahun terakhir, saya merasa keandalan lebih penting
Komentar di sebuah thread Reddit tentang kondisi pemrograman AI saat ini merangkum perasaan saya
Saya berpegang pada prinsip bahwa ketika AI menulis kode, setidaknya kita harus bisa memahami kode tersebut
Saya pikir workflow lebih penting daripada agen
Google Flights sudah menyediakan UX yang sempurna