Agen AI: Membutuhkan "keandalan yang lebih tinggi", bukan "lebih banyak kemampuan"

Mengapa pemesanan penerbangan menjadi "Hello World" untuk demo agen AI?
- Pengguna lebih memilih UX yang sudah matang (misalnya Google Flights) daripada AI yang memesankan penerbangan untuk mereka
- Satu kesalahan saja bisa memulai neraka layanan pelanggan yang rumit
- Sistem yang intuitif dan dapat diprediksi justru lebih inovatif
AI masih berada pada tahap awal, dan pengguna umum mengharapkan konsistensi serta prediktabilitas
- Contoh: bahkan akurasi 80% pun dapat diterima jika menghasilkan hasil yang konsisten
  Sebaliknya, akurasi 90% yang tidak teratur meruntuhkan kepercayaan
- Banyak proyek AI mengabaikan hal ini dan mengejar demo yang mencolok serta fitur yang dipaksakan → pada akhirnya kehilangan kepercayaan
Semakin banyak IDE yang kehilangan transparansi
- Pengguna tidak dapat mengetahui apa yang sedang dilakukan AI
- Contoh: insiden Cursor yang menghapus seluruh pekerjaan yang sempat ramai di Reddit
  - Kurangnya kemampuan pengguna dalam version control juga merupakan masalah, tetapi akar penyebab yang sebenarnya adalah desain UI/UX
  - Desain yang baik harus mencegah kesalahan, menjelaskan dengan jelas perilaku AI, dan menyediakan fitur undo
Pada awalnya, Cursor:
- Menyediakan interaksi yang transparan dan ringan melalui antarmuka tab-completion
- Menjadi populer dengan pendekatan yang membangun kepercayaan pengguna secara bertahap
- Desain yang sederhana dan bisa dibatalkan efektif dalam mengurangi ketidakpercayaan terhadap AI
Devin, yang menerima investasi $200 juta, berorientasi pada "agen yang sepenuhnya otonom"
- Sistem yang kompleks, respons lambat, dan hasil yang tidak dapat diprediksi menyebabkan runtuhnya kepercayaan
- Pendekatan yang terlalu ambisius justru menimbulkan kebingungan pengguna

Kecepatan vs. Keandalan: Dilema tim pengembang AI

Tim pengembang AI harus memilih salah satu dari berikut ini:
- Bergerak cepat sambil menerima risiko kesalahan
- Memprioritaskan keandalan dan stabilitas
Jawabannya adalah berfokus pada fitur yang dapat memberikan "hasil luar biasa dalam cakupan kecil", lalu terus melakukan perbaikan secara iteratif

Prinsip inti: prediktabilitas lebih penting daripada kompleksitas

Lebih baik fokus pada tugas yang sudah dipahami dengan baik daripada sistem yang kompleks
Agen AI tetap bersifat transformatif, tetapi tiga hal berikut harus menjadi pusatnya:
- Keandalan
- Transparansi
- Prediktabilitas

Workflow vs. agen

Framing dari Anthropic: "Jika suatu tugas bisa diekspresikan sebagai workflow, buatlah workflow, bukan agen"
- Workflow bersifat dapat diprediksi, dapat dikendalikan, dan sederhana
- Agen kompleks dan sulit dikendalikan, sehingga sebaiknya hanya digunakan dalam situasi yang benar-benar dinamis

1 komentar

GN⁺ 2025-04-01

Komentar Hacker News

Agen "pemesanan pesawat" sekarang sudah menjadi bahan lelucon. Ini juga disebutkan dalam keynote acara AI engineering terbaru dari Swyx
- Saya rasa tulisan ini meremehkan tingkat kesulitan masalah tersebut
- Dalam UI tempat manusia mengetik atau bercakap-cakap, ada kemungkinan kesalahan yang tak terbatas
- Manusia tidak pandai mengekspresikan sesuatu dengan jelas, dan juga sulit memahami secara akurat kemampuan sebuah perangkat lunak
Para peneliti Google Deepmind sedang melakukan riset untuk meningkatkan keandalan agen
- Evaluasi yang ketat dan mewakili perilaku pengguna itu penting
- Mereka telah memublikasikan demo penalaran tingkat lanjut agen terhadap 80.000 halaman file pembunuhan JFK
- Bahkan pada jumlah file yang kecil pun, ada perbedaan besar dalam keandalan/akurasi dibanding pemain AI besar lainnya
Pemesanan pesawat adalah tugas yang tidak bisa diserahkan kepada AI
- Untuk perjalanan keluarga maupun perjalanan pribadi, ada banyak siasat yang dibutuhkan
- Ada berbagai faktor seperti situs resmi, perbandingan harga, pengecekan tanggal, dan pertimbangan poin kartu kredit
Dalam banyak kasus, orang cenderung mencoba menyesuaikan AI ke workflow yang sudah ada
- Workflow yang sudah ada biasanya telah memiliki UX/UI yang dioptimalkan
- Menggunakan AI belum tentu merupakan solusi untuk memecahkan masalah
Dari pengalaman menggunakan Cursor, saya sampai pada kesimpulan bahwa keandalan itu penting
- Output dari model yang cepat membutuhkan lebih banyak perbaikan
- Penting untuk menggunakan library tertentu secara jelas
Dari perkembangan teknologi selama 20 tahun terakhir, saya merasa keandalan lebih penting
- Kita hanya membutuhkan beberapa fungsi baru seperti smartphone, rute berkendara, dan penyimpanan cloud
- Sekarang yang penting adalah daya tahan baterai dan fitur kontrol orang tua pada perangkat anak
Komentar di sebuah thread Reddit tentang kondisi pemrograman AI saat ini merangkum perasaan saya
- Insinyur baru yang masuk ke dunia pemrograman karena AI melewatkan elemen-elemen dasar yang esensial
- Tetapi saya tetap merasa tenang karena itu berarti masih ada tempat untuk saya
Saya berpegang pada prinsip bahwa ketika AI menulis kode, setidaknya kita harus bisa memahami kode tersebut
- Saya tidak bisa mengikuti cara para "vibe coder" yang tidak memahami kode yang ditulis AI
Saya pikir workflow lebih penting daripada agen
- Ketika agen siap mengeksekusi pekerjaan dengan akurasi tinggi, kita bisa memanfaatkan workflow
- Saya akan mencari cara membuat workflow yang efektif, akurat, dan mudah didiagnosis
Google Flights sudah menyediakan UX yang sempurna
- Saat menggunakan agen AI, saya merasa pencarian web lebih andal dan lebih cepat
- Saya tidak yakin AI akan menjadi berguna, dan saya meragukan apakah pengujiannya sudah dilakukan dengan benar

Agen AI: Membutuhkan "keandalan yang lebih tinggi", bukan "lebih banyak kemampuan"

Kecepatan vs. Keandalan: Dilema tim pengembang AI

Prinsip inti: prediktabilitas lebih penting daripada kompleksitas

Workflow vs. agen

Bacaan terkait

1 komentar

Komentar Hacker News