5 poin oleh GN⁺ 2025-04-01 | 1 komentar | Bagikan ke WhatsApp
  • Mengapa pemesanan penerbangan menjadi "Hello World" untuk demo agen AI?
    • Pengguna lebih memilih UX yang sudah matang (misalnya Google Flights) daripada AI yang memesankan penerbangan untuk mereka
    • Satu kesalahan saja bisa memulai neraka layanan pelanggan yang rumit
    • Sistem yang intuitif dan dapat diprediksi justru lebih inovatif
  • AI masih berada pada tahap awal, dan pengguna umum mengharapkan konsistensi serta prediktabilitas
    • Contoh: bahkan akurasi 80% pun dapat diterima jika menghasilkan hasil yang konsisten
      Sebaliknya, akurasi 90% yang tidak teratur meruntuhkan kepercayaan
    • Banyak proyek AI mengabaikan hal ini dan mengejar demo yang mencolok serta fitur yang dipaksakan → pada akhirnya kehilangan kepercayaan
  • Semakin banyak IDE yang kehilangan transparansi
    • Pengguna tidak dapat mengetahui apa yang sedang dilakukan AI
    • Contoh: insiden Cursor yang menghapus seluruh pekerjaan yang sempat ramai di Reddit
      • Kurangnya kemampuan pengguna dalam version control juga merupakan masalah, tetapi akar penyebab yang sebenarnya adalah desain UI/UX
      • Desain yang baik harus mencegah kesalahan, menjelaskan dengan jelas perilaku AI, dan menyediakan fitur undo
  • Pada awalnya, Cursor:
    • Menyediakan interaksi yang transparan dan ringan melalui antarmuka tab-completion
    • Menjadi populer dengan pendekatan yang membangun kepercayaan pengguna secara bertahap
    • Desain yang sederhana dan bisa dibatalkan efektif dalam mengurangi ketidakpercayaan terhadap AI
  • Devin, yang menerima investasi $200 juta, berorientasi pada "agen yang sepenuhnya otonom"
    • Sistem yang kompleks, respons lambat, dan hasil yang tidak dapat diprediksi menyebabkan runtuhnya kepercayaan
    • Pendekatan yang terlalu ambisius justru menimbulkan kebingungan pengguna

Kecepatan vs. Keandalan: Dilema tim pengembang AI

  • Tim pengembang AI harus memilih salah satu dari berikut ini:
    • Bergerak cepat sambil menerima risiko kesalahan
    • Memprioritaskan keandalan dan stabilitas
  • Jawabannya adalah berfokus pada fitur yang dapat memberikan "hasil luar biasa dalam cakupan kecil", lalu terus melakukan perbaikan secara iteratif

Prinsip inti: prediktabilitas lebih penting daripada kompleksitas

  • Lebih baik fokus pada tugas yang sudah dipahami dengan baik daripada sistem yang kompleks
  • Agen AI tetap bersifat transformatif, tetapi tiga hal berikut harus menjadi pusatnya:
    • Keandalan
    • Transparansi
    • Prediktabilitas

Workflow vs. agen

  • Framing dari Anthropic: "Jika suatu tugas bisa diekspresikan sebagai workflow, buatlah workflow, bukan agen"
    • Workflow bersifat dapat diprediksi, dapat dikendalikan, dan sederhana
    • Agen kompleks dan sulit dikendalikan, sehingga sebaiknya hanya digunakan dalam situasi yang benar-benar dinamis

1 komentar

 
GN⁺ 2025-04-01
Komentar Hacker News
  • Agen "pemesanan pesawat" sekarang sudah menjadi bahan lelucon. Ini juga disebutkan dalam keynote acara AI engineering terbaru dari Swyx

    • Saya rasa tulisan ini meremehkan tingkat kesulitan masalah tersebut
    • Dalam UI tempat manusia mengetik atau bercakap-cakap, ada kemungkinan kesalahan yang tak terbatas
    • Manusia tidak pandai mengekspresikan sesuatu dengan jelas, dan juga sulit memahami secara akurat kemampuan sebuah perangkat lunak
  • Para peneliti Google Deepmind sedang melakukan riset untuk meningkatkan keandalan agen

    • Evaluasi yang ketat dan mewakili perilaku pengguna itu penting
    • Mereka telah memublikasikan demo penalaran tingkat lanjut agen terhadap 80.000 halaman file pembunuhan JFK
    • Bahkan pada jumlah file yang kecil pun, ada perbedaan besar dalam keandalan/akurasi dibanding pemain AI besar lainnya
  • Pemesanan pesawat adalah tugas yang tidak bisa diserahkan kepada AI

    • Untuk perjalanan keluarga maupun perjalanan pribadi, ada banyak siasat yang dibutuhkan
    • Ada berbagai faktor seperti situs resmi, perbandingan harga, pengecekan tanggal, dan pertimbangan poin kartu kredit
  • Dalam banyak kasus, orang cenderung mencoba menyesuaikan AI ke workflow yang sudah ada

    • Workflow yang sudah ada biasanya telah memiliki UX/UI yang dioptimalkan
    • Menggunakan AI belum tentu merupakan solusi untuk memecahkan masalah
  • Dari pengalaman menggunakan Cursor, saya sampai pada kesimpulan bahwa keandalan itu penting

    • Output dari model yang cepat membutuhkan lebih banyak perbaikan
    • Penting untuk menggunakan library tertentu secara jelas
  • Dari perkembangan teknologi selama 20 tahun terakhir, saya merasa keandalan lebih penting

    • Kita hanya membutuhkan beberapa fungsi baru seperti smartphone, rute berkendara, dan penyimpanan cloud
    • Sekarang yang penting adalah daya tahan baterai dan fitur kontrol orang tua pada perangkat anak
  • Komentar di sebuah thread Reddit tentang kondisi pemrograman AI saat ini merangkum perasaan saya

    • Insinyur baru yang masuk ke dunia pemrograman karena AI melewatkan elemen-elemen dasar yang esensial
    • Tetapi saya tetap merasa tenang karena itu berarti masih ada tempat untuk saya
  • Saya berpegang pada prinsip bahwa ketika AI menulis kode, setidaknya kita harus bisa memahami kode tersebut

    • Saya tidak bisa mengikuti cara para "vibe coder" yang tidak memahami kode yang ditulis AI
  • Saya pikir workflow lebih penting daripada agen

    • Ketika agen siap mengeksekusi pekerjaan dengan akurasi tinggi, kita bisa memanfaatkan workflow
    • Saya akan mencari cara membuat workflow yang efektif, akurat, dan mudah didiagnosis
  • Google Flights sudah menyediakan UX yang sempurna

    • Saat menggunakan agen AI, saya merasa pencarian web lebih andal dan lebih cepat
    • Saya tidak yakin AI akan menjadi berguna, dan saya meragukan apakah pengujiannya sudah dilakukan dengan benar