Panduan praktis untuk meningkatkan produk AI dengan cepat

(hamel.dev)

9 poin oleh GN⁺ 2025-04-02 | Belum ada komentar. | Bagikan ke WhatsApp

Banyak tim AI hanya fokus pada pemilihan alat dan justru mengabaikan hal yang lebih penting, yaitu pengukuran efektivitas dan pembelajaran berulang
Berdasarkan pengalaman membantu membangun lebih dari 30 produk AI, penulis memperkenalkan pola eksekusi yang sama pada tim-tim yang sukses
Intinya adalah pola pikir yang berpusat pada pengukuran dan pembangunan roadmap berbasis eksperimen

1. Kesalahan paling umum: melewatkan analisis error

Sebagian besar tim AI terlalu sibuk merancang arsitektur atau framework, tetapi tidak benar-benar mengukur efektivitasnya
Metrik dashboard yang umum biasanya tidak banyak membantu
- Terobsesi pada “vanity metrics” yang tidak bermakna
- Terlalu banyak metrik sehingga fokus tim terpecah
Analisis error adalah aktivitas dengan ROI tertinggi
- Meninjau log percakapan nyata
- Mengklasifikasikan jenis kegagalan
- Menulis pengujian untuk masalah tersebut dan mengukur perbaikannya
Kasus NurtureBoss:
- Menyelesaikan error pemrosesan tanggal
- Akurasi meningkat dari 33% → 95%
Analisis bottom-up lebih efektif daripada analisis top-down
- Menurunkan pola kegagalan berdasarkan data nyata
- Bahkan pivot table sederhana pun bisa memberi insight besar

Alat yang memungkinkan tim melihat output AI nyata dengan mudah adalah yang paling penting
- Dibanding alat open source, antarmuka kustom yang sesuai domain lebih efektif
- NurtureBoss memungkinkan perbaikan iteratif yang cepat lewat penampil data internalnya
Syarat penampil yang baik:
- Menampilkan seluruh konteks dalam satu layar
- Memudahkan pengumpulan umpan balik
- Mengizinkan anotasi terbuka
- Penyaringan dan pengurutan cepat
- Dukungan shortcut untuk meningkatkan kenyamanan pengguna
Bisa dibangun dalam beberapa jam dengan FastHTML, MonsterUI, dan sebagainya
- Tidak masalah juga jika memulai dari spreadsheet sederhana

Peningkatan performa AI justru lebih efektif ketika dipimpin oleh pakar yang tidak terlalu memahami AI
Karena prompt adalah kalimat bahasa Inggris, orang nonspesialis pun dapat menulisnya
Jika produk menyediakan lingkungan prompt terintegrasi dalam “mode admin” pada UI, proses pembelajaran berulang dapat dioptimalkan
Tips komunikasi dengan pakar domain:
- Hilangkan istilah teknis yang tidak perlu
- Contoh: “metode RAG” → “AI memperoleh konteks untuk menjawab pertanyaan”
- Alasan penggunaan bahasa yang presisi penting dalam komunikasi tim

Evaluasi AI tetap bisa dilakukan meski belum ada data pengguna
- LLM dapat menghasilkan data sintetis
Tiga dimensi untuk data sintetis yang efektif:
- Fungsi (misalnya pencarian properti, reservasi, dll.)
- Skenario (misalnya tidak ada kecocokan, banyak kecocokan, dll.)
- Persona (misalnya pembeli pemula, investor, dll.)
Contoh proyek properti nyata:
- Menyusun DB per skenario untuk menghasilkan query sintetis
- LLM membuat pertanyaan pengguna dan menguji sistem
Panduan membuat data sintetis:
- Buat contoh yang beragam
- Fokus pada data input
- Cerminkan batasan sistem
- Validasi skenario pengujian
- Mulai dari kasus sederhana lalu perluas secara bertahap

Banyak tim membangun sistem evaluasi lalu kemudian mengabaikannya karena tidak lagi percaya
Seiring waktu, tolok ukur evaluasi biasanya mengalami criteria drift
Pendekatan untuk menjaga kepercayaan:
- Lebih memilih evaluasi biner (pass/fail): menjaga kejelasan dan konsistensi
- Menambahkan kritik yang rinci: memberi konteks melalui penjelasan kualitatif
- Mengukur keselarasan evaluasi otomatis dan evaluasi manusia
  - Contoh: pada proyek Honeycomb, setelah 3 iterasi tercapai kecocokan lebih dari 90% antara evaluasi LLM dan evaluasi manusia
  - Bisa memanfaatkan alat AlignEval dari Eugene Yan
Strategi untuk memperluas skala:
- Jangan menghapus evaluasi manusia sepenuhnya; fokuskan pada sampel yang paling kaya informasi
- Bandingkan evaluasi otomatis dan penilaian manusia secara berkala untuk menyesuaikan ulang tolok ukur

“Roadmap berpusat pada fitur” tradisional tidak cocok untuk AI
Mantan pimpinan AI di Hex, Bryan Bischof, mengusulkan pendekatan “capability funnel”
- Contoh: funnel untuk query assistant
  1. Hanya sintaks query yang benar
  2. Bisa dijalankan tanpa error
  3. Mengembalikan hasil yang relevan
  4. Sesuai dengan maksud pengguna
  5. Menyelesaikan masalah sepenuhnya
Manajemen jadwal berbasis eksperimen ala Eugene Yan:
- Meninjau kelayakan data → meninjau kelayakan teknis → membuat prototipe → A/B test
- Membagikan hasil eksperimen kepada eksekutif, dan jika tidak menjanjikan, memutuskan untuk beralih sejak tahap awal
Membangun budaya berbagi kegagalan:
- Membagikan “kegagalan juga sebagai capaian” di dalam tim
- Menciptakan lingkungan yang mendorong iterasi dan eksperimen

Tim AI yang sukses lebih fokus pada pengukuran, iterasi, dan pembelajaran daripada alat yang rumit
Enam prinsip yang perlu dijalankan:
1. Periksa data secara langsung dan lakukan analisis error
2. Dukung pembelajaran berulang dengan membuat alat yang sederhana dan efisien
3. Dorong partisipasi dan berikan wewenang kepada pakar domain
4. Bootstrap sistem evaluasi awal dengan data sintetis
5. Jaga kepercayaan dengan evaluasi biner + kritik + pengecekan keselarasan
6. Jalankan roadmap berdasarkan jumlah eksperimen, bukan fitur