- Banyak tim AI hanya fokus pada pemilihan alat dan justru mengabaikan hal yang lebih penting, yaitu pengukuran efektivitas dan pembelajaran berulang
- Berdasarkan pengalaman membantu membangun lebih dari 30 produk AI, penulis memperkenalkan pola eksekusi yang sama pada tim-tim yang sukses
- Intinya adalah pola pikir yang berpusat pada pengukuran dan pembangunan roadmap berbasis eksperimen
1. Kesalahan paling umum: melewatkan analisis error
- Sebagian besar tim AI terlalu sibuk merancang arsitektur atau framework, tetapi tidak benar-benar mengukur efektivitasnya
- Metrik dashboard yang umum biasanya tidak banyak membantu
- Terobsesi pada “vanity metrics” yang tidak bermakna
- Terlalu banyak metrik sehingga fokus tim terpecah
- Analisis error adalah aktivitas dengan ROI tertinggi
- Meninjau log percakapan nyata
- Mengklasifikasikan jenis kegagalan
- Menulis pengujian untuk masalah tersebut dan mengukur perbaikannya
- Kasus NurtureBoss:
- Menyelesaikan error pemrosesan tanggal
- Akurasi meningkat dari 33% → 95%
- Analisis bottom-up lebih efektif daripada analisis top-down
- Menurunkan pola kegagalan berdasarkan data nyata
- Bahkan pivot table sederhana pun bisa memberi insight besar
2. Investasi AI yang paling penting: penampil data sederhana
- Alat yang memungkinkan tim melihat output AI nyata dengan mudah adalah yang paling penting
- Dibanding alat open source, antarmuka kustom yang sesuai domain lebih efektif
- NurtureBoss memungkinkan perbaikan iteratif yang cepat lewat penampil data internalnya
- Syarat penampil yang baik:
- Menampilkan seluruh konteks dalam satu layar
- Memudahkan pengumpulan umpan balik
- Mengizinkan anotasi terbuka
- Penyaringan dan pengurutan cepat
- Dukungan shortcut untuk meningkatkan kenyamanan pengguna
- Bisa dibangun dalam beberapa jam dengan FastHTML, MonsterUI, dan sebagainya
- Tidak masalah juga jika memulai dari spreadsheet sederhana
3. Berikan wewenang prompt kepada pakar domain
- Peningkatan performa AI justru lebih efektif ketika dipimpin oleh pakar yang tidak terlalu memahami AI
- Karena prompt adalah kalimat bahasa Inggris, orang nonspesialis pun dapat menulisnya
- Jika produk menyediakan lingkungan prompt terintegrasi dalam “mode admin” pada UI, proses pembelajaran berulang dapat dioptimalkan
- Tips komunikasi dengan pakar domain:
- Hilangkan istilah teknis yang tidak perlu
- Contoh: “metode RAG” → “AI memperoleh konteks untuk menjawab pertanyaan”
- Alasan penggunaan bahasa yang presisi penting dalam komunikasi tim
4. Bisa dilakukan tanpa pengguna: bootstrap dengan data sintetis
- Evaluasi AI tetap bisa dilakukan meski belum ada data pengguna
- LLM dapat menghasilkan data sintetis
- Tiga dimensi untuk data sintetis yang efektif:
- Fungsi (misalnya pencarian properti, reservasi, dll.)
- Skenario (misalnya tidak ada kecocokan, banyak kecocokan, dll.)
- Persona (misalnya pembeli pemula, investor, dll.)
- Contoh proyek properti nyata:
- Menyusun DB per skenario untuk menghasilkan query sintetis
- LLM membuat pertanyaan pengguna dan menguji sistem
- Panduan membuat data sintetis:
- Buat contoh yang beragam
- Fokus pada data input
- Cerminkan batasan sistem
- Validasi skenario pengujian
- Mulai dari kasus sederhana lalu perluas secara bertahap
5. Menjaga kepercayaan pada sistem evaluasi
- Banyak tim membangun sistem evaluasi lalu kemudian mengabaikannya karena tidak lagi percaya
- Seiring waktu, tolok ukur evaluasi biasanya mengalami criteria drift
- Pendekatan untuk menjaga kepercayaan:
- Lebih memilih evaluasi biner (pass/fail): menjaga kejelasan dan konsistensi
- Menambahkan kritik yang rinci: memberi konteks melalui penjelasan kualitatif
- Mengukur keselarasan evaluasi otomatis dan evaluasi manusia
- Contoh: pada proyek Honeycomb, setelah 3 iterasi tercapai kecocokan lebih dari 90% antara evaluasi LLM dan evaluasi manusia
- Bisa memanfaatkan alat AlignEval dari Eugene Yan
- Strategi untuk memperluas skala:
- Jangan menghapus evaluasi manusia sepenuhnya; fokuskan pada sampel yang paling kaya informasi
- Bandingkan evaluasi otomatis dan penilaian manusia secara berkala untuk menyesuaikan ulang tolok ukur
6. Roadmap AI yang berpusat pada eksperimen, bukan fitur
- “Roadmap berpusat pada fitur” tradisional tidak cocok untuk AI
- Mantan pimpinan AI di Hex, Bryan Bischof, mengusulkan pendekatan “capability funnel”
- Contoh: funnel untuk query assistant
- Hanya sintaks query yang benar
- Bisa dijalankan tanpa error
- Mengembalikan hasil yang relevan
- Sesuai dengan maksud pengguna
- Menyelesaikan masalah sepenuhnya
- Manajemen jadwal berbasis eksperimen ala Eugene Yan:
- Meninjau kelayakan data → meninjau kelayakan teknis → membuat prototipe → A/B test
- Membagikan hasil eksperimen kepada eksekutif, dan jika tidak menjanjikan, memutuskan untuk beralih sejak tahap awal
- Membangun budaya berbagi kegagalan:
- Membagikan “kegagalan juga sebagai capaian” di dalam tim
- Menciptakan lingkungan yang mendorong iterasi dan eksperimen
Kesimpulan dan prinsip utama
- Tim AI yang sukses lebih fokus pada pengukuran, iterasi, dan pembelajaran daripada alat yang rumit
- Enam prinsip yang perlu dijalankan:
- Periksa data secara langsung dan lakukan analisis error
- Dukung pembelajaran berulang dengan membuat alat yang sederhana dan efisien
- Dorong partisipasi dan berikan wewenang kepada pakar domain
- Bootstrap sistem evaluasi awal dengan data sintetis
- Jaga kepercayaan dengan evaluasi biner + kritik + pengecekan keselarasan
- Jalankan roadmap berdasarkan jumlah eksperimen, bukan fitur
Belum ada komentar.