9 poin oleh GN⁺ 2025-04-02 | Belum ada komentar. | Bagikan ke WhatsApp
  • Banyak tim AI hanya fokus pada pemilihan alat dan justru mengabaikan hal yang lebih penting, yaitu pengukuran efektivitas dan pembelajaran berulang
  • Berdasarkan pengalaman membantu membangun lebih dari 30 produk AI, penulis memperkenalkan pola eksekusi yang sama pada tim-tim yang sukses
  • Intinya adalah pola pikir yang berpusat pada pengukuran dan pembangunan roadmap berbasis eksperimen

1. Kesalahan paling umum: melewatkan analisis error

  • Sebagian besar tim AI terlalu sibuk merancang arsitektur atau framework, tetapi tidak benar-benar mengukur efektivitasnya
  • Metrik dashboard yang umum biasanya tidak banyak membantu
    • Terobsesi pada “vanity metrics” yang tidak bermakna
    • Terlalu banyak metrik sehingga fokus tim terpecah
  • Analisis error adalah aktivitas dengan ROI tertinggi
    • Meninjau log percakapan nyata
    • Mengklasifikasikan jenis kegagalan
    • Menulis pengujian untuk masalah tersebut dan mengukur perbaikannya
  • Kasus NurtureBoss:
    • Menyelesaikan error pemrosesan tanggal
    • Akurasi meningkat dari 33% → 95%
  • Analisis bottom-up lebih efektif daripada analisis top-down
    • Menurunkan pola kegagalan berdasarkan data nyata
    • Bahkan pivot table sederhana pun bisa memberi insight besar

2. Investasi AI yang paling penting: penampil data sederhana

  • Alat yang memungkinkan tim melihat output AI nyata dengan mudah adalah yang paling penting
    • Dibanding alat open source, antarmuka kustom yang sesuai domain lebih efektif
    • NurtureBoss memungkinkan perbaikan iteratif yang cepat lewat penampil data internalnya
  • Syarat penampil yang baik:
    • Menampilkan seluruh konteks dalam satu layar
    • Memudahkan pengumpulan umpan balik
    • Mengizinkan anotasi terbuka
    • Penyaringan dan pengurutan cepat
    • Dukungan shortcut untuk meningkatkan kenyamanan pengguna
  • Bisa dibangun dalam beberapa jam dengan FastHTML, MonsterUI, dan sebagainya
    • Tidak masalah juga jika memulai dari spreadsheet sederhana

3. Berikan wewenang prompt kepada pakar domain

  • Peningkatan performa AI justru lebih efektif ketika dipimpin oleh pakar yang tidak terlalu memahami AI
  • Karena prompt adalah kalimat bahasa Inggris, orang nonspesialis pun dapat menulisnya
  • Jika produk menyediakan lingkungan prompt terintegrasi dalam “mode admin” pada UI, proses pembelajaran berulang dapat dioptimalkan
  • Tips komunikasi dengan pakar domain:
    • Hilangkan istilah teknis yang tidak perlu
    • Contoh: “metode RAG” → “AI memperoleh konteks untuk menjawab pertanyaan”
    • Alasan penggunaan bahasa yang presisi penting dalam komunikasi tim

4. Bisa dilakukan tanpa pengguna: bootstrap dengan data sintetis

  • Evaluasi AI tetap bisa dilakukan meski belum ada data pengguna
    • LLM dapat menghasilkan data sintetis
  • Tiga dimensi untuk data sintetis yang efektif:
    • Fungsi (misalnya pencarian properti, reservasi, dll.)
    • Skenario (misalnya tidak ada kecocokan, banyak kecocokan, dll.)
    • Persona (misalnya pembeli pemula, investor, dll.)
  • Contoh proyek properti nyata:
    • Menyusun DB per skenario untuk menghasilkan query sintetis
    • LLM membuat pertanyaan pengguna dan menguji sistem
  • Panduan membuat data sintetis:
    • Buat contoh yang beragam
    • Fokus pada data input
    • Cerminkan batasan sistem
    • Validasi skenario pengujian
    • Mulai dari kasus sederhana lalu perluas secara bertahap

5. Menjaga kepercayaan pada sistem evaluasi

  • Banyak tim membangun sistem evaluasi lalu kemudian mengabaikannya karena tidak lagi percaya
  • Seiring waktu, tolok ukur evaluasi biasanya mengalami criteria drift
  • Pendekatan untuk menjaga kepercayaan:
    • Lebih memilih evaluasi biner (pass/fail): menjaga kejelasan dan konsistensi
    • Menambahkan kritik yang rinci: memberi konteks melalui penjelasan kualitatif
    • Mengukur keselarasan evaluasi otomatis dan evaluasi manusia
      • Contoh: pada proyek Honeycomb, setelah 3 iterasi tercapai kecocokan lebih dari 90% antara evaluasi LLM dan evaluasi manusia
      • Bisa memanfaatkan alat AlignEval dari Eugene Yan
  • Strategi untuk memperluas skala:
    • Jangan menghapus evaluasi manusia sepenuhnya; fokuskan pada sampel yang paling kaya informasi
    • Bandingkan evaluasi otomatis dan penilaian manusia secara berkala untuk menyesuaikan ulang tolok ukur

6. Roadmap AI yang berpusat pada eksperimen, bukan fitur

  • “Roadmap berpusat pada fitur” tradisional tidak cocok untuk AI
  • Mantan pimpinan AI di Hex, Bryan Bischof, mengusulkan pendekatan “capability funnel”
    • Contoh: funnel untuk query assistant
      1. Hanya sintaks query yang benar
      2. Bisa dijalankan tanpa error
      3. Mengembalikan hasil yang relevan
      4. Sesuai dengan maksud pengguna
      5. Menyelesaikan masalah sepenuhnya
  • Manajemen jadwal berbasis eksperimen ala Eugene Yan:
    • Meninjau kelayakan data → meninjau kelayakan teknis → membuat prototipe → A/B test
    • Membagikan hasil eksperimen kepada eksekutif, dan jika tidak menjanjikan, memutuskan untuk beralih sejak tahap awal
  • Membangun budaya berbagi kegagalan:
    • Membagikan “kegagalan juga sebagai capaian” di dalam tim
    • Menciptakan lingkungan yang mendorong iterasi dan eksperimen

Kesimpulan dan prinsip utama

  • Tim AI yang sukses lebih fokus pada pengukuran, iterasi, dan pembelajaran daripada alat yang rumit
  • Enam prinsip yang perlu dijalankan:
    1. Periksa data secara langsung dan lakukan analisis error
    2. Dukung pembelajaran berulang dengan membuat alat yang sederhana dan efisien
    3. Dorong partisipasi dan berikan wewenang kepada pakar domain
    4. Bootstrap sistem evaluasi awal dengan data sintetis
    5. Jaga kepercayaan dengan evaluasi biner + kritik + pengecekan keselarasan
    6. Jalankan roadmap berdasarkan jumlah eksperimen, bukan fitur

Belum ada komentar.

Belum ada komentar.