16 poin oleh winterjung 2025-04-03 | Belum ada komentar. | Bagikan ke WhatsApp
  • Sebagian besar perusahaan yang membuat produk AI terjebak di tahap eksperimen dan kekurangan sistem serta alat yang andal
  • Kasus kami
    • Awal tahun ini, kami memperbarui model LLM dari gpt-4o-2024-08-06 ke gpt-4o-2024-11-20
    • Tingkat kelulusan pengujian prompt inti turun dari 100% menjadi 79%
    • Sementara itu, Sonnet 3.5 dari Anthropic justru menunjukkan tingkat kelulusan 95%
  • Banyak perusahaan AI berbicara terlalu mudah tentang perpindahan antar-vendor
    • Ini lebih dari sekadar mengatakan bahwa AI harus diuji
    • Membangun infrastruktur pengujian untuk mengukur performa model dan mengukur secara kuantitatif dampak dari perubahan model bukanlah hal yang sesederhana itu
  • Hal-hal yang kami bangun untuk kuantifikasi
    • Sedikitnya 30 skenario pengujian unik
    • Kode untuk membandingkan output prompt yang diharapkan dengan output aktual
    • Test runner itu sendiri
    • Strategi untuk menjalankan pengujian di CI dengan biaya yang masuk akal
  • Jebakan AI MVP yang dialami sebagian besar tim
    • Tahap 1. MVP yang menipu: demo yang tampak selesai hanya dalam beberapa hari muncul. Namun segera mulai membuat kesalahan mendasar
    • Tahap 2. ±0: berusaha memperbaikinya, tetapi justru makin kompleks dan tidak dapat diprediksi. 90% dari sebagian besar perusahaan berada di tahap ini
    • Tahap 3. Sains: pada titik ini, mereka menyadari perlunya pengujian evaluasi, alat observabilitas, dan lain-lain, lalu mulai membangunnya
    • Tahap 4. Benar-benar bekerja: akhirnya memiliki pemantauan berkelanjutan, set pengujian evaluasi yang komprehensif, dan alat analisis yang cepat
  • Semua ini tidak mudah, tidak sederhana, dan merupakan pekerjaan yang sulit
    • Banyak perusahaan tetap berada di tahap MVP yang kacau dan bahkan tidak memahami seperti apa performa fitur AI yang sudah mereka rilis
    • Menjual produk AI dengan mengatakan bahwa "yang dibutuhkan hanyalah X" terlalu menyederhanakan kenyataan
    • Jika seseorang mengatakan mereka sedang membangun strategi AI multi-provider, tanyakan bagaimana mereka mengukur dan mengevaluasinya

Belum ada komentar.

Belum ada komentar.