- Sebagian besar perusahaan yang membuat produk AI terjebak di tahap eksperimen dan kekurangan sistem serta alat yang andal
- Kasus kami
- Awal tahun ini, kami memperbarui model LLM dari
gpt-4o-2024-08-06 ke gpt-4o-2024-11-20
- Tingkat kelulusan pengujian prompt inti turun dari 100% menjadi 79%
- Sementara itu, Sonnet 3.5 dari Anthropic justru menunjukkan tingkat kelulusan 95%
- Banyak perusahaan AI berbicara terlalu mudah tentang perpindahan antar-vendor
- Ini lebih dari sekadar mengatakan bahwa AI harus diuji
- Membangun infrastruktur pengujian untuk mengukur performa model dan mengukur secara kuantitatif dampak dari perubahan model bukanlah hal yang sesederhana itu
- Hal-hal yang kami bangun untuk kuantifikasi
- Sedikitnya 30 skenario pengujian unik
- Kode untuk membandingkan output prompt yang diharapkan dengan output aktual
- Test runner itu sendiri
- Strategi untuk menjalankan pengujian di CI dengan biaya yang masuk akal
- Jebakan AI MVP yang dialami sebagian besar tim
- Tahap 1. MVP yang menipu: demo yang tampak selesai hanya dalam beberapa hari muncul. Namun segera mulai membuat kesalahan mendasar
- Tahap 2. ±0: berusaha memperbaikinya, tetapi justru makin kompleks dan tidak dapat diprediksi. 90% dari sebagian besar perusahaan berada di tahap ini
- Tahap 3. Sains: pada titik ini, mereka menyadari perlunya pengujian evaluasi, alat observabilitas, dan lain-lain, lalu mulai membangunnya
- Tahap 4. Benar-benar bekerja: akhirnya memiliki pemantauan berkelanjutan, set pengujian evaluasi yang komprehensif, dan alat analisis yang cepat
- Semua ini tidak mudah, tidak sederhana, dan merupakan pekerjaan yang sulit
- Banyak perusahaan tetap berada di tahap MVP yang kacau dan bahkan tidak memahami seperti apa performa fitur AI yang sudah mereka rilis
- Menjual produk AI dengan mengatakan bahwa "yang dibutuhkan hanyalah X" terlalu menyederhanakan kenyataan
- Jika seseorang mengatakan mereka sedang membangun strategi AI multi-provider, tanyakan bagaimana mereka mengukur dan mengevaluasinya
Belum ada komentar.