Melampaui AI MVP: Apa yang Benar-Benar Dibutuhkan

winterjung · 2025-04-03T12:56:26+09:00

Sebagian besar perusahaan yang membuat produk AI terjebak di tahap eksperimen dan kekurangan sistem serta alat yang andal Kasus kami Awal tahun ini, kami memperbarui model LLM dari gpt-4o-2024-08-06 ke gpt-4o-2024-11-20 Tingkat kelulusan pengujian prompt inti turun dari 100% menjadi 79% Sementara itu, Sonnet 3.5 dari Anthropic justru menunjukkan tingkat kelulusan 95% Banyak perusahaan AI berbicara terlalu mudah tentang perpindahan antar-vendor Ini lebih dari sekadar mengatakan bahwa AI harus diuji Membangun infrastruktur pengujian untuk mengukur performa model dan mengukur secara kuantitatif dampak dari perubahan model bukanlah hal yang sesederhana itu Hal-hal yang kami bangun untuk kuantifikasi Sedikitnya 30 skenario pengujian unik Kode untuk membandingkan output prompt yang diharapkan dengan output aktual Test runner itu sendiri Strategi untuk menjalankan pengujian di CI dengan biaya yang masuk akal Jebakan AI MVP yang dialami sebagian besar tim Tahap 1. MVP yang menipu: demo yang tampak selesai hanya dalam beberapa hari muncul. Namun segera mulai membuat kesalahan mendasar Tahap 2. ±0: berusaha memperbaikinya, tetapi justru makin kompleks dan tidak dapat diprediksi. 90% dari sebagian besar perusahaan berada di tahap ini Tahap 3. Sains: pada titik ini, mereka menyadari perlunya pengujian evaluasi, alat observabilitas, dan lain-lain, lalu mulai membangunnya Tahap 4. Benar-benar bekerja: akhirnya memiliki pemantauan berkelanjutan, set pengujian evaluasi yang komprehensif, dan alat analisis yang cepat Semua ini tidak mudah, tidak sederhana, dan merupakan pekerjaan yang sulit Banyak perusahaan tetap berada di tahap MVP yang kacau dan bahkan tidak memahami seperti apa performa fitur AI yang sudah mereka rilis Menjual produk AI dengan mengatakan bahwa "yang dibutuhkan hanyalah X" terlalu menyederhanakan kenyataan Jika seseorang mengatakan mereka sedang membangun strategi AI multi-provider, tanyakan bagaimana mereka mengukur dan mengevaluasinya

(blog.lawrencejones.dev)

16 poin oleh winterjung 2025-04-03 | Belum ada komentar. | Bagikan ke WhatsApp

Sebagian besar perusahaan yang membuat produk AI terjebak di tahap eksperimen dan kekurangan sistem serta alat yang andal
Kasus kami
- Awal tahun ini, kami memperbarui model LLM dari gpt-4o-2024-08-06 ke gpt-4o-2024-11-20
- Tingkat kelulusan pengujian prompt inti turun dari 100% menjadi 79%
- Sementara itu, Sonnet 3.5 dari Anthropic justru menunjukkan tingkat kelulusan 95%
Banyak perusahaan AI berbicara terlalu mudah tentang perpindahan antar-vendor
- Ini lebih dari sekadar mengatakan bahwa AI harus diuji
- Membangun infrastruktur pengujian untuk mengukur performa model dan mengukur secara kuantitatif dampak dari perubahan model bukanlah hal yang sesederhana itu
Hal-hal yang kami bangun untuk kuantifikasi
- Sedikitnya 30 skenario pengujian unik
- Kode untuk membandingkan output prompt yang diharapkan dengan output aktual
- Test runner itu sendiri
- Strategi untuk menjalankan pengujian di CI dengan biaya yang masuk akal
Jebakan AI MVP yang dialami sebagian besar tim
- Tahap 1. MVP yang menipu: demo yang tampak selesai hanya dalam beberapa hari muncul. Namun segera mulai membuat kesalahan mendasar
- Tahap 2. ±0: berusaha memperbaikinya, tetapi justru makin kompleks dan tidak dapat diprediksi. 90% dari sebagian besar perusahaan berada di tahap ini
- Tahap 3. Sains: pada titik ini, mereka menyadari perlunya pengujian evaluasi, alat observabilitas, dan lain-lain, lalu mulai membangunnya
- Tahap 4. Benar-benar bekerja: akhirnya memiliki pemantauan berkelanjutan, set pengujian evaluasi yang komprehensif, dan alat analisis yang cepat
Semua ini tidak mudah, tidak sederhana, dan merupakan pekerjaan yang sulit
- Banyak perusahaan tetap berada di tahap MVP yang kacau dan bahkan tidak memahami seperti apa performa fitur AI yang sudah mereka rilis
- Menjual produk AI dengan mengatakan bahwa "yang dibutuhkan hanyalah X" terlalu menyederhanakan kenyataan
- Jika seseorang mengatakan mereka sedang membangun strategi AI multi-provider, tanyakan bagaimana mereka mengukur dan mengevaluasinya

Melampaui AI MVP: Apa yang Benar-Benar Dibutuhkan

Bacaan terkait

Belum ada komentar.