PM layanan AI, kini rancang 'evaluasi' melampaui sekadar 'perencanaan'

(maily.so)

5 poin oleh pentaxzs 2026-04-11 | 2 komentar | Bagikan ke WhatsApp

Belakangan ini, seiring layanan AI generatif berkembang pesat, terjadi perubahan mendasar pada peran PM.

Hal yang sama juga berlaku pada peran QA.
Dulu, PM mendefinisikan requirement (Spec) dan QA memverifikasi apakah fungsi berjalan normal (Pass/Fail), tetapi di era AI, kualitas menjadi area yang harus langsung didefinisikan dan dievaluasi oleh PM.

Mengapa bukan QA, melainkan PM yang bertanggung jawab atas kualitas?

Tidak adanya jawaban tunggal: Jawaban AI bukan soal benar atau salah, melainkan berada pada spektrum "baik atau buruk".
Subjektivitas evaluasi: Kriteria kualitatif seperti "Apakah ini terasa natural?" atau "Apakah ini membantu?" hanya bisa didefinisikan oleh PM yang paling memahami visi produk.
Definisi itulah kualitas: Dalam layanan AI, kualitas bukan sesuatu yang ditangkap lewat testing, melainkan dimulai dari mendefinisikan sejak awal apa itu "hasil yang baik".

Perbandingan manajemen kualitas layanan umum vs layanan AI
Ada perbedaan besar antara layanan software konvensional dan layanan AI, mulai dari cara memandang kualitas hingga cara mengelolanya.

Standar dan penilaian kualitas: Pada layanan umum, dokumen perencanaan adalah jawaban yang benar. Ini mirip kuis O/X yang bisa membedakan dengan jelas 'benar/salah (Pass or Fail)', seperti apakah tombol berfungsi atau pembayaran berhasil. Sebaliknya, pada layanan AI, alih-alih jawaban pasti, yang ada hanyalah 'jawaban teladan'. Karena kualitas berada pada spektrum yang kontinu, pendekatannya lebih mirip penilaian ujian esai yang menilai seberapa optimal hasilnya, bukan sekadar apakah jawabannya benar.
Inti dan tanggung jawab manajemen kualitas: Dalam layanan umum, yang penting adalah 'quality assurance (QA)' untuk memverifikasi apakah fungsi telah selesai sesuai perencanaan, dan tanggung jawabnya terutama ada pada organisasi QA. Namun pada layanan AI, yang menjadi inti adalah 'desain evaluasi', yaitu menetapkan standar tentang seperti apa hasil yang baik. Karena itu, PM yang paling memahami visi produk menjadi penanggung jawab akhir atas kualitas.
Perubahan cara verifikasi: Jika dulu pengujian dilakukan berdasarkan skenario yang telah ditentukan untuk melihat apakah fungsi berjalan, pada layanan AI dilakukan evaluasi kualitatif (Human Eval) di mana manusia langsung melihat dan menilai hasilnya. Lebih jauh lagi, kualitas ditingkatkan dengan memanfaatkan LLM yang telah dipelajari berdasarkan kriteria yang ditetapkan PM sebagai evaluator (LLM Judge), untuk memverifikasi data dalam jumlah besar secara otomatis.

Lima tahap manajemen kualitas untuk AI PM

Coba beri skor sendiri sesuai panduan: Ambil data sampel dan nilai langsung untuk mengenali kriteria penilaian Anda sendiri.
Formalkan kriteria: Definisikan kesan yang samar seperti "spesifisitas" dan "realisme" ke dalam bahasa yang bisa dijelaskan.
Bangun dataset: Buat daftar pertanyaan inti yang harus diselesaikan layanan beserta jawaban teladannya.
Otomatiskan evaluasi (LLM Judge): Biarkan LLM mengevaluasi hasil dalam jumlah besar berdasarkan kriteria yang telah didefinisikan.\
Ragukan metrik: Jika skor evaluasi naik tetapi kepuasan pengguna rendah, tinjau kembali kriteria itu sendiri.

💡 Insight kini
PM bukan lagi sekadar orang yang membuat fitur, melainkan orang yang merancang 'standar penilaian nilai produk'. Pengalaman mendefinisikan apa itu hasil yang baik dan membangun struktur untuk mengukurnya akan menjadi daya saing paling kuat bagi PM di era AI.

2 komentar

kurthong 2026-04-11

Setelah membaca keseluruhan blognya, ini memang pekerjaan yang sejak awal dilakukan PM. Hanya saja, tampaknya cara kerjanya sedikit demi sedikit berubah seiring datangnya era AI. Terima kasih atas insight yang bagus.

pentaxzs 2026-04-11

Terima kasih.
Metode perencanaan maupun desain terus berubah, tetapi rasanya lajunya juga makin cepat.

PM layanan AI, kini rancang 'evaluasi' melampaui sekadar 'perencanaan'

Bacaan terkait

2 komentar