Cara Mengevaluasi Sistem LLM

(thoughtworks.com)

19 poin oleh GN⁺ 2025-04-03 | 1 komentar | Bagikan ke WhatsApp

Aplikasi berbasis LLM (large language model) sulit dievaluasi secara memadai dengan metode pengujian tradisional karena sifat output yang non-deterministik
Karena itu, untuk menjaga dan meningkatkan kinerja sistem LLM, metode evaluasi khusus (evals) menjadi hal yang esensial

Mengapa eval penting

Menetapkan standar kinerja: memberikan arah untuk kinerja model dan menetapkan benchmark yang bisa dibandingkan
Menjamin konsistensi dan keandalan: menemukan dan mengendalikan output yang tidak dapat diprediksi lebih awal
Memberikan arah perbaikan: memperjelas titik penurunan performa sehingga perbaikan bisa ditargetkan
Memungkinkan regression test: memastikan kinerja tetap terjaga setelah perubahan sehingga stabilitas terjamin

Elemen utama evaluasi sebelum deployment

Mengapa evaluasi sebelum deployment penting

Kinerja dapat diukur lebih awal dan dibandingkan
Masalah regresi akibat perubahan kode, prompt, atau parameter dapat dideteksi lebih dini

Cara melakukan evaluasi

1. Membuat dataset Ground Truth

Diperlukan dataset yang terdiri dari pasangan tanya-jawab yang ditulis oleh para ahli
Penting untuk mencakup berbagai skenario yang merefleksikan tipe pertanyaan pengguna nyata

Bisakah LLM membuat Ground Truth?

LLM dapat berperan sebagai pendukung, tetapi tidak direkomendasikan untuk membuatnya sendirian
- Kurang memahami perilaku pengguna
- Pertanyaan dan jawaban yang sesuai konteks memerlukan peninjauan manusia
- Review manusia wajib dilakukan untuk menjamin kesesuaian domain dan kualitas

2. Memilih metrik evaluasi

Answer relevancy: apakah memberikan jawaban yang langsung dan bermakna terhadap pertanyaan
Coherence: alur logis dan kejelasan respons
Contextual relevance: seberapa baik konteks percakapan dipertimbangkan
Responsibility: apakah output bertanggung jawab dari sisi etika, bahaya, dan bias

3. Metrik evaluasi RAG

Metrik generasi:
- Faithfulness: apakah berbasis fakta
- Answer relevancy: kesesuaian respons
Metrik pencarian:
- Context precision: rasio sinyal terhadap noise dari informasi yang relevan
- Context recall: apakah informasi yang dibutuhkan untuk jawaban benar berhasil diambil dengan baik

4. Metrik khusus tugas

Diperlukan metrik evaluasi yang disesuaikan dengan tugas tertentu
- Contoh: pada peringkasan, Fluency, Coherence, Consistency, Relevance

5. Menghitung skor dan melakukan tuning sistem

Untuk tiap metrik, skor dihitung dengan membandingkan output aktual dan Ground Truth
Contoh:
- Recall rendah: kurangi chunk size
- Precision rendah: pertimbangkan penerapan reranking
Contoh library evaluasi: DeepEval, Relari-ai

Teknik evaluasi LLM-as-Judge

Menggunakan LLM seperti GPT-4 untuk melakukan evaluasi tanpa Ground Truth
Contoh: framework G-eval, makalah Vicuna, QLoRA
Kekurangan:
- Beberapa metrik (misalnya Context Recall) tidak dapat diukur tanpa Ground Truth
- Dari sisi akurasi dan ketelitian, evaluasi berbasis manusia lebih unggul
Kesimpulan: kombinasi LLM-as-Judge + Ground Truth adalah pendekatan yang ideal

Cara mengintegrasikan evaluasi dalam tahap deployment

Integrasikan otomatisasi evaluasi ke pipeline deployment
- Jalankan pengujian otomatis sebelum code commit atau deployment
- Contoh: pengujian otomatis untuk mendeteksi konten berbahaya dan halusinasi dengan Giskard
Pengujian untuk tahap prapemrosesan dan pengumpulan data juga harus disertakan

Evaluasi setelah deployment dan data flywheel

Monitoring saat operasional

Pelacakan input/output secara real-time
Sesi evaluasi berkala dengan pakar domain
Menyediakan kanal umpan balik pengguna

Strategi data flywheel

Bangun loop perbaikan berkelanjutan dengan memanfaatkan data dan umpan balik yang muncul selama operasional
- Contoh: analisis pola pertanyaan pengguna → perbaikan metode pencarian
- Sesuaikan prompt, parameter inferensi, metode pencarian, dan lainnya berdasarkan metrik
Metrik juga perlu diubah sesuai perilaku pengguna dan skenario kegagalan

Kesimpulan: strategi “Evals First” adalah inti dari produk LLM yang andal

Sejak awal pengembangan aplikasi LLM, perlu diterapkan pola pikir yang berpusat pada evaluasi
Intinya adalah mendefinisikan metrik dan standar yang tepat sejak awal, lalu menjadikannya tolok ukur untuk pengembangan dan deployment
Evaluasi harus ditempatkan bukan sebagai aktivitas setelah fakta, melainkan sebagai proses inti pengembangan agar dapat membangun sistem AI yang andal dan berpusat pada pengguna

1 komentar

winterjung 2025-04-03

Dari pengalaman saya sendiri, dan juga terlihat dari kasus lain seperti https://blog.lawrencejones.dev/ai-mvp/, model terbaru ternyata tidak selalu menjamin hasil yang lebih baik. Setiap kali melakukan tuning pada model atau prompt, kita perlu melakukan evaluasi melalui dataset; tetapi, meskipun llm bisa membantu penilaian, tetap saja agak ironis karena manusia harus membuat sendiri dataset ground truth untuk model llm satu per satu secara manual haha