DeepEval - Pengujian unit untuk LLM
(github.com/mr-gpt)- Filosofi dasarnya adalah "Pytest for LLM"
- Untuk beralih ke produksi, menyediakan cara yang Pythonic untuk menjalankan evaluasi offline terhadap pipeline LLM
- Memungkinkan penulisan pengujian untuk aplikasi LLM (seperti RAG) layaknya menulis unit test Python
- Melalui
assert_llm_output, jawaban dievaluasi dengan metrik seperti entailment / exact / bertscore - Juga memungkinkan pengaturan metrik kustom serta modifikasi metrik yang sudah ada
Belum ada komentar.