- KoHalluLens adalah proyek yang memperluas HalluLens dari Facebook Research ke bahasa Korea, dan mengevaluasi hallucination pada LLM secara sistematis berdasarkan test set bahasa Korea yang baru dibuat setiap kali.
- Benchmark ini membagi hallucination menjadi
- “mengatakan hal yang tidak sesuai fakta” (Factuality issue) dan
- “berpura-pura tahu padahal tidak tahu” (Hallucination)
- Benchmark ini juga menyajikan kriteria klasifikasi yang jelas antara Extrinsic Hallucination (tidak selaras dengan informasi training) dan Intrinsic Hallucination (tidak selaras dengan context input).
- Jika benchmark sebelumnya memiliki risiko data leakage, extrinsic hallucination pada HalluLens memungkinkan evaluasi yang lebih andal dengan menggunakan test set baru pada setiap evaluation.
- KoHalluLens memperluas pendekatan ini ke set evaluasi bahasa Korea, dan melalui API hosting memungkinkan pengguna mengevaluasi hallucination model mereka secara langsung tanpa sumber daya komputasi terpisah.
Belum ada komentar.