Deteksi Halusinasi pada Model Bahasa Besar dengan Entropi Semantik
Ringkasan
- Model bahasa besar (LLM): Sistem LLM seperti ChatGPT atau Gemini menunjukkan kemampuan penalaran dan menjawab pertanyaan yang sangat baik, tetapi sering mengalami masalah "halusinasi", yakni menghasilkan keluaran yang salah atau jawaban tanpa dasar.
- Masalah halusinasi: Dapat menimbulkan berbagai persoalan seperti fabrikasi preseden hukum, informasi palsu dalam artikel berita, dan risiko di bidang medis.
- Keterbatasan solusi yang ada: Upaya mendorong kejujuran melalui supervised learning atau reinforcement learning hanya berhasil sebagian.
- Metode baru: Mengusulkan estimator ketidakpastian berbasis entropi yang berlandaskan statistik untuk mendeteksi generasi acak dan salah (confabulation). Metode ini menghitung ketidakpastian pada tingkat makna, bukan berdasarkan urutan kata tertentu.
- Keterterapan: Dapat bekerja terlepas dari dataset dan tugas, tidak memerlukan pengetahuan awal tentang tugas, dan mampu melakukan generalisasi dengan kuat ke tugas baru.
Poin Utama
Pentingnya masalah halusinasi
- Definisi halusinasi: Ketika LLM menghasilkan konten yang tidak setia pada sumber yang diberikan atau bersifat tidak logis.
- Contoh confabulation: Kasus ketika model secara acak menghasilkan jawaban yang berbeda untuk pertanyaan yang sama.
- Masalah yang sudah ada: Pelatihan dengan data yang salah, berbohong demi mengejar reward, serta kegagalan sistematis dalam penalaran atau generalisasi.
Deteksi confabulation dengan entropi semantik
- Gambaran metode: Mengukur secara kuantitatif kapan sebuah input memiliki kemungkinan tinggi memicu jawaban yang acak dan tidak berdasar.
- Entropi semantik: Mengestimasi ketidakpastian dengan menghitung entropi berdasarkan makna kalimat. Entropi yang tinggi menunjukkan ketidakpastian yang tinggi.
- Clustering: Menghitung entropi dengan mengelompokkan jawaban yang maknanya serupa.
Evaluasi dan hasil
- Dataset: Dievaluasi pada berbagai dataset seperti TriviaQA, SQuAD, BioASQ, NQ-Open, dan SVAMP.
- Model: Diuji pada berbagai model seperti LLaMA 2 Chat, Falcon Instruct, Mistral Instruct, dan GPT-4.
- Kinerja: Entropi semantik menunjukkan kinerja yang lebih baik daripada entropi sederhana yang ada maupun metode supervised learning.
Kinerja keseluruhan
- AUROC: Metrik untuk mengukur kemampuan model memprediksi kesalahan; entropi semantik mencatat skor tertinggi.
- AURAC: Metrik yang mengukur akurasi pada pertanyaan yang tersisa dengan menolak pertanyaan yang sangat mungkin memicu confabulation; entropi semantik menunjukkan kinerja tertinggi.
Opini GN⁺
- Kepraktisan: Entropi semantik sangat praktis karena dapat diterapkan pada beragam dataset dan tugas. Khususnya, metode ini juga melakukan generalisasi dengan kuat ke tugas baru.
- Kontribusi teknis: Mengatasi keterbatasan pendekatan perhitungan entropi sederhana yang ada dan mengusulkan pendekatan baru untuk mengukur ketidakpastian pada tingkat makna.
- Potensi ke depan: Metode ini berpotensi diterapkan di masa depan untuk meningkatkan keandalan ringkasan abstraktif maupun LLM percakapan.
- Keterbatasan: Tidak menyelesaikan kasus ketika sistem mempelajari data yang salah secara sistematis atau melakukan kesalahan penalaran yang sistematis. Untuk itu diperlukan pendekatan terpisah.
- Teknologi pesaing: Dibandingkan dengan metode estimasi ketidakpastian lain, entropi semantik menunjukkan kinerja yang lebih baik, tetapi dalam situasi tertentu metode lain bisa lebih efektif.
1 komentar
Opini Hacker News
bullshitometer.