Mendeteksi halusinasi model bahasa besar dengan entropi semantik

(nature.com)

1 poin oleh GN⁺ 2024-06-25 | 1 komentar | Bagikan ke WhatsApp

Untuk menangkap confabulation pada LLM, yaitu jawaban salah yang terdengar meyakinkan tetapi bersifat acak, diusulkan metode yang menghitung ketidakpastian dari distribusi makna jawaban, bukan dari deretan kata
Dengan mengambil beberapa sampel jawaban untuk pertanyaan yang sama, jawaban yang saling mengimplikasikan dua arah dikelompokkan ke dalam klaster makna yang sama, lalu entropi dihitung per klaster
Evaluasi pada TriviaQA, SQuAD 1.1, BioASQ, NQ-Open, dan SVAMP dengan LLaMA 2 Chat, Falcon Instruct, dan Mistral Instruct menunjukkan rata-rata AUROC 0.790, lebih tinggi daripada naive entropy 0.691, P(True) 0.698, dan embedding regression 0.687
Pada FactualBio, dataset biografi yang dibuat dari GPT-4, 45 dari 150 klaim fakta yang diekstrak dari biografi 21 orang ternyata salah, dan entropi semantik diskret yang dapat bekerja tanpa probabilitas output menunjukkan AUROC dan AURAC yang lebih tinggi daripada self-check dan varian P(True)
Entropi semantik dapat digeneralisasi ke tugas baru tanpa pengetahuan domain sebelumnya atau label khusus tugas, tetapi tetap tidak menjamin kefaktualan jawaban yang salah secara konsisten, seperti kesalahan data pelatihan, kegagalan penalaran sistematis, atau output yang menyesatkan pengguna

Target deteksi: bukan semua halusinasi, melainkan confabulation

LLM seperti ChatGPT atau Gemini menunjukkan kemampuan penalaran dan tanya jawab, tetapi penerapan nyata menjadi sulit karena risiko seperti fabrikasi preseden hukum, fakta palsu dalam berita, dan bahaya di bidang medis seperti radiologi
Yang dibahas di sini bukan seluruh halusinasi dalam arti luas, melainkan confabulation
- LLM berbicara lancar, tetapi jawabannya salah dan bersifat acak
- Untuk instruksi yang sama, jawabannya berubah tergantung detail yang tidak relevan seperti random seed
- Misalnya, untuk pertanyaan “Apa target Sotorasib?”, model kadang menjawab benar KRASG12 ‘C’, tetapi kadang menjawab salah KRASG12 ‘D’
Jenis kegagalan berikut dibedakan dari confabulation
- Salah secara konsisten karena data pelatihan yang keliru atau anggapan umum yang salah
- Model berbohong dalam proses mengejar reward
- Kegagalan penalaran sistematis atau kegagalan generalisasi
Metode ini berfokus pada pendeteksian jawaban acak yang salah namun tetap terdengar masuk akal bagi manusia, dan tidak memberikan jaminan kefaktualan untuk output LLM

Ide inti entropi semantik

Perhitungan entropi yang umum menggunakan distribusi probabilitas dari urutan token yang dihasilkan model
- Jawaban benar yang sama bisa ditulis dengan banyak cara, sehingga meski maknanya sama, entropi bisa terukur tinggi jika katanya berbeda
- naive entropy tidak bisa membedakan keragaman cara penyampaian dari perbedaan makna
Entropi semantik memperkirakan ketidakpastian setelah jawaban generatif bebas dikelompokkan ke dalam satuan makna
- Jawaban yang memiliki makna sama dikelompokkan ke dalam satu klaster makna
- Probabilitas per klaster dijumlahkan untuk menghitung entropi pada tingkat makna
Ketika model menjawab pertanyaan yang sama berkali-kali, jika hanya ekspresinya yang berbeda tetapi maknanya sama, itu dianggap ketidakpastian rendah; jika maknanya berbeda-beda, itu dianggap ketidakpastian tinggi
Untuk model yang tidak memungkinkan penggunaan probabilitas output, dapat diterapkan entropi semantik diskret
- Alih-alih probabilitas token, digunakan rasio jumlah sampel yang termasuk dalam tiap klaster makna
- Dalam eksperimen GPT-4, varian ini dipakai karena saat itu probabilitas output dan akses ke hidden state tidak tersedia
- Varian diskret menunjukkan performa yang mirip dengan estimator standar

Algoritme: sampling, klastering semantik, dan perhitungan entropi

Prosedurnya terdiri dari tiga tahap
- Generasi: mengambil beberapa sampel jawaban untuk input yang sama
- Klastering: mengelompokkan jawaban yang memiliki makna sama
- Estimasi entropi: menjumlahkan probabilitas urutan yang berada dalam klaster makna yang sama untuk menghitung entropi
Kesetaraan makna didekati dengan implikasi dua arah
- Jika kalimat A mengimplikasikan kalimat B, dan kalimat B juga mengimplikasikan kalimat A, keduanya dianggap bermakna sama
- “The capital of France is Paris” dan “Paris is the capital of France” saling mengimplikasikan, sehingga diperlakukan sebagai makna yang sama
- Jawaban pendek seperti “Paris” bisa memiliki makna yang sama dengan jawaban lebih panjang hanya dalam konteks pertanyaan
Untuk menilai implikasi digunakan LLM umum dan alat NLI
- Dalam eksperimen QA dan matematika, GPT-3.5 dipilih karena paling cocok dengan penilaian manusia dan memberi performa deteksi confabulation yang baik
- Model NLI seperti DeBERTa-Large-MNLI juga ditinjau
Untuk sampling digunakan temperature 1, nucleus sampling P=0.9, dan top-K sampling K=50
- Untuk evaluasi akurasi model, digunakan satu generasi dengan temperature rendah 0.1
Karena kalimat panjang memiliki masalah probabilitas token hasil perkalian menjadi sangat kecil, normalisasi panjang digunakan dalam perbandingan log-probability

Evaluasi pada QA dan soal matematika

Dataset evaluasi adalah dataset yang membutuhkan jawaban generatif bebas
- TriviaQA: pengetahuan kuis
- SQuAD 1.1: pemahaman bacaan berbasis Wikipedia
- BioASQ: tanya jawab ilmu hayati
- NQ-Open: pertanyaan domain terbuka yang berasal dari kueri nyata Google Search
- SVAMP: soal cerita matematika tingkat dasar
Dari tiap dataset diambil sampel acak 400 contoh train dan 400 contoh test
- Entropi semantik sendiri tidak menggunakan data train
- Untuk membuat tugas lebih sulit dan mendorong confabulation, context passage asli dari dataset tidak diberikan
Model yang digunakan adalah sebagai berikut
- LLaMA 2 Chat 7B, 13B, 70B
- Falcon Instruct 7B, 40B
- Mistral Instruct 7B
Panjang rata-rata jawaban setara satu kalimat adalah 96±70 karakter, dan pada 30 kombinasi tugas-model, entropi semantik mencatat rata-rata AUROC tertinggi
- semantic entropy: 0.790
- naive entropy: 0.691
- P(True): 0.698
- embedding regression: 0.687
Performa entropi semantik juga stabil menurut keluarga dan ukuran model
- Secara umum berada di kisaran AUROC 0.78~0.81 pada LLaMA, Falcon, dan Mistral
- Dari ukuran 7B hingga 70B pun hasilnya lebih baik daripada baseline
P(True) cenderung membaik seiring membesarnya model, sehingga dalam pengaturan dengan model yang sangat mampu dan jujur, metode ini bisa menjadi lebih kompetitif
Evaluasi deteksi jawaban salah mencakup bukan hanya confabulation, tetapi juga jawaban salah sistematis yang memang tidak secara langsung dituju oleh entropi semantik
- Meski demikian, fakta bahwa entropi semantik tetap mengungguli metode lain menunjukkan bahwa confabulation merupakan kategori utama dalam kesalahan generasi nyata

Akurasi berbasis penolakan dan metrik evaluasi

AUROC digunakan untuk membedakan peristiwa biner apakah suatu jawaban salah atau tidak
- Nilainya berada pada rentang 0~1; 1 berarti pengklasifikasi sempurna, 0.5 berarti pengklasifikasi tanpa informasi
AURAC adalah luas di bawah kurva akurasi penolakan
- Ketika model menolak menjawab pertanyaan yang dinilai berpeluang tinggi memicu confabulation, metrik ini mengukur akurasi model pada pertanyaan yang tersisa
- Metrik ini merangkum peningkatan akurasi yang akan dirasakan pengguna pada berbagai threshold
Entropi semantik dapat digunakan dalam situasi berikut
- Tidak menjawab pertanyaan yang kemungkinan besar memicu confabulation
- Memberi tahu pengguna bahwa jawaban tertentu memiliki reliabilitas rendah
- Memperkuat prosedur yang lebih berbasis bukti seperti pencarian atau prosedur berbasis retrieval
Penentuan benar-salah untuk jawaban setara satu kalimat diotomatisasi dengan GPT-4 yang menilai apakah reference answer dan proposed answer selaras secara semantik
- Materi pelengkap terpisah memverifikasi kualitas evaluasi otomatis tersebut dengan membandingkannya terhadap penilaian manusia

Generasi biografi panjang: eksperimen FactualBio

Dalam paragraf panjang, banyak proposisi bercampur, sehingga sulit langsung menilai kesetaraan makna untuk seluruh paragraf
- Saat paragraf yang sama dihasilkan ulang, yang mungkin muncul bukan ketidakpastian faktanya, melainkan perbedaan urutan fakta atau struktur paragraf
FactualBio adalah dataset biografi yang dihasilkan GPT-4 v.0613
- Menargetkan 21 orang yang cukup dikenal hingga memiliki halaman Wikipedia, tetapi tidak memiliki biografi daring yang sangat rinci
- Dari biografi yang dihasilkan, 150 proposisi fakta diekstraksi secara otomatis
- Dari 150 tersebut, 45 dinilai sebagai klaim salah melalui pelabelan manual
Untuk generasi panjang diterapkan prosedur berikut
- Paragraf dipecah menjadi klaim fakta individual
- Secara otomatis dibuat pertanyaan yang dapat menghasilkan tiap klaim fakta sebagai jawaban
- LLM asli kemudian menghasilkan jawaban baru untuk masing-masing pertanyaan
- Jawaban baru dan klaim fakta asli dimasukkan bersama untuk menghitung entropi semantik
- Entropi semantik dari beberapa pertanyaan dirata-ratakan untuk memperoleh skor ketidakpastian bagi klaim fakta tersebut
Untuk tiap fakta dibuat 6 pertanyaan, dan untuk tiap pertanyaan dihasilkan 3 jawaban baru
- Entropi dihitung dengan memasukkan klaim fakta asli agar grounding terhadap claim asli tetap terjaga
- Jika jawaban penolakan seperti “not available”, “not provided”, “unknown”, atau “unclear” melebihi setengah dari total, ketidakpastian semantik diperlakukan sebagai nilai maksimum
Entropi semantik diskret mencatat AUROC dan AURAC yang lebih tinggi pada FactualBio dibanding baseline self-check dan varian P(True) untuk paragraf panjang
- Untuk rejection accuracy, hingga 20% pertanyaan ditolak, entropi semantik diskret lebih baik; setelah titik itu, P(True) unggul tipis

Keterbatasan dan kemungkinan penerapan

Entropi semantik dapat diterapkan pada LLM atau foundation model serupa tanpa modifikasi arsitektur model
Dalam lingkungan akses terbatas yang tidak menyediakan probabilitas output, varian diskret tetap bisa digunakan
Berbeda dari pendekatan supervised, metode ini tidak memerlukan contoh confabulation berlabel dan dapat digeneralisasi ke tugas baru tanpa pengetahuan domain sebelumnya
- Metode supervised seperti embedding regression cenderung menurun performanya ketika distribusi data pelatihan dan data deployment berbeda
Metode ini tidak secara langsung menyelesaikan situasi ketika LLM salah dengan penuh keyakinan
- Tujuan pelatihan yang secara sistematis menghasilkan perilaku berbahaya
- Kesalahan penalaran sistematis
- Output yang secara sistematis menyesatkan pengguna
- Kasus-kasus seperti ini dapat menunjukkan gejala mirip confabulation, tetapi memerlukan penanganan terpisah
Pendekatan ini menyesuaikan alat estimasi ketidakpastian dari machine learning probabilistik ke generasi bahasa bebas dengan menjadikan makna sebagai acuannya, dapat digeneralisasi ke tugas baru tanpa data khusus tugas, dan membantu mengenali situasi ketika pengguna perlu lebih berhati-hati

Data dan kode

Eksperimen untuk frasa pendek dan generasi setara satu kalimat menggunakan dataset publik, dan pendekatannya disertakan dalam kode yang dipublikasikan
Versi publik FactualBio disediakan sebagai bagian dari codebase untuk reproduksi eksperimen paragraf panjang
Lokasi publikasi kode
- github.com/jlko/semantic_uncertainty: kode eksperimen short-phrase dan sentence-length
- github.com/jlko/long_hallucinations: kode eksperimen paragraph-length
- Zenodo DOI: https://doi.org/10.5281/zenodo.10964366

1 komentar

GN⁺ 2024-06-25

Komentar Hacker News

Komentar-komentarnya tampak berdebat soal makna kata atau antropomorfisasi LLM, tetapi pendekatan ini punya masalah nyata pada tataran matematis
Untuk teks masukan apa pun ada distribusi teks keluaran yang bersesuaian, dan cara mengambil beberapa sampel lalu mengevaluasi entropi atau ketidakselarasan tampaknya bergantung pada asumsi bahwa kita sudah mengetahui sifat distribusi keluaran itu
Misalnya, untuk “Tom Cruise terkenal karena apa?”, jawaban seperti “movie star”, “katie holmes”, “topgun”, “scientology” yang saling berjauhan dalam ruang vektor semuanya bisa benar
Sebaliknya, untuk “Taylor Swift terkenal karena apa?”, jika muncul jawaban yang secara semantik dekat seperti “standup comedy”, “comedian”, “comedy actress”, semuanya bisa saja halusinasi
Jika mengetahui distribusi deret kata yang benar untuk masukan tertentu justru merupakan masalah yang harus dipecahkan LLM, maka tidak ada cara untuk menilai benar tidaknya jawaban hanya dengan mengevaluasi distribusi keluaran
Ada model statistik untuk mengevaluasi ketidakpastian keluaran jaringan saraf tiruan, tetapi pada skala LLM tampaknya tidak realistis, dan estimasi parsial yang hanya memakai 1–2 lapisan terakhir memangkas habis ketidakpastian seluruh jaringan
Halusinasi yang saya temui pun sering kali sangat meyakinkan dan tampak dekat dengan jawaban benar, seperti mengganti nama variabel atau mengarang kunci konfigurasi, tetapi sebenarnya salah
- Jawaban dengan ketidakpastian tinggi secara definisi memiliki probabilitas rendah, jadi jika ditanya berkali-kali, kemungkinan besar yang keluar adalah jawaban yang berbeda secara semantik, bukan jawaban langka yang sama bahwa Taylor Swift adalah komedian
  Jika data pelatihan menyebut Taylor Swift sebagai komedian, itu bukan masalah halusinasi
- Rasanya ini menjelaskan secara jauh lebih teknis apa yang saya rasakan dengan otak ilmu komputer tanpa matematika
  Ini terdengar mirip dengan menurunkan temperatur. Sepertinya bukan menarik lebih baik dari kebenaran yang berdasar, melainkan bergerak ke arah yang lebih probabilistik dalam ruang vektor; saya penasaran apakah pemahaman itu benar
- Poinnya valid, tetapi dalam contoh Taylor Swift, model yang berdasar kuat tampaknya kecil kemungkinannya mengeluarkan jawaban “komedian” yang tidak ada di data pelatihan berkali-kali berturut-turut
  Dalam contoh Tom Cruise, semuanya faktual dan berdasar pada data pelatihan, sehingga teknik ini bisa keliru memberikan hasil positif sebagai halusinasi
  Namun contoh di makalah adalah pertanyaan dengan satu jawaban benar seperti “reseptor apa yang ditargetkan obat tertentu ini?” atau “Menara Eiffel berada di mana?”, jadi tampaknya bisa membantu untuk aplikasi seperti itu
- Dengan kata lain, “jika kita melakukan sampling dan mengevaluasi kemiripan antarsampel, kita bisa mengetahui sebaran distribusinya, tetapi tidak bisa mengetahui apakah distribusi itu benar”
  Dari sampel distribusi Gaussian, kita bisa menyebutkan simpangan bakunya, tetapi tidak bisa mengetahui apakah distribusi itu akurat
  Distribusi yang sangat akurat untuk variabel berentropi tinggi juga mungkin, dan sebaliknya distribusi padat dengan simpangan baku rendah bisa saja salah. Jika kita tidak tahu sebelumnya seperti apa keluaran seharusnya, sampling saja tidak bisa memberi tahu
- Metode dalam makalah bukan sekadar “mengambil beberapa sampel lalu hanya mengevaluasi entropi atau ketidakselarasan”
  Mereka mengambil sampel beberapa jawaban, mengelompokkannya berdasarkan kemiripan makna, lalu menjumlahkan probabilitas jawaban yang dikelompokkan dan menormalisasinya
  Misalnya “music:0.8, musician:0.9, concert:0.7, actress:0.5, superbowl:0.6” dikelompokkan menjadi [music, musician, concert] → MUSIC, [actress] → ACTING, [superbowl] → SPORTS, lalu dihitung seperti MUSIC:0.686, SPORTS:0.171, ACTING:0.143
  Makalah itu secara jelas mendefinisikan target yang ingin dicegah sebagai confabulation. Artinya, klaim fasih yang salah dan arbitrer, yang berubah sensitif terhadap detail tidak relevan seperti seed acak
  Kesalahpahaman umum kemungkinan akan tertanam kuat dalam dataset, dan metode ini lebih dekat ke cara menghukum jawaban yang terisolasi secara semantik dari kemungkinan jawaban lain sekaligus likelihood-nya juga ambigu
  Makalah hanya membandingkan efektivitas deteksi, dan tidak mengusulkan metode sampling yang ditingkatkan dengan memanfaatkan deteksi tersebut. Jika dimasukkan ke teknik generasi, biayanya juga besar karena harus melakukan generasi model sekitar 10 kali lebih banyak
  Kode: https://github.com/jlko/semantic_uncertainty
Arsitektur LLM saat ini terutama berfokus pada sisi pencarian, sementara bobot yang dipelajari hanya berkonvergensi agar pandai memprediksi token berikutnya.
Menurut saya, kemampuan memasukkan data ini ke dalam sistem logika juga seharusnya menjadi tujuan pembelajaran.
Jika verifikasi format pengetahuan pada tahap pelatihan ditambahkan ke prediksi token berikutnya, LLM akan dapat menjaga konsistensi dalam pembentukan pengetahuan dan melihat halusinasi yang benar, yaitu sesuatu yang lebih dekat ke imajinasi.
Prosesnya bisa berupa mengubah data pelatihan yang ada menjadi relasi logika formal dengan model besar yang sudah ada, membuatnya menghasilkan beberapa solusi, lalu melatih LLM baru dengan dataset yang diperkuat itu agar tidak hanya mengeluarkan token berikutnya, tetapi juga relasi formal antara pengetahuan yang ada dan teks baru yang dihasilkan.
Jaringan dapat mengoptimalkan bobotnya bersama akurasi generasi token, agar kode formal yang dihasilkan memperoleh akurasi tinggi di pemeriksa bukti.
Secara pribadi, bahasa terasa bukan fondasi kecerdasan, melainkan sesuatu yang sekunder; fondasinya lebih mirip simulasi seperti mimpi yang berisi hal-hal yang saling konsisten, sementara bahasa terasa seperti alat untuk menjelaskannya.
- Usulan ini kembali ke perdebatan klasik antara pendekatan top-down formal dan pendekatan bottom-up informal saat membangun sistem manajemen pengetahuan semantik.
  Pendekatan top-down banyak dicoba sebelum era big data dan sebelum model probabilistik, tetapi membutuhkan kurasi manual yang sangat besar dan pengetahuannya juga kurang.
  Kemunculan big data tidak menyelesaikan masalah kurasi, dan karena kurasi tidak bisa diotomatisasi, skalanya makin besar justru makin buruk.
  Ketika AI beralih ke arah probabilistik sekitar 1990-an, model probabilistik asosiatif masa kini menjadi mungkin, dan tidak terlihat harapan bahwa pendekatan yang lebih terkurasi dan lebih formal akan mengalahkan mereka.
  Bagaimanapun pemikiran tipe 2 seperti penalaran dan kausalitas ditempelkan ke LLM, implementasinya tetap harus probabilistik, informal, dan bottom-up.
  Sudah terbukti bahwa cara mengurasi relasi logis dan semantik secara manual oleh manusia ke dalam model pengetahuan tidak cukup untuk skala yang dibutuhkan dan untuk menghadapi kerapuhan.
- Logika juga punya banyak masalahnya sendiri.
  Cukup lihat “Godel, Escher, Bach”, atau pikirkan mengapa OWL sudah ada selama 20 tahun tetapi pangsa pasarnya hampir tidak ada.
  Alasan orang mencoba segala macam jawaban selain RETE untuk mengelola kode asinkron, alasan “pemrosesan peristiwa kompleks” tetap menjadi bidang khusus alih-alih pesaing eksekutor tugas seperti Celery, dan alasan Drools tidak bisa mengeluarkan pesan galat yang bisa dimengerti juga berada dalam konteks yang sama.
- Masalah muncul pada hal baru yang belum pernah dilihat model dan pada pertanyaan yang jawabannya juga tidak diketahui manusia.
  Seluruh masalah halusinasi terasa seperti masalah berhenti yang diberi beberapa tahap tambahan. Mungkin kita perlu bertanya kepada ChatGPT apakah P=NP.
- Pada tahap pertama, CYC bisa menjadi solusi yang valid.
  Berdasarkan pengalaman saya, ini bisa disebut skema relasi bermakna untuk DAG. Ada juga versi open source, tetapi perusahaannya tidak lagi memeliharanya secara langsung.
  https://cyc.com
  https://github.com/asanchez75/opencyc
- Verifikasi formal pengetahuan atau relasi logika, lalu bagaimana memverifikasi secara formal novel SF atau puisi?
  Bagaimana dengan paradoks yang ada di alam, atau teori-teori yang saling bertentangan tetapi masing-masing logis?
  Mengatakannya mudah, tetapi dalam praktiknya itu sama saja mengusulkan “ini akan bekerja jika kita memecahkan masalah NP-hard yang belum kita ketahui cara memecahkannya.”
Ini bisa disebut halusinasi, tetapi dengan ungkapan lain, sistem-sistem ini bisa dipandang ortogonal terhadap kebenaran.
Artinya, mereka tidak ada hubungannya dengan benar atau salah.
Gagasan ini juga diungkapkan dalam makalah ini: https://link.springer.com/article/10.1007/s10676-024-09775-5
- Ini mirip bertanya apakah suatu distribusi probabilitas itu jujur atau pembohong.
  Berbicara seolah-olah algoritme memiliki sifat personal adalah kesalahan kategori.
- Makalah yang ditautkan membahas cara mendeteksi apakah LLM memilih secara acak pada level fakta, atau memilih secara konsisten.
  Keacakan yang dihasilkan secara prosedural bisa sangat bagus untuk hal-hal seperti brainstorming, dan konsistensi adalah sinyal bahwa sesuatu juga muncul relatif konsisten dalam materi pelatihan.
  Jadi bisa benar atau salah, tetapi kemungkinannya lebih besar bahwa itu diambil dari suatu tempat.
  Mengetahui seberapa acak sebuah informasi tampak seperti kemajuan kecil.
- LLM dilatih dengan tujuan “apa pun yang terjadi, jawablah setidaknya tiga paragraf”, dan jawaban seperti itu selalu lebih disukai daripada diam atau jawaban tidak ramah seperti “apa maksudmu?”
  Kalau begitu, pada dasarnya ia diajari untuk menghasilkan omong kosong yang terdengar meyakinkan.
  Ini mirip kelas improvisasi yang mengajarkan agar percakapan tetap menarik dan tidak mengatakan “tidak” kepada lawan main.
- Saya curiga realitas bersama akan dibengkokkan agar sesuai dengan LLM, bukan sebaliknya.
  Apa yang dikatakan komputer bisa menjadi “kebenaran”.
- LLM-LLM ini tampak lebih dekat ke ketidaksadaran daripada kesadaran.
  Jung mungkin akan menyebutnya “antinomy”. Tujuannya bukan merepresentasikan kebenaran, melainkan merepresentasikan keseluruhan jawaban yang mungkin.
Bukankah semua yang dilakukan LLM pada akhirnya adalah “halusinasi”?
Untuk tahu apakah ia berhalusinasi, kita harus sudah tahu jawaban yang benar. Jika kita bisa membuat sistem yang tahu apakah jawabannya benar, maka kita tidak lagi membutuhkan LLM.
- Halusinasi pada dasarnya mengisyaratkan kegagalan dari pikiran yang utuh.
  Yang dilakukan LLM saat ini lebih tepat disebut mengarang omong kosong. Semakin bagus omong kosong itu, semakin tinggi saja proporsi yang kebetulan benar.
- Rasanya di setiap thread tentang topik ini selalu harus ada orang yang mempermasalahkan istilah “halusinasi”, padahal itu istilah yang sudah mapan dan maknanya jelas. Lama-lama melelahkan.
- Manusia juga semuanya mengarang.
  Kadang konsisten berdasarkan dinamika fisik dan sosial, kadang tidak.
  Karena sistem yang jelas selalu benar itu mustahil, yang kita perlukan adalah sistem yang mengejar konsistensi.
- Kalau membaca tulisannya, Anda mungkin akan tahu bahwa proses menghasilkan jawaban dengan LLM adalah bagian penting dari proses pengecekan fakta.
Untuk sementara, mungkin lebih baik jika perusahaan AI menyajikan chatbot hanya sebagai alat pembuat teks yang sedikit diarahkan
Dengan begitu orang bisa menggunakannya sesuai sifatnya
Ada hal-hal yang tampak seperti sedikit pemahaman, dan bisa juga dibuat sedikit meniru penalaran langkah demi langkah, tetapi 95% fungsi kotak hitam ini adalah pembuatan teks
Sebenarnya ini bukan penciptaan fakta atau penciptaan pengetahuan, dan lebih mirip partner improvisasi daripada ensiklopedia; orang-orang di industri teknologi juga semua tahu itu
Saya tidak tahu apakah solusi entropi jawaban yang cerdas benar-benar diperlukan untuk masalah LLM yang menyesatkan orang. Solusi itu menarik, dan sepertinya memang bisa memberi perbaikan nyata, misalnya dengan menambahkan skor keyakinan pada pernyataan
Namun bukankah mengurangi pemasaran generator teks machine learning seolah-olah hampir AGI saja sudah akan mengurangi sebagian besar dampak buruk dan lebih membantu?
- Saat ini saya sedang membuat frontend dengan React dan Redux sambil bekerja dengan LLM, padahal keduanya teknologi yang hampir tidak saya ketahui
  Ketika saya mengajukan pertanyaan, LLM memberi jawaban dan kode JavaScript, sementara kemampuan JavaScript saya juga sudah cukup berkarat
  Semua kodenya berhasil dikompilasi dan sebagian besar berjalan sesuai harapan. Ada juga error, tetapi LLM menjelaskan error yang tidak saya pahami dan memberi kode perbaikan yang berfungsi
  Secara keseluruhan, itu pengalaman yang sangat baik seperti bekerja bersama mentor, dan dari sudut pandang saya sebagai pemula, sangat menghemat waktu. Tentu saja hasilnya tetap perlu diverifikasi
  Angka 95% itu berasal dari mana? Dan apakah itu pembuatan teks atau pembuatan fakta/pengetahuan tidaklah penting. Ini benar-benar alat yang bernilai dan jauh lebih hebat daripada apa pun yang pernah saya gunakan
Pendekatan “untuk tiap pertanyaan, ambil sampel beberapa kemungkinan jawaban, lalu kelompokkan jawaban yang maknanya mirip dengan algoritme” masuk akal untuk pertanyaan yang memiliki satu jawaban objektif pilihan ganda
Untuk kasus ketika ada beberapa jawaban yang sama-sama valid, ini mungkin tidak terlalu membantu
Meski begitu, untuk aplikasi mesin pencari, ini sudah cukup baik
Konsep entropi semantik mengingatkan saya pada kejadian setelah skandal Enron, ketika sebuah bank membuat “bullshitometer” untuk mengukur tingkat omong kosong dalam siaran pers
Saya tidak ingat nama banknya, tetapi katanya ketika diterapkan pada siaran pers Enron, mereka menunjukkan bahwa keruntuhan perusahaan itu bisa diprediksi
Dalam statistik ada konsep bernama analisis sensitivitas
Metode ini juga tampak agak mirip, tetapi alternatif yang menarik mungkin adalah mengubah input dengan cara yang dianggap tetap mempertahankan makna, lalu melihat bagaimana makna output berubah
Tentu saja bagian sulitnya adalah mengubah input tanpa mengubah maknanya, tetapi itu tidak tampak sepenuhnya mustahil
Setidaknya kita bisa meminta LLM mengubah input tanpa mengubah maknanya. Namun ada kemungkinan model mengubahnya sesuai arah kesalahpahaman model terhadap input, sehingga setelah diubah justru menjadi lebih cocok dengan output halusinatif
Saya paham bahwa entropi semantik, yang tampaknya membutuhkan LLM yang dilatih untuk mendeteksi kesetaraan makna, bisa lebih baik dalam menangkap halusinasi
Namun saya belum melihat dengan jelas bagaimana kesetaraan makna secara langsung menyelesaikan masalah halusinasi
Untuk saat ini saya curiga ini lebih dekat ke heuristik untuk menangkap halusinasi
Selain itu, kebutuhan akan LLM kedua untuk deteksi kesetaraan makna demi menangkap kasus seperti ini tampak rumit secara tidak perlu
Jika ada dataset kesetaraan makna, saya rasa saya akan memasukkannya langsung ke proses pelatihan LLM utama daripada melatih LLM kedua
- Saya belum cukup memahami riset ini untuk mengkritiknya, tetapi dataset kesetaraan makna memang bisa diintegrasikan ke pelatihan
  Namun ketika mencoba menambal kelemahan model kompleks yang tujuan perseptualnya tidak jelas dengan mencampurkan beberapa fungsi yang jelas seperti “mencapai AUC yang baik pada makna”, hasilnya tetap terasa aneh
  Kita tidak tahu apakah pencampurannya dilakukan dengan baik, atau apakah kita memasukkan konsekuensi, risiko, dan bias yang sulit diprediksi ke dalam pelatihan
  Untuk tugas yang didefinisikan sempit seperti “apakah dapat menilai kesetaraan makna”, kita bisa membuat model yang baik dengan lebih sedikit risiko yang tidak diketahui, dan jika model itu diterapkan dengan cara yang relatif jelas, risiko yang tidak kita ketahui juga berkurang
  Karena itu, menggunakan dua estimator yang agak bias untuk membuka jalan menuju heuristik rasional tertentu bisa jauh lebih aman dan umum daripada mencampurkan data ke ramuan kompleks yang sudah ada dan berharap kontribusinya dapat diprediksi
- Menangkap halusinasi cukup berguna dalam banyak aplikasi
  Saya sedang meneliti cara mengurangi dampak kesalahan fakta pada jawaban LLM untuk lembaga publik, dan memberikan jawaban yang tidak sesuai fakta bisa saja ilegal
  Jika bisa dideteksi dengan akurasi yang memadai, sistem dapat menolak menjawab dan meminta pengguna menghubungi lembaga terkait
  Tentu saja, akan lebih baik jika model dilatih agar sejak awal tidak memberikan jawaban yang salah
  Kompleksitas yang tidak perlu juga muncul saat menggunakan LLM kotak hitam komersial pralatih yang diakses melalui API. Sayangnya, dalam aplikasi, LLM kebanyakan digunakan seperti ini
  Mungkin bisa juga melakukan fine-tuning lewat API, tetapi untuk dataset sintetis berskala besar seperti ini, prosesnya merepotkan, terbatas, dan sangat mahal
  Dari membaca tulisannya saja, sulit memahami secara spesifik bagaimana “entropi semantik” dihitung. Jika tertarik, kodenya jauh lebih mudah dipahami: https://github.com/jlko/semantic_uncertainty/blob/master/sem...
Ide yang cukup cerdik. Caranya adalah menanyakan pertanyaan yang sama berulang kali dan memeriksa apakah model menjawab secara berbeda
“Pemeriksaan” dilakukan oleh model lain, dan “perbedaan” diukur dengan entropi

Mendeteksi halusinasi model bahasa besar dengan entropi semantik

Target deteksi: bukan semua halusinasi, melainkan confabulation

Ide inti entropi semantik

Algoritme: sampling, klastering semantik, dan perhitungan entropi

Evaluasi pada QA dan soal matematika

Akurasi berbasis penolakan dan metrik evaluasi

Generasi biografi panjang: eksperimen FactualBio

Keterbatasan dan kemungkinan penerapan

Data dan kode

Bacaan terkait

1 komentar

Komentar Hacker News