Ketidaksepakatan antar LLM frontier dalam pengecekan fakta nyata

(lenz.io)

1 poin oleh GN⁺ 2026-05-29 | 1 komentar | Bagikan ke WhatsApp

5 LLM frontier menunjukkan perbedaan penilaian pada 67% dari 1.000 klaim yang diajukan pengguna nyata, dan hanya 33% kasus di mana kelimanya sepakat
Penilaian mayoritas bukan label jawaban benar, melainkan tolok ukur untuk mengukur ketidaksepakatan; pada 67% kasus yang tidak bulat, setidaknya 1 model pasti salah
Dalam rubrik 4 tingkat, ketidaksepakatan substantif dengan selisih 2 tingkat atau lebih mencapai 34%, dan polarisasi ekstrem antara True dan False juga muncul sebesar 21%
Tingkat kecocokan label antar pasangan model berada di kisaran 53~75%, dengan kecocokan tertinggi pada Gemini 3 Pro dan versi Search yang memakai model dasar yang sama
Data diambil dari klaim nyata terbaru milik Lenz dan diukur tanpa label jawaban benar maupun LLM grader, sehingga menyoroti ketidakstabilan struktur penilaian alih-alih akurasi

Seberapa sering penilaian berbeda pada klaim nyata

Dari 1.000 klaim yang dianalisis, pada 672 klaim, 67% (95% CI 64–70%) penilaian dari 5 model frontier tidak sama
- Klaim yang mendapat penilaian sama dari kelima model berjumlah 328, atau 33% (95% CI 30–36%)
- Klaim dengan hanya 1 model yang memberi penilaian berbeda berjumlah 224, atau 22% (95% CI 20–25%)
- Klaim dengan 2 model yang memberi penilaian berbeda berjumlah 316, atau 32% (95% CI 29–35%)
- Perpecahan seperti 2-2-1 atau 2-1-1-1, yang tidak membentuk mayoritas ketat, berjumlah 132, atau 13% (95% CI 11–15%)
- Kasus di mana setidaknya 2 model memberi penilaian berbeda berjumlah 448, atau 45% (95% CI 42–48%)
Penilaian mayoritas adalah kriteria struktural untuk menghitung ketidaksepakatan, bukan proksi akurasi
- Penilaian mayoritas bisa saja salah, dan model yang berada di pihak minoritas bisa saja benar
- Jika diasumsikan hanya satu dari empat bucket penilaian yang benar, maka pada 67% klaim yang tidak bulat, setidaknya 1 model salah
- Pada 45% kasus yang mencakup perpecahan 3-2, 3-1-1, dan tanpa mayoritas, setidaknya 2 model salah
- Pada 13% kasus tanpa mayoritas, tidak ada bucket yang mencapai 3 suara, sehingga setidaknya 3 model salah
- Bahkan dalam 33% kasus di mana kelima model sepakat, tetap bisa ada blind spot yang sama-sama dimiliki
Tingkat konsensus panel adalah Krippendorff’s α(ordinal)=0.639
- Penilaian model tidak bisa dibilang mendekati acak, tetapi juga tidak cukup konsisten untuk menganggap 5 model itu sebagai penilai yang saling dapat dipertukarkan
- Karena True / Mostly True / Misleading / False adalah kategori berurutan, digunakan α ordinal

Perbedaan nuansa dan ketidaksepakatan substantif

Dari 1.000 klaim, pada 343 klaim, 34% (95% CI 31–37%) setidaknya dua model memiliki selisih penilaian 2 tingkat atau lebih dalam rubrik 4 tingkat
- Perbedaan antara True dan Mostly True diperlakukan sebagai perbedaan nuansa yang lebih dekat ke penyesuaian tingkat keyakinan
- Perbedaan antara True dan False diperlakukan sebagai ketidaksepakatan substantif di mana jawaban dasarnya memang berbeda
Pengukuran dihitung berdasarkan jarak bucket berpasangan maksimum dari 5 penilaian
- Urutan penilaian adalah True (0) → Mostly True (1) → Misleading (2) → False (3)
- Jarak 0 mencakup 328 klaim, atau 33% (95% CI 30–36%), yaitu saat kelima model memilih bucket yang sama
- Jarak 1 mencakup 329 klaim, atau 33% (95% CI 30–36%), yang sesuai dengan perbedaan nuansa seperti True ↔ Mostly True
- Jarak 2 mencakup 132 klaim, atau 13% (95% CI 11–15%), yaitu ketidaksepakatan substantif seperti True ↔ Misleading atau Mostly True ↔ False
- Jarak 3 mencakup 211 klaim, atau 21% (95% CI 19–24%), yaitu polarisasi ekstrem antara True ↔ False
Jarak bucket bukan ukuran presisi dari besar kesalahan, melainkan indikator kasar
- Ada penyederhanaan dengan menganggap True / Mostly True / Misleading / False sebagai skala berurutan dengan jarak yang sama
- Selisih 2 tingkat juga bisa muncul karena ambiguitas rubrik, perbedaan acuan waktu, atau perbedaan interpretasi terhadap “Misleading”

Tingkat kecocokan antar model

Tingkat kecocokan label antar 5 pasangan model berada dalam rentang 53%~75%
- Tingkat kecocokan tertinggi adalah Gemini 3 Pro × Gemini 3 Pro + Search sebesar 75% (95% CI 72–77%), dan keduanya berbagi model dasar yang sama
- Tingkat kecocokan terendah adalah 53% (95% CI 50–56%), muncul pada tiga pasangan
Tingkat kecocokan utama per pasangan
- GPT-5.4 × Claude Opus 4.7: 65% (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65% (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60% (95% CI 57–63%)
- GPT-5.4 × Sonar Pro: 60% (95% CI 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53% (95% CI 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53% (95% CI 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58% (95% CI 55–61%)
- Gemini 3 Pro × Sonar Pro: 53% (95% CI 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58% (95% CI 55–61%)

Kecenderungan penilaian per model

Distribusi penilaian
- Tiap model berbeda dalam seberapa besar mereka terkonsentrasi pada dua kutub True/False dan seberapa sering mereka memakai bucket tengah Mostly True/Misleading
- Karena tidak ada label jawaban benar, pengaruh kecenderungan awal model dan karakteristik klaim tidak bisa dipisahkan
- GPT-5.4: True 42% (95% CI 39–45%), Mostly True 16% (14–19%), Misleading 12% (10–14%), False 30% (28–33%)
- Claude Opus 4.7: True 38% (35–41%), Mostly True 26% (23–29%), Misleading 19% (17–22%), False 17% (15–20%)
- Gemini 3 Pro: True 54% (51–57%), Mostly True 3% (2–4%), Misleading 3% (2–4%), False 40% (37–43%)
- Gemini 3 Pro + Search: True 52% (49–55%), Mostly True 4% (3–5%), Misleading 9% (7–11%), False 35% (32–38%)
- Sonar Pro: True 35% (32–38%), Mostly True 23% (21–26%), Misleading 16% (14–18%), False 26% (23–28%)
Kecocokan dengan mayoritas panel lainnya
- Rasio setiap model memberikan penilaian yang sama dengan mayoritas ketat yang dibentuk oleh setidaknya 3 dari 4 model lainnya berada pada kisaran 69%~81%
- Nilai ini adalah tingkat keselarasan dengan rekan model pada korpus tersebut, bukan akurasi
- Perhitungan hanya mencakup klaim di mana 4 model lainnya membentuk mayoritas 3/4 atau lebih, sehingga eligible n tiap model berbeda
- GPT-5.4: 81% (95% CI 78–84%), eligible n=650, ineligible=350
- Claude Opus 4.7: 70% (95% CI 67–74%), eligible n=691, ineligible=309
- Gemini 3 Pro: 77% (95% CI 74–80%), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: 76% (95% CI 73–79%), eligible n=693, ineligible=307
- Sonar Pro: 69% (95% CI 66–73%), eligible n=675, ineligible=325

Ketidaksepakatan menurut bidang

Penyebut per bidang adalah jumlah klaim dalam bidang tersebut, dan di sebagian besar bidang, tingkat ketidaksepakatan jauh melebihi setengah
- Finance: 75 klaim, ketidaksepakatan arbitrer 67% (95% CI 55–76%), ketidaksepakatan substantif 39% (28–50%), tanpa mayoritas 20% (13–30%)
- General: 179 klaim, ketidaksepakatan arbitrer 68% (60–74%), ketidaksepakatan substantif 40% (33–48%), tanpa mayoritas 12% (8–17%)
- Health: 171 klaim, ketidaksepakatan arbitrer 71% (64–78%), ketidaksepakatan substantif 29% (23–36%), tanpa mayoritas 12% (8–17%)
- History: 131 klaim, ketidaksepakatan arbitrer 53% (44–61%), ketidaksepakatan substantif 24% (17–32%), tanpa mayoritas 13% (8–20%)
- Legal: 48 klaim, ketidaksepakatan arbitrer 77% (63–87%), ketidaksepakatan substantif 40% (27–54%), tanpa mayoritas 19% (10–32%)
- Politics: 168 klaim, ketidaksepakatan arbitrer 70% (62–76%), ketidaksepakatan substantif 38% (31–46%), tanpa mayoritas 8% (5–13%)
- Science: 151 klaim, ketidaksepakatan arbitrer 68% (60–75%), ketidaksepakatan substantif 36% (29–44%), tanpa mayoritas 21% (15–28%)
- Tech: 77 klaim, ketidaksepakatan arbitrer 69% (58–78%), ketidaksepakatan substantif 31% (22–42%), tanpa mayoritas 8% (4–16%)
Pembagian bidang mencerminkan pola trafik Lenz, dan bukan hasil pengambilan sampel merata atas semua klaim yang dapat diperiksa faktanya

Kesepakatan menurut bucket penilaian

Panel hampir tidak pernah konvergen ketika mencapai bucket tengah
- Pada penilaian mayoritas Mostly True dan Misleading, tingkat kebulatan suara masing-masing hanya mencapai sekitar maksimal 5%
- Tingkat kebulatan suara untuk penilaian mayoritas True dan False masing-masing adalah 47% dan 43%
Berdasarkan klaim di mana mayoritas ketat 3/5 atau lebih memberikan penilaian tersebut
- True: eligible n=438, kebulatan suara 47% (95% CI 42–51%), mayoritas 3~4 suara 53% (49–58%)
- Mostly True: eligible n=76, kebulatan suara 0% (95% CI 0–5%), mayoritas 3~4 suara 100% (95% CI 95–100%)
- Misleading: eligible n=74, kebulatan suara 5% (95% CI 2–13%), mayoritas 3~4 suara 95% (87–98%)
- False: eligible n=280, kebulatan suara 43% (95% CI 37–49%), mayoritas 3~4 suara 57% (51–63%)
Dari 328 klaim di mana kelima model semuanya memberikan penilaian yang sama, hasilnya juga terkonsentrasi di dua kutub
- True: 204 klaim, 62% dari kebulatan suara (95% CI 57–67%)
- Mostly True: 0 klaim, 0% (95% CI 0–1%)
- Misleading: 4 klaim, 1% (95% CI 0–3%)
- False: 120 klaim, 37% (95% CI 32–42%)
Studi ablasi Llama-3 satu keluarga pada 17.856 klaim PolitiFact, Schwab et al. 2025 juga menunjukkan hasil terkait, yaitu kesalahan model penilaian fact-checking terkonsentrasi pada label yang lebih terperinci

Dataset dan kriteria eksklusi

Objek analisis adalah 1.000 klaim
- Ini adalah klaim terbaru dari permintaan pengguna nyata yang diajukan ke platform fact-checking Lenz yang lolos dari kondisi eksklusi
- Semua klaim dibuat setelah 15 Februari 2026
- Penilaian Lenz sendiri tidak digunakan dalam analisis, dan analisis ini tidak membandingkan Lenz dengan model frontier, melainkan hanya mengukur ketidaksepakatan antarmodel frontier
Field atomic_claim bukanlah teks asli yang dimasukkan pengguna, melainkan proposisi netral dan dapat diverifikasi yang dirapikan melalui tahap framing milik Lenz
- Sebagai contoh, input “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” diubah menjadi proposisi “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”
Klaim yang dikecualikan
- Klaim yang ditandai privat oleh pengirim
- Klaim dari staf platform, akun internal, dan pengajuan agen/API
- Klaim dengan status edit pending atau hidden
- Klaim yang otomatis ditandai pada tahap penyaringan PII Lenz karena memuat informasi pribadi tentang individu yang bukan figur publik
- Klaim duplikat dekat dengan jarak kosinus 0.2 atau kurang antarsesama atomic_claim pada embedding 1536 dimensi OpenAI text-embedding-3-small
- Klaim di mana setidaknya satu dari lima model gagal menghasilkan penilaian yang dapat di-parse bahkan setelah satu kali percobaan ulang
- Klaim yang lebih lama dari 180 hari pada saat pengumpulan
Untuk duplikat dekat, pada proposisi yang bergantung waktu dipilih klaim yang lebih baru sebagai baris representatif; untuk kasus lain dipilih klaim yang sudah ada di Lenz dengan jumlah tayangan tertinggi

Metodologi

Model dan prompt
- Model parametrik: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Model dengan augmentasi pencarian: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Setiap klaim disajikan bersama tanggal acuan “as of YYYY-MM-DD” yang disesuaikan dengan tanggal pengajuan
- Model harus memilih secara paksa salah satu dari True, Mostly True, Misleading, atau False

Classify this claim as of <date>: "<atomic claim>"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.

Opsi abstain tidak disediakan, agar perbandingan antarmodel tetap simetris melalui pilihan paksa
Pengaturan pemanggilan dan penskoran
- Semua model menerima placeholder sistem . yang sama dan template prompt pengguna usr_v2 yang sama
- Skema output terstruktur, skema pemanggilan tool, seed, top-p, dan kontrol logit-bias tidak digunakan
- Jika didukung, digunakan decoding deterministik dengan meminta temperature=0.0
- GPT-5.4 dan Claude Opus 4.7 dipanggil tanpa temperature eksplisit karena adapter penyedia menolak pengaturan temperature kustom
- GPT-5.4, Claude Opus 4.7, dan Sonar Pro dibatasi pada panjang output 16 token, sedangkan Gemini 3 Pro dan Gemini 3 Pro + Search menggunakan batas 1024 token
- Gemini 3 Pro + Search mengaktifkan grounding Google Search, dan Sonar Pro diperlakukan sebagai model dengan augmentasi pencarian melalui search-backed API milik Perplexity
- Setelah normalisasi, output dianggap dapat di-parse hanya jika cocok persis dengan salah satu dari empat label
- LLM judge dan label jawaban referensi tidak digunakan; semua pengukuran berasal dari kecocokan langsung label hasil parse dari lima model
Pemrosesan statistik
- Korpus ini terdiri dari 1.000 klaim eligible terbaru yang diajukan ke satu platform fact-checking, dan bukan sampel probabilistik dari populasi yang lebih luas
- Interval kepercayaan Wilson 95% adalah interval binomial nominal di bawah model bahwa setiap klaim diambil secara independen dari aliran pengajuan eligible serupa yang mengikuti aturan penyaringan yang sama
- Pengajuan klaim di Lenz cenderung menumpuk di sekitar peristiwa berita, dan pengguna yang sama dapat mengajukan beberapa klaim terkait dalam satu sesi, sehingga data ini tidak independen dan tidak terdistribusi identik
- Dalam model klaster yang lebih jujur, variabilitas sampel yang sebenarnya kemungkinan lebih besar daripada interval Wilson
- Uji signifikansi antarmodel tidak dilakukan; tingkat kesepakatan berpasangan dan Wilson 95% CI dilaporkan sebagai statistik deskriptif

Reproduksibilitas dan output publik

Data lengkap per klaim tersedia dalam bentuk CSV
- Setiap baris mencakup claim ID dan URL, teks atomic claim, 5 penilaian frontier, jarak bucket berpasangan maksimum, domain, dan tanggal pembuatan
- Jika pengirim kemudian menghapus klaim atau mengubahnya menjadi privat, beberapa halaman mungkin tidak lagi tersedia
PDF adalah hasil render yang independen dari browser untuk pembacaan offline, sitasi, dan hosting preprint bergaya arXiv
Snapshot ini adalah v1.0 dan tanggal acuan datanya adalah 21 Mei 2026
- URL arsip https://lenz.io/research/llm-disagreement/v1.0 menyediakan snapshot v1.0 secara permanen
- Ini menjaga stabilitas sitasi meskipun URL umum berubah ke versi mendatang
Catatan permanen dan sitasi tersedia di doi.org/10.5281/zenodo.20344847

Keterbatasan

Batas bawah kesalahan berbasis prinsip pigeonhole adalah batas bawah untuk ketidaksesuaian rubrik, bukan penetapan bahwa model tertentu salah secara faktual pada klaim tertentu
- Karena hanya satu dari empat bucket yang bisa benar, setiap ketidaksesuaian berarti setidaknya ada satu penilaian yang tidak konsisten
- Namun, ini tidak menunjukkan model mana yang salah pada klaim mana
Sifat berurutan dari jarak bucket adalah penyederhanaan
- True / Mostly True / Misleading / False diperlakukan sebagai skala urutan dengan jarak yang sama
- Selisih 2 tingkat bisa berasal dari ambiguitas rubrik, perbedaan acuan waktu, atau perbedaan penafsiran atas “Misleading”, dan tidak selalu berarti kesalahan faktual yang lebih besar
Ambiguitas penilaian bukan hanya masalah LLM, tetapi juga sifat dari tugas itu sendiri
- AVeriTeC adalah korpus 4.568 klaim yang melalui peninjauan multi-putaran dengan acuan 50 organisasi pengecekan fakta, dan kesepakatan antar anotator untuk penilaian hanya mencapai κ=0.619
- Sebagian dari ketidaksepakatan model frontier mencerminkan karakteristik label yang memang sulit bahkan bagi evaluator manusia
Snapshot ini terkunci pada tanggal tertentu dan versi model tertentu
- Frontier LLM bersifat nondeterministik, sehingga menjalankan ulang model dan prompt yang sama pun dapat menghasilkan angka yang sedikit berbeda
- Menjalankan ulang dengan model baru atau prompt berbeda dapat mengubah angka lebih besar lagi
Model dengan dukungan pencarian mungkin telah mencari sumber saat inferensi, tetapi apa yang mereka cari tidak dikendalikan atau diaudit

Penelitian sebelumnya dan rencana lanjutan

Yang & Wang (2026) menunjukkan bahwa model frontier papan atas tetap tidak sepakat pada 16~38% butir MMLU-Pro dan GPQA meskipun akurasi totalnya cocok
AVeriTeC disajikan sebagai tolok ukur anotasi manusia yang ketat untuk verifikasi klaim dunia nyata
Untuk korpus pengecekan fakta yang lebih besar, ada 17.856 klaim PolitiFact dalam pengaturan ablation Llama-3 satu keluarga
Korpus Lenz berasal dari kiriman pengguna nyata selama 180 hari terakhir, hanya diindeks di lenz.io, dan belum pernah dipasangkan dengan penilaian standar dalam set pelatihan publik
Penelitian lanjutan akan memberi label manusia pada seluruh korpus yang sama, lalu menggunakan label tersebut sebagai ground truth untuk mengevaluasi 5 model frontier dan penilaian internal Lenz
Tujuannya bukan leaderboard, melainkan menganalisis di mana panel frontier menyimpang dari konsensus manusia, di mana Lenz menyimpang dari keduanya, dan kategori apa yang memicu ketidaksepakatan

Etika dan penggunaan data

Field yang digunakan hanya field klaim publik berupa teks atomic claim dan tanggal pembuatan
- Tidak ada data pribadi yang digunakan
- Klaim privat dan klaim staf dikecualikan
- Model frontier hanya diberi teks klaim dan tanggal acuan, tanpa identitas pengirim atau sinyal analisis
Jika pengirim kemudian memprivatkan atau menghapus klaim, klaim tersebut dapat dihapus dari snapshot dan unduhan berikutnya

Contoh panel frontier yang sangat terpecah

Lampiran menyajikan 20 klaim dengan jarak terbesar antara bucket tertinggi dan terendah
- Ini adalah klaim dengan ketidaksepakatan substantif, di mana penilaian setidaknya satu model berjarak 2 tingkat atau lebih dari model lain
- Diurutkan menurut jarak bucket berpasangan maksimum secara menurun, lalu tie-break dengan mendahulukan kasus tanpa mayoritas, kemudian diurutkan dengan hash stabil dari claim ID
Contoh representatif jarak 3 · tanpa mayoritas
- Klaim bahwa Muthiah Muralidaran mengatakan Indian Premier League adalah bisnis murni, dan pertandingan dengan skor rendah membosankan bagi sponsor sehingga pitch datar disiapkan: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Klaim bahwa per 2025 active portfolio World Bank di Nigeria melebihi 16,4 miliar dolar: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Klaim bahwa orang yang menyukai musik dengan sedikit muatan emosi positif cenderung memiliki kecerdasan lebih tinggi: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- Klaim bahwa hostel di Kota, Rajasthan, lazim menggunakan kipas langit-langit berbentuk sangkar sebagai langkah pencegahan bunuh diri pelajar: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- Klaim bahwa per 6 Mei 2026, Muslim dari berbagai negara berkumpul di distrik Hooghly, West Bengal, India: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True

1 komentar

GN⁺ 2026-05-29

Komentar Hacker News

Prompt yang digunakan adalah sebagai berikut: Classify this claim as of : "" / Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
Daftar klaim ada di https://lenz.io/research/llm-disagreement/data.csv, dan dimasukkan ke Datasette Lite agar mudah dijelajahi. Contoh ketidaksesuaian ada di https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Klaim “semua almond ditanam di negara bagian California, AS” itu salah, tetapi hanya Opus 4.7 yang menjawab “misleading”. Karena memasukkan “mostly true” dan “misleading”, ditambah aturan “tanpa penjelasan”, kekuatan argumennya jadi melemah
Contoh yang lebih baik, pada pernyataan “permohonan visa Mesir yang tidak lengkap adalah salah satu alasan paling umum penolakan permohonan visa Mesir”, model terbelah antara “true” dan “mostly true”, padahal secara makna frasa “among the most” pada dasarnya membuat keduanya setara
Contoh yang lebih menentukan, untuk pernyataan “pada 18 Mei 2026 Ukraina melancarkan serangan drone ke Moskow, Rusia”, tanpa alat pencarian satu-satunya jawaban yang benar hanyalah “tidak dapat diverifikasi”, tetapi opsi itu tidak tersedia dan jawaban pun terbelah true/false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
- Jika setiap evaluator tidak diberi definisi True / Mostly True / Misleading / False, maka saya akan menilai klaim tulisan ini sendiri—bahwa “untuk satu klaim hanya ada satu kategori jawaban benar”—sebagai false
  Beberapa klaim bisa sekaligus “misleading” dan true atau false. Juga tidak jelas klaim yang “sebagian besar salah” seharusnya masuk kategori yang mana
  Tidak ada patokan seberapa salah suatu klaim hingga berpindah dari “mostly true” ke “false”. Pada akhirnya ini bukan hanya menguji pemahaman fakta, tetapi juga bagaimana model mendefinisikan mostly dan misleading, jadi berlebihan jika dikatakan model-model itu secara mendasar tidak sepakat tentang faktanya sendiri
- Kesalahan fatal lainnya adalah tidak mencoba mengukur varian internal model
  Jika evaluasi ketat benar-benar dihubungkan ke sistem nyata, maka pada pemanggilan alat seperti pencarian web akan ikut masuk masalah infrastruktur, kegagalan sementara, dan berbagai bentuk nondeterminisme
  Seharusnya angka untuk 3 model tanpa pencarian dan agen pencarian dipisahkan. Untuk klaim faktual terbaru setelah cutoff pengetahuan, model tanpa pencarian pada dasarnya kurang bermakna, dan karena tidak ada opsi “tidak tahu”, hasilnya nyaris sepenuhnya tidak valid. Model tidak tahu, tetapi juga tidak bisa mengatakannya, jadi hanya menebak jawaban yang terdengar masuk akal
  Saya juga setuju bahwa pilihan paksa dan variasi “lemah/kuat” membesar-besarkan angka di judul. Untuk membuat pembedaan seperti ini, dibutuhkan prompt yang jauh lebih ketat, dan kemungkinan besar juga perlu contoh in-context (ICL) agar arti “mostly” tidak diserahkan ke model
- Jika “mayoritas” menurut Wikipedia berarti sekitar 51%[1], saya tidak paham bagaimana 51% bisa dianggap cukup dekat dengan “semua” sehingga “misleading” menjadi jawaban yang valid
  Saya penasaran apakah ada sesuatu yang saya lewatkan
  [1]: https://en.wikipedia.org/wiki/Almond#Production
- Saya memang merasa Opus 4.7 lebih sering memberi jawaban yang lebih berhati-hati dibanding model lain, dan ternyata memang benar
  claude-opus-4-7 adalah 451 dari 1000, atau 45.1%; sonar-pro 39.1%; gpt-5.4 27.7%; gemini-3-retrieval 12.9%; dan gemini-3-pro 6.0%

Kueri Datasette ada di sini: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

Jika Anda akan memakai LLM seperti orakel, saya tidak menganggap prompt ini tidak masuk akal. LLM dijual seolah-olah seperti jenius, dan orang-orang juga memperlakukannya demikian, terutama karena AI dalam fiksi ilmiah sering digambarkan sebagai entitas yang terlalu akurat
Jika ini adalah alat sempurna dengan “kecerdasan setingkat jenius”, maka seharusnya ia menjawab dengan benar

Untuk klaim “kehidupan alien ada di suatu tempat di alam semesta”, GPT-5.4 dan Opus 4.7 menjawab Misleading, sedangkan Gemini 3, Gemini 3 (Retrieval), dan Sonar Pro menjawab FALSE
Ini klaim fakta yang aneh. Jawaban yang benar sebenarnya adalah tidak ada yang tahu pasti, tetapi opsi itu tidak tersedia
- Lebih aneh lagi jika dikatakan bahwa ketidaksesuaian ini menunjukkan adanya masalah. Jika 5 manusia yang sangat paham topik ini diminta memilih jawaban benar dari pilihan ganda, kemungkinan besar perbedaan jawabannya akan jauh lebih besar daripada 5 LLM ini
  Bukan berarti halusinasi bukan masalah, tetapi ini cara yang buruk sekali untuk mengujinya
- Dari pilihan yang tersedia, “Misleading” mungkin yang terbaik. Karena ini menyajikan sesuatu yang belum terbukti tetapi sangat masuk akal seolah-olah itu fakta
  Namun seharusnya ada kategori unknown atau undecidable
- Pola seperti ini terus muncul, dan sebagai benchmark ini tampak sangat lemah. Sama sekali bukan jenis klaim yang saya harapkan
- Kalau begitu, bukankah misleading memang pilihan yang tepat di sini?
- Saya tidak mengerti bagaimana “misleading” bisa menggantikan “unknown”\n
Bagian yang menyebut “ini bukan item benchmark dengan kunci jawaban publik, melainkan klaim yang benar-benar diminta pengguna untuk diverifikasi di platform fact-checking” itu bagus
Namun, saya tidak tahu seberapa bermakna ini kecuali para penulis menjelaskan dengan tepat seberapa banyak mereka memakai LLM untuk menulis dan menyusun laporan itu sendiri. Bahkan ada seksi “11. Ethics & data use” dan membahas hal yang mirip dengan sifat tak-mungkin-salah pada LLM, tetapi tidak pernah sekali pun disebut apakah LLM dipakai dalam pembuatan laporan
- Pengumpulan dan pemrosesan data dilakukan secara manual, dan LLM membantu penulisan draf awal laporan. Sebelum diterbitkan, semuanya ditinjau oleh manusia
Sepertinya kita semua bisa sepakat bahwa eksperimen ini cacat dalam banyak hal itu TRUE
Meski begitu, ini latihan yang sangat bagus untuk menemukan kesalahan umum yang dilakukan orang saat memakai LLM. Sepertinya cocok jadi pertanyaan wawancara kerja untuk peran prompt engineering
Model-model ini makin hari makin manusiawi
- Akhir-akhir ini banyak manusia juga tidak bisa sepakat soal apa yang benar. Rasanya makin buruk, dan saya tidak tahu apa solusinya
Karena hukum Goodhart, “benchmark” ini akan menjadi tidak bermakna dalam beberapa hari, atau paling lama beberapa minggu
Ini akan diserap kembali ke dalam pelatihan dan tampak seolah-olah sudah “dipecahkan”, tetapi bukan karena penalaran benar-benar muncul, melainkan karena sorotan pada “masalah” baru meningkatkan kemungkinan jawaban yang secara statistik tampak benar. Setelah itu, orang akan ribut menyebutnya “kemajuan” besar yang “mengubah segalanya”
Tambahan lagi, saya mungkin punya atau mungkin tidak punya gelar dalam strategi perusahaan dan PR
- Efek seperti itu memang ada, tetapi bukan pukulan telak. Ada juga banyak benchmark tertutup berbasis traffic produk nyata, dan ada masalah publik yang tidak terkontaminasi
  Orang-orang di lab riset umumnya tahu apa yang mereka lakukan, dan bukan tidak sadar akan masalah seperti ini
- Bukankah kecerdasan manusia juga sama? Bahkan di antara orang-orang pintar yang saya kenal, banyak yang punya keyakinan yang tampaknya tidak memiliki nilai kebenaran yang jelas
Saya tidak tahu kenapa Grok dikecualikan. Karena perbedaan filosofis dalam cara Grok dilatih sudah dipublikasikan, itu bisa jadi titik data yang menarik
Kita bisa berdebat seharian tentang perbedaan itu, tetapi sayang kesempatan untuk mengamatinya secara objektif terlewatkan
- Judulnya memakai kata “Frontier”, jadi Grok memang akan dikecualikan
  Grok dilatih agar memiliki bias yang disukai banyak orang, tetapi bukan model yang dimaksudkan untuk akurat
- Setuju. Akan menarik melihat seberapa jauh Grok tampil lebih buruk
Saya tidak tahu apa yang ditunjukkan ini yang belum kita ketahui. LLM tidak bisa memberi jawaban akurat untuk pertanyaan tentang data yang tidak ada di set pelatihannya
Rasanya tidak banyak isi di sini
- LLM juga bisa memberi jawaban tidak akurat untuk pertanyaan tentang data yang memang ada di set pelatihannya, dan itu memang sifat dasar jaringan saraf. Hanya saja kemungkinannya lebih besar saat datanya tidak ada di set pelatihan
- Sayangnya, kebanyakan orang tidak tahu ini dan memperlakukan LLM seperti otak superbertenaga yang tahu segalanya dan bisa melakukan segalanya
- Kalau begitu, ini menunjukkan bahwa model-model ini memakai set pelatihan yang sangat berbeda, dan menunjukkan kepercayaan diri tinggi bahkan saat seharusnya mereka tidak yakin
  Untuk pertanyaan seperti “apakah obat kumur efektif”, tampaknya setidaknya akan ada satu sumber data yang solid berupa jurnal medis
- Dengan senang hati ia akan mencarikan untuk Anda dan memberi komentar teratas Reddit sebagai jawaban
  Itu lebih buruk
Saya tidak paham kenapa semua orang begitu terobsesi membuat LLM melakukan fact-checking
Teknologi ini memang bukan untuk itu. Dalam situasi tertentu mungkin bisa lumayan berfungsi, tetapi itu tidak menjadikannya alat yang cocok
Ini seperti membeli kulkas untuk menyimpan pakaian
- Nietzsche mungkin akan berkata bahwa ini bukan ilusi tentang kebenaran, melainkan ilusi tentang kenyamanan
  Manusia terakhir menginginkan mesin yang akan berkata “secara faktual salah” atau “secara faktual benar”. Karena mereka ingin membuat jurang ketiadaan kebenaran mutlak cukup kecil agar bisa tertidur di sisinya
- Orang bertanya untuk mendapatkan jawaban. Secara pribadi, itu terasa cukup penting. Terutama ketika mesin pencari mulai mendorong jawaban LLM, itu jadi lebih penting lagi
- Tetapi orang memang benar-benar memakainya seperti itu. Jadi apa intinya?
Saya membuat ini untuk 100% pemeriksaan fakta lokal di CPU: https://news.ycombinator.com/item?id=48301003
- Tidak ada paper, benchmark, bahkan README yang ditulis manusia pun tidak ada, jadi kenapa saya harus percaya ini?

Ketidaksepakatan antar LLM frontier dalam pengecekan fakta nyata

Seberapa sering penilaian berbeda pada klaim nyata

Perbedaan nuansa dan ketidaksepakatan substantif

Tingkat kecocokan antar model

Kecenderungan penilaian per model

Distribusi penilaian

Kecocokan dengan mayoritas panel lainnya

Ketidaksepakatan menurut bidang

Kesepakatan menurut bucket penilaian

Dataset dan kriteria eksklusi

Metodologi

Model dan prompt

Pengaturan pemanggilan dan penskoran

Pemrosesan statistik

Reproduksibilitas dan output publik

Keterbatasan

Penelitian sebelumnya dan rencana lanjutan

Etika dan penggunaan data

Contoh panel frontier yang sangat terpecah

Bacaan terkait

1 komentar

Komentar Hacker News