- 5 LLM frontier menunjukkan perbedaan penilaian pada 67% dari 1.000 klaim yang diajukan pengguna nyata, dan hanya 33% kasus di mana kelimanya sepakat
- Penilaian mayoritas bukan label jawaban benar, melainkan tolok ukur untuk mengukur ketidaksepakatan; pada 67% kasus yang tidak bulat, setidaknya 1 model pasti salah
- Dalam rubrik 4 tingkat, ketidaksepakatan substantif dengan selisih 2 tingkat atau lebih mencapai 34%, dan polarisasi ekstrem antara True dan False juga muncul sebesar 21%
- Tingkat kecocokan label antar pasangan model berada di kisaran 53~75%, dengan kecocokan tertinggi pada Gemini 3 Pro dan versi Search yang memakai model dasar yang sama
- Data diambil dari klaim nyata terbaru milik Lenz dan diukur tanpa label jawaban benar maupun LLM grader, sehingga menyoroti ketidakstabilan struktur penilaian alih-alih akurasi
Seberapa sering penilaian berbeda pada klaim nyata
- Dari 1.000 klaim yang dianalisis, pada 672 klaim, 67% (95% CI 64–70%) penilaian dari 5 model frontier tidak sama
- Klaim yang mendapat penilaian sama dari kelima model berjumlah 328, atau 33% (95% CI 30–36%)
- Klaim dengan hanya 1 model yang memberi penilaian berbeda berjumlah 224, atau 22% (95% CI 20–25%)
- Klaim dengan 2 model yang memberi penilaian berbeda berjumlah 316, atau 32% (95% CI 29–35%)
- Perpecahan seperti 2-2-1 atau 2-1-1-1, yang tidak membentuk mayoritas ketat, berjumlah 132, atau 13% (95% CI 11–15%)
- Kasus di mana setidaknya 2 model memberi penilaian berbeda berjumlah 448, atau 45% (95% CI 42–48%)
- Penilaian mayoritas adalah kriteria struktural untuk menghitung ketidaksepakatan, bukan proksi akurasi
- Penilaian mayoritas bisa saja salah, dan model yang berada di pihak minoritas bisa saja benar
- Jika diasumsikan hanya satu dari empat bucket penilaian yang benar, maka pada 67% klaim yang tidak bulat, setidaknya 1 model salah
- Pada 45% kasus yang mencakup perpecahan 3-2, 3-1-1, dan tanpa mayoritas, setidaknya 2 model salah
- Pada 13% kasus tanpa mayoritas, tidak ada bucket yang mencapai 3 suara, sehingga setidaknya 3 model salah
- Bahkan dalam 33% kasus di mana kelima model sepakat, tetap bisa ada blind spot yang sama-sama dimiliki
- Tingkat konsensus panel adalah Krippendorff’s α(ordinal)=0.639
- Penilaian model tidak bisa dibilang mendekati acak, tetapi juga tidak cukup konsisten untuk menganggap 5 model itu sebagai penilai yang saling dapat dipertukarkan
- Karena True / Mostly True / Misleading / False adalah kategori berurutan, digunakan α ordinal
Perbedaan nuansa dan ketidaksepakatan substantif
- Dari 1.000 klaim, pada 343 klaim, 34% (95% CI 31–37%) setidaknya dua model memiliki selisih penilaian 2 tingkat atau lebih dalam rubrik 4 tingkat
- Perbedaan antara True dan Mostly True diperlakukan sebagai perbedaan nuansa yang lebih dekat ke penyesuaian tingkat keyakinan
- Perbedaan antara True dan False diperlakukan sebagai ketidaksepakatan substantif di mana jawaban dasarnya memang berbeda
- Pengukuran dihitung berdasarkan jarak bucket berpasangan maksimum dari 5 penilaian
- Urutan penilaian adalah
True (0) → Mostly True (1) → Misleading (2) → False (3)
- Jarak 0 mencakup 328 klaim, atau 33% (95% CI 30–36%), yaitu saat kelima model memilih bucket yang sama
- Jarak 1 mencakup 329 klaim, atau 33% (95% CI 30–36%), yang sesuai dengan perbedaan nuansa seperti True ↔ Mostly True
- Jarak 2 mencakup 132 klaim, atau 13% (95% CI 11–15%), yaitu ketidaksepakatan substantif seperti True ↔ Misleading atau Mostly True ↔ False
- Jarak 3 mencakup 211 klaim, atau 21% (95% CI 19–24%), yaitu polarisasi ekstrem antara True ↔ False
- Jarak bucket bukan ukuran presisi dari besar kesalahan, melainkan indikator kasar
- Ada penyederhanaan dengan menganggap True / Mostly True / Misleading / False sebagai skala berurutan dengan jarak yang sama
- Selisih 2 tingkat juga bisa muncul karena ambiguitas rubrik, perbedaan acuan waktu, atau perbedaan interpretasi terhadap “Misleading”
Tingkat kecocokan antar model
- Tingkat kecocokan label antar 5 pasangan model berada dalam rentang 53%~75%
- Tingkat kecocokan tertinggi adalah Gemini 3 Pro × Gemini 3 Pro + Search sebesar 75% (95% CI 72–77%), dan keduanya berbagi model dasar yang sama
- Tingkat kecocokan terendah adalah 53% (95% CI 50–56%), muncul pada tiga pasangan
- Tingkat kecocokan utama per pasangan
- GPT-5.4 × Claude Opus 4.7: 65% (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65% (95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60% (95% CI 57–63%)
- GPT-5.4 × Sonar Pro: 60% (95% CI 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53% (95% CI 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53% (95% CI 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58% (95% CI 55–61%)
- Gemini 3 Pro × Sonar Pro: 53% (95% CI 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58% (95% CI 55–61%)
Kecenderungan penilaian per model
-
Distribusi penilaian
- Tiap model berbeda dalam seberapa besar mereka terkonsentrasi pada dua kutub True/False dan seberapa sering mereka memakai bucket tengah Mostly True/Misleading
- Karena tidak ada label jawaban benar, pengaruh kecenderungan awal model dan karakteristik klaim tidak bisa dipisahkan
- GPT-5.4: True 42% (95% CI 39–45%), Mostly True 16% (14–19%), Misleading 12% (10–14%), False 30% (28–33%)
- Claude Opus 4.7: True 38% (35–41%), Mostly True 26% (23–29%), Misleading 19% (17–22%), False 17% (15–20%)
- Gemini 3 Pro: True 54% (51–57%), Mostly True 3% (2–4%), Misleading 3% (2–4%), False 40% (37–43%)
- Gemini 3 Pro + Search: True 52% (49–55%), Mostly True 4% (3–5%), Misleading 9% (7–11%), False 35% (32–38%)
- Sonar Pro: True 35% (32–38%), Mostly True 23% (21–26%), Misleading 16% (14–18%), False 26% (23–28%)
-
Kecocokan dengan mayoritas panel lainnya
- Rasio setiap model memberikan penilaian yang sama dengan mayoritas ketat yang dibentuk oleh setidaknya 3 dari 4 model lainnya berada pada kisaran 69%~81%
- Nilai ini adalah tingkat keselarasan dengan rekan model pada korpus tersebut, bukan akurasi
- Perhitungan hanya mencakup klaim di mana 4 model lainnya membentuk mayoritas 3/4 atau lebih, sehingga eligible n tiap model berbeda
- GPT-5.4: 81% (95% CI 78–84%), eligible n=650, ineligible=350
- Claude Opus 4.7: 70% (95% CI 67–74%), eligible n=691, ineligible=309
- Gemini 3 Pro: 77% (95% CI 74–80%), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: 76% (95% CI 73–79%), eligible n=693, ineligible=307
- Sonar Pro: 69% (95% CI 66–73%), eligible n=675, ineligible=325
Ketidaksepakatan menurut bidang
- Penyebut per bidang adalah jumlah klaim dalam bidang tersebut, dan di sebagian besar bidang, tingkat ketidaksepakatan jauh melebihi setengah
- Finance: 75 klaim, ketidaksepakatan arbitrer 67% (95% CI 55–76%), ketidaksepakatan substantif 39% (28–50%), tanpa mayoritas 20% (13–30%)
- General: 179 klaim, ketidaksepakatan arbitrer 68% (60–74%), ketidaksepakatan substantif 40% (33–48%), tanpa mayoritas 12% (8–17%)
- Health: 171 klaim, ketidaksepakatan arbitrer 71% (64–78%), ketidaksepakatan substantif 29% (23–36%), tanpa mayoritas 12% (8–17%)
- History: 131 klaim, ketidaksepakatan arbitrer 53% (44–61%), ketidaksepakatan substantif 24% (17–32%), tanpa mayoritas 13% (8–20%)
- Legal: 48 klaim, ketidaksepakatan arbitrer 77% (63–87%), ketidaksepakatan substantif 40% (27–54%), tanpa mayoritas 19% (10–32%)
- Politics: 168 klaim, ketidaksepakatan arbitrer 70% (62–76%), ketidaksepakatan substantif 38% (31–46%), tanpa mayoritas 8% (5–13%)
- Science: 151 klaim, ketidaksepakatan arbitrer 68% (60–75%), ketidaksepakatan substantif 36% (29–44%), tanpa mayoritas 21% (15–28%)
- Tech: 77 klaim, ketidaksepakatan arbitrer 69% (58–78%), ketidaksepakatan substantif 31% (22–42%), tanpa mayoritas 8% (4–16%)
- Pembagian bidang mencerminkan pola trafik Lenz, dan bukan hasil pengambilan sampel merata atas semua klaim yang dapat diperiksa faktanya
Kesepakatan menurut bucket penilaian
- Panel hampir tidak pernah konvergen ketika mencapai bucket tengah
- Pada penilaian mayoritas Mostly True dan Misleading, tingkat kebulatan suara masing-masing hanya mencapai sekitar maksimal 5%
- Tingkat kebulatan suara untuk penilaian mayoritas True dan False masing-masing adalah 47% dan 43%
- Berdasarkan klaim di mana mayoritas ketat 3/5 atau lebih memberikan penilaian tersebut
- True: eligible n=438, kebulatan suara 47% (95% CI 42–51%), mayoritas 3~4 suara 53% (49–58%)
- Mostly True: eligible n=76, kebulatan suara 0% (95% CI 0–5%), mayoritas 3~4 suara 100% (95% CI 95–100%)
- Misleading: eligible n=74, kebulatan suara 5% (95% CI 2–13%), mayoritas 3~4 suara 95% (87–98%)
- False: eligible n=280, kebulatan suara 43% (95% CI 37–49%), mayoritas 3~4 suara 57% (51–63%)
- Dari 328 klaim di mana kelima model semuanya memberikan penilaian yang sama, hasilnya juga terkonsentrasi di dua kutub
- True: 204 klaim, 62% dari kebulatan suara (95% CI 57–67%)
- Mostly True: 0 klaim, 0% (95% CI 0–1%)
- Misleading: 4 klaim, 1% (95% CI 0–3%)
- False: 120 klaim, 37% (95% CI 32–42%)
- Studi ablasi Llama-3 satu keluarga pada 17.856 klaim PolitiFact, Schwab et al. 2025 juga menunjukkan hasil terkait, yaitu kesalahan model penilaian fact-checking terkonsentrasi pada label yang lebih terperinci
Dataset dan kriteria eksklusi
- Objek analisis adalah 1.000 klaim
- Ini adalah klaim terbaru dari permintaan pengguna nyata yang diajukan ke platform fact-checking Lenz yang lolos dari kondisi eksklusi
- Semua klaim dibuat setelah 15 Februari 2026
- Penilaian Lenz sendiri tidak digunakan dalam analisis, dan analisis ini tidak membandingkan Lenz dengan model frontier, melainkan hanya mengukur ketidaksepakatan antarmodel frontier
- Field
atomic_claim bukanlah teks asli yang dimasukkan pengguna, melainkan proposisi netral dan dapat diverifikasi yang dirapikan melalui tahap framing milik Lenz
- Sebagai contoh, input “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” diubah menjadi proposisi “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”
- Klaim yang dikecualikan
- Klaim yang ditandai privat oleh pengirim
- Klaim dari staf platform, akun internal, dan pengajuan agen/API
- Klaim dengan status edit
pending atau hidden
- Klaim yang otomatis ditandai pada tahap penyaringan PII Lenz karena memuat informasi pribadi tentang individu yang bukan figur publik
- Klaim duplikat dekat dengan jarak kosinus
0.2 atau kurang antarsesama atomic_claim pada embedding 1536 dimensi OpenAI text-embedding-3-small
- Klaim di mana setidaknya satu dari lima model gagal menghasilkan penilaian yang dapat di-parse bahkan setelah satu kali percobaan ulang
- Klaim yang lebih lama dari 180 hari pada saat pengumpulan
- Untuk duplikat dekat, pada proposisi yang bergantung waktu dipilih klaim yang lebih baru sebagai baris representatif; untuk kasus lain dipilih klaim yang sudah ada di Lenz dengan jumlah tayangan tertinggi
Metodologi
-
Model dan prompt
- Model parametrik: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Model dengan augmentasi pencarian: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Setiap klaim disajikan bersama tanggal acuan “as of YYYY-MM-DD” yang disesuaikan dengan tanggal pengajuan
- Model harus memilih secara paksa salah satu dari
True, Mostly True, Misleading, atau False
Classify this claim as of <date>: "<atomic claim>"
Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.
- Opsi abstain tidak disediakan, agar perbandingan antarmodel tetap simetris melalui pilihan paksa
-
Pengaturan pemanggilan dan penskoran
- Semua model menerima placeholder sistem
. yang sama dan template prompt pengguna usr_v2 yang sama
- Skema output terstruktur, skema pemanggilan tool, seed, top-p, dan kontrol logit-bias tidak digunakan
- Jika didukung, digunakan decoding deterministik dengan meminta
temperature=0.0
- GPT-5.4 dan Claude Opus 4.7 dipanggil tanpa temperature eksplisit karena adapter penyedia menolak pengaturan temperature kustom
- GPT-5.4, Claude Opus 4.7, dan Sonar Pro dibatasi pada panjang output 16 token, sedangkan Gemini 3 Pro dan Gemini 3 Pro + Search menggunakan batas 1024 token
- Gemini 3 Pro + Search mengaktifkan grounding Google Search, dan Sonar Pro diperlakukan sebagai model dengan augmentasi pencarian melalui search-backed API milik Perplexity
- Setelah normalisasi, output dianggap dapat di-parse hanya jika cocok persis dengan salah satu dari empat label
- LLM judge dan label jawaban referensi tidak digunakan; semua pengukuran berasal dari kecocokan langsung label hasil parse dari lima model
-
Pemrosesan statistik
- Korpus ini terdiri dari 1.000 klaim eligible terbaru yang diajukan ke satu platform fact-checking, dan bukan sampel probabilistik dari populasi yang lebih luas
- Interval kepercayaan Wilson 95% adalah interval binomial nominal di bawah model bahwa setiap klaim diambil secara independen dari aliran pengajuan eligible serupa yang mengikuti aturan penyaringan yang sama
- Pengajuan klaim di Lenz cenderung menumpuk di sekitar peristiwa berita, dan pengguna yang sama dapat mengajukan beberapa klaim terkait dalam satu sesi, sehingga data ini tidak independen dan tidak terdistribusi identik
- Dalam model klaster yang lebih jujur, variabilitas sampel yang sebenarnya kemungkinan lebih besar daripada interval Wilson
- Uji signifikansi antarmodel tidak dilakukan; tingkat kesepakatan berpasangan dan Wilson 95% CI dilaporkan sebagai statistik deskriptif
Reproduksibilitas dan output publik
- Data lengkap per klaim tersedia dalam bentuk CSV
- Setiap baris mencakup claim ID dan URL, teks atomic claim, 5 penilaian frontier, jarak bucket berpasangan maksimum, domain, dan tanggal pembuatan
- Jika pengirim kemudian menghapus klaim atau mengubahnya menjadi privat, beberapa halaman mungkin tidak lagi tersedia
- PDF adalah hasil render yang independen dari browser untuk pembacaan offline, sitasi, dan hosting preprint bergaya arXiv
- Snapshot ini adalah v1.0 dan tanggal acuan datanya adalah 21 Mei 2026
- Catatan permanen dan sitasi tersedia di doi.org/10.5281/zenodo.20344847
Keterbatasan
- Batas bawah kesalahan berbasis prinsip pigeonhole adalah batas bawah untuk ketidaksesuaian rubrik, bukan penetapan bahwa model tertentu salah secara faktual pada klaim tertentu
- Karena hanya satu dari empat bucket yang bisa benar, setiap ketidaksesuaian berarti setidaknya ada satu penilaian yang tidak konsisten
- Namun, ini tidak menunjukkan model mana yang salah pada klaim mana
- Sifat berurutan dari jarak bucket adalah penyederhanaan
- True / Mostly True / Misleading / False diperlakukan sebagai skala urutan dengan jarak yang sama
- Selisih 2 tingkat bisa berasal dari ambiguitas rubrik, perbedaan acuan waktu, atau perbedaan penafsiran atas “Misleading”, dan tidak selalu berarti kesalahan faktual yang lebih besar
- Ambiguitas penilaian bukan hanya masalah LLM, tetapi juga sifat dari tugas itu sendiri
- AVeriTeC adalah korpus 4.568 klaim yang melalui peninjauan multi-putaran dengan acuan 50 organisasi pengecekan fakta, dan kesepakatan antar anotator untuk penilaian hanya mencapai κ=0.619
- Sebagian dari ketidaksepakatan model frontier mencerminkan karakteristik label yang memang sulit bahkan bagi evaluator manusia
- Snapshot ini terkunci pada tanggal tertentu dan versi model tertentu
- Frontier LLM bersifat nondeterministik, sehingga menjalankan ulang model dan prompt yang sama pun dapat menghasilkan angka yang sedikit berbeda
- Menjalankan ulang dengan model baru atau prompt berbeda dapat mengubah angka lebih besar lagi
- Model dengan dukungan pencarian mungkin telah mencari sumber saat inferensi, tetapi apa yang mereka cari tidak dikendalikan atau diaudit
Penelitian sebelumnya dan rencana lanjutan
- Yang & Wang (2026) menunjukkan bahwa model frontier papan atas tetap tidak sepakat pada 16~38% butir MMLU-Pro dan GPQA meskipun akurasi totalnya cocok
- AVeriTeC disajikan sebagai tolok ukur anotasi manusia yang ketat untuk verifikasi klaim dunia nyata
- Untuk korpus pengecekan fakta yang lebih besar, ada 17.856 klaim PolitiFact dalam pengaturan ablation Llama-3 satu keluarga
- Korpus Lenz berasal dari kiriman pengguna nyata selama 180 hari terakhir, hanya diindeks di lenz.io, dan belum pernah dipasangkan dengan penilaian standar dalam set pelatihan publik
- Penelitian lanjutan akan memberi label manusia pada seluruh korpus yang sama, lalu menggunakan label tersebut sebagai ground truth untuk mengevaluasi 5 model frontier dan penilaian internal Lenz
- Tujuannya bukan leaderboard, melainkan menganalisis di mana panel frontier menyimpang dari konsensus manusia, di mana Lenz menyimpang dari keduanya, dan kategori apa yang memicu ketidaksepakatan
Etika dan penggunaan data
- Field yang digunakan hanya field klaim publik berupa teks atomic claim dan tanggal pembuatan
- Tidak ada data pribadi yang digunakan
- Klaim privat dan klaim staf dikecualikan
- Model frontier hanya diberi teks klaim dan tanggal acuan, tanpa identitas pengirim atau sinyal analisis
- Jika pengirim kemudian memprivatkan atau menghapus klaim, klaim tersebut dapat dihapus dari snapshot dan unduhan berikutnya
Contoh panel frontier yang sangat terpecah
- Lampiran menyajikan 20 klaim dengan jarak terbesar antara bucket tertinggi dan terendah
- Ini adalah klaim dengan ketidaksepakatan substantif, di mana penilaian setidaknya satu model berjarak 2 tingkat atau lebih dari model lain
- Diurutkan menurut jarak bucket berpasangan maksimum secara menurun, lalu tie-break dengan mendahulukan kasus tanpa mayoritas, kemudian diurutkan dengan hash stabil dari claim ID
- Contoh representatif jarak 3 · tanpa mayoritas
- Klaim bahwa Muthiah Muralidaran mengatakan Indian Premier League adalah bisnis murni, dan pertandingan dengan skor rendah membosankan bagi sponsor sehingga pitch datar disiapkan: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Klaim bahwa per 2025 active portfolio World Bank di Nigeria melebihi 16,4 miliar dolar: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Klaim bahwa orang yang menyukai musik dengan sedikit muatan emosi positif cenderung memiliki kecerdasan lebih tinggi: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- Klaim bahwa hostel di Kota, Rajasthan, lazim menggunakan kipas langit-langit berbentuk sangkar sebagai langkah pencegahan bunuh diri pelajar: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- Klaim bahwa per 6 Mei 2026, Muslim dari berbagai negara berkumpul di distrik Hooghly, West Bengal, India: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True
1 komentar
Komentar Hacker News
Classify this claim as of : ""/Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.Daftar klaim ada di https://lenz.io/research/llm-disagreement/data.csv, dan dimasukkan ke Datasette Lite agar mudah dijelajahi. Contoh ketidaksesuaian ada di https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Klaim “semua almond ditanam di negara bagian California, AS” itu salah, tetapi hanya Opus 4.7 yang menjawab “misleading”. Karena memasukkan “mostly true” dan “misleading”, ditambah aturan “tanpa penjelasan”, kekuatan argumennya jadi melemah
Contoh yang lebih baik, pada pernyataan “permohonan visa Mesir yang tidak lengkap adalah salah satu alasan paling umum penolakan permohonan visa Mesir”, model terbelah antara “true” dan “mostly true”, padahal secara makna frasa “among the most” pada dasarnya membuat keduanya setara
Contoh yang lebih menentukan, untuk pernyataan “pada 18 Mei 2026 Ukraina melancarkan serangan drone ke Moskow, Rusia”, tanpa alat pencarian satu-satunya jawaban yang benar hanyalah “tidak dapat diverifikasi”, tetapi opsi itu tidak tersedia dan jawaban pun terbelah true/false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Beberapa klaim bisa sekaligus “misleading” dan true atau false. Juga tidak jelas klaim yang “sebagian besar salah” seharusnya masuk kategori yang mana
Tidak ada patokan seberapa salah suatu klaim hingga berpindah dari “mostly true” ke “false”. Pada akhirnya ini bukan hanya menguji pemahaman fakta, tetapi juga bagaimana model mendefinisikan mostly dan misleading, jadi berlebihan jika dikatakan model-model itu secara mendasar tidak sepakat tentang faktanya sendiri
Jika evaluasi ketat benar-benar dihubungkan ke sistem nyata, maka pada pemanggilan alat seperti pencarian web akan ikut masuk masalah infrastruktur, kegagalan sementara, dan berbagai bentuk nondeterminisme
Seharusnya angka untuk 3 model tanpa pencarian dan agen pencarian dipisahkan. Untuk klaim faktual terbaru setelah cutoff pengetahuan, model tanpa pencarian pada dasarnya kurang bermakna, dan karena tidak ada opsi “tidak tahu”, hasilnya nyaris sepenuhnya tidak valid. Model tidak tahu, tetapi juga tidak bisa mengatakannya, jadi hanya menebak jawaban yang terdengar masuk akal
Saya juga setuju bahwa pilihan paksa dan variasi “lemah/kuat” membesar-besarkan angka di judul. Untuk membuat pembedaan seperti ini, dibutuhkan prompt yang jauh lebih ketat, dan kemungkinan besar juga perlu contoh in-context (ICL) agar arti “mostly” tidak diserahkan ke model
Saya penasaran apakah ada sesuatu yang saya lewatkan
[1]: https://en.wikipedia.org/wiki/Almond#Production
claude-opus-4-7adalah 451 dari 1000, atau 45.1%;sonar-pro39.1%;gpt-5.427.7%;gemini-3-retrieval12.9%; dangemini-3-pro6.0%Kueri Datasette ada di sini: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Jika ini adalah alat sempurna dengan “kecerdasan setingkat jenius”, maka seharusnya ia menjawab dengan benar
Untuk klaim “kehidupan alien ada di suatu tempat di alam semesta”, GPT-5.4 dan Opus 4.7 menjawab Misleading, sedangkan Gemini 3, Gemini 3 (Retrieval), dan Sonar Pro menjawab FALSE
Ini klaim fakta yang aneh. Jawaban yang benar sebenarnya adalah tidak ada yang tahu pasti, tetapi opsi itu tidak tersedia
Bukan berarti halusinasi bukan masalah, tetapi ini cara yang buruk sekali untuk mengujinya
Namun seharusnya ada kategori unknown atau undecidable
Bagian yang menyebut “ini bukan item benchmark dengan kunci jawaban publik, melainkan klaim yang benar-benar diminta pengguna untuk diverifikasi di platform fact-checking” itu bagus
Namun, saya tidak tahu seberapa bermakna ini kecuali para penulis menjelaskan dengan tepat seberapa banyak mereka memakai LLM untuk menulis dan menyusun laporan itu sendiri. Bahkan ada seksi “11. Ethics & data use” dan membahas hal yang mirip dengan sifat tak-mungkin-salah pada LLM, tetapi tidak pernah sekali pun disebut apakah LLM dipakai dalam pembuatan laporan
Sepertinya kita semua bisa sepakat bahwa eksperimen ini cacat dalam banyak hal itu TRUE
Meski begitu, ini latihan yang sangat bagus untuk menemukan kesalahan umum yang dilakukan orang saat memakai LLM. Sepertinya cocok jadi pertanyaan wawancara kerja untuk peran prompt engineering
Model-model ini makin hari makin manusiawi
Karena hukum Goodhart, “benchmark” ini akan menjadi tidak bermakna dalam beberapa hari, atau paling lama beberapa minggu
Ini akan diserap kembali ke dalam pelatihan dan tampak seolah-olah sudah “dipecahkan”, tetapi bukan karena penalaran benar-benar muncul, melainkan karena sorotan pada “masalah” baru meningkatkan kemungkinan jawaban yang secara statistik tampak benar. Setelah itu, orang akan ribut menyebutnya “kemajuan” besar yang “mengubah segalanya”
Tambahan lagi, saya mungkin punya atau mungkin tidak punya gelar dalam strategi perusahaan dan PR
Orang-orang di lab riset umumnya tahu apa yang mereka lakukan, dan bukan tidak sadar akan masalah seperti ini
Saya tidak tahu kenapa Grok dikecualikan. Karena perbedaan filosofis dalam cara Grok dilatih sudah dipublikasikan, itu bisa jadi titik data yang menarik
Kita bisa berdebat seharian tentang perbedaan itu, tetapi sayang kesempatan untuk mengamatinya secara objektif terlewatkan
Grok dilatih agar memiliki bias yang disukai banyak orang, tetapi bukan model yang dimaksudkan untuk akurat
Saya tidak tahu apa yang ditunjukkan ini yang belum kita ketahui. LLM tidak bisa memberi jawaban akurat untuk pertanyaan tentang data yang tidak ada di set pelatihannya
Rasanya tidak banyak isi di sini
Untuk pertanyaan seperti “apakah obat kumur efektif”, tampaknya setidaknya akan ada satu sumber data yang solid berupa jurnal medis
Itu lebih buruk
Saya tidak paham kenapa semua orang begitu terobsesi membuat LLM melakukan fact-checking
Teknologi ini memang bukan untuk itu. Dalam situasi tertentu mungkin bisa lumayan berfungsi, tetapi itu tidak menjadikannya alat yang cocok
Ini seperti membeli kulkas untuk menyimpan pakaian
Manusia terakhir menginginkan mesin yang akan berkata “secara faktual salah” atau “secara faktual benar”. Karena mereka ingin membuat jurang ketiadaan kebenaran mutlak cukup kecil agar bisa tertidur di sisinya
Saya membuat ini untuk 100% pemeriksaan fakta lokal di CPU: https://news.ycombinator.com/item?id=48301003