- Model bahasa besar (LLM) unggul dalam menemukan informasi tertentu di input yang panjang, tetapi memiliki keterbatasan dalam mengidentifikasi informasi yang hilang
- Benchmark AbsenceBench yang baru mengevaluasi kemampuan LLM mendeteksi informasi yang hilang di 3 domain: sekuens, puisi, dan GitHub PR
- Bahkan model terbaru Claude-3.7-Sonnet hanya mencatat 69.6% F1-score pada konteks 5K token, menunjukkan performa yang rendah
- Penyebabnya adalah keterbatasan mekanisme attention berbasis Transformer, yang tidak bekerja efektif pada 'ruang kosong' dalam dokumen
- Riset ini menunjukkan perbedaan tingkat kesulitan yang mendasar antara deteksi informasi yang disisipkan dan deteksi informasi yang hilang pada LLM
Gambaran umum
- Model bahasa besar (LLM) telah meningkat pesat dalam kemampuan menemukan informasi di dokumen panjang
- Pengujian ‘Needle in a Haystack (NIAH)’ yang ada menilai kemampuan menemukan informasi mencolok dalam input panjang, dan LLM menunjukkan performa yang sangat baik di sini
- Namun, apakah LLM dapat menemukan informasi yang jelas-jelas hilang adalah persoalan yang berbeda
- Untuk itu, diusulkan benchmark AbsenceBench, yang secara eksplisit menghapus sebagian isi dokumen lalu meminta model menebak informasi apa yang hilang
Penjelasan benchmark AbsenceBench
- AbsenceBench mengevaluasi kemampuan model mendeteksi informasi yang hilang di 3 domain: puisi, sekuens angka, dan GitHub Pull Request (PR)
- Dokumen asli dan versi yang telah dimodifikasi dengan penghapusan sebagian isi diberikan bersamaan ke LLM, lalu dievaluasi apakah model dapat mengidentifikasi informasi yang hilang
- Dengan panjang konteks rata-rata 5K token, benchmark ini termasuk kategori konteks menengah yang lebih pendek dibanding benchmark dokumen panjang yang ada
Isu utama hasil evaluasi
- Evaluasi dilakukan pada 14 LLM representatif (misalnya GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash, dll.), dan bahkan model terbaru hanya mencatat F1-score sekitar 69.6%, angka yang tergolong rendah
- Di pengujian NIAH, LLM sudah mencapai tingkat yang ‘melampaui manusia’, tetapi di AbsenceBench performanya turun tajam 56.9%
- Semakin panjang konteks, performa makin menurun, terutama di domain puisi
- Bahkan saat menggunakan kemampuan inference-time compute, performa hanya naik 7.9%, sementara token chain-of-thought yang dikonsumsi rata-rata menjadi 3 kali lipat
- Sebaliknya, saat omission rate lebih rendah, performa LLM justru lebih buruk
Penyebab dan analisis mendalam
- Mekanisme self-attention berbasis Transformer sulit memusatkan perhatian pada ‘informasi yang hilang’ (ruang kosong), karena dalam struktur attention berbasis key, melacak informasi yang tidak ada pada dasarnya sulit dilakukan
- Saat pengujian, ketika string placeholder ditambahkan pada bagian yang hilang, performa naik besar dengan rata-rata 35.7%
Struktur dan contoh AbsenceBench
- Setiap task didefinisikan sebagai berikut
- Memberikan dokumen asli (Dorig) dan dokumen modifikasi (Dmodified)
- Menghapus p% elemen dari Dorig untuk membuat Dmodified, lalu membandingkan keduanya agar LLM menghasilkan himpunan jawaban berisi informasi yang hilang (Domit)
- Contoh untuk tiga domain:
- Puisi (Poetry): memilih puisi dari Gutenberg Poetry Corpus, lalu menghilangkan baris secara acak
- Sekuens angka (Numerical Sequences): menghilangkan angka dari deret yang dibuat secara acak dengan probabilitas tertentu
- GitHub PRs: menghapus secara acak sebagian baris yang diubah dari file diff pada PR open-source populer
Contoh template evaluasi (domain puisi)
- System prompt: “Seorang siswa membacakan puisi, tetapi beberapa baris mungkin hilang. Temukan dengan tepat baris mana yang hilang.”
- Puisi asli dan versi yang dibacakan sama-sama diberikan, lalu model diminta menjawab hanya dengan baris yang benar-benar hilang
Hasil eksperimen utama
- Eksperimen dilakukan dengan memvariasikan panjang dokumen, rasio penghapusan, dan faktor lain di tiap domain
- Pada GitHub PR, puisi, dan sekuens angka, LLM sama-sama gagal mengidentifikasi seluruh bagian yang hilang secara lengkap
- Perbedaan utama antara NIAH dan AbsenceBench: NIAH berfokus pada perhatian terhadap key/informasi yang ada, sedangkan AbsenceBench menuntut perhatian pada ‘bagian yang tidak ada’, sehingga secara struktural lebih sulit
Kesimpulan dan implikasi
- AbsenceBench menunjukkan bahwa LLM masih lemah untuk pertanyaan seperti ‘apa yang hilang?’
- Ini menyiratkan bahwa saat LLM digunakan sebagai penilai di praktik nyata (misalnya LLM-as-a-Judge), reliabilitasnya perlu diperhatikan
- Diperlukan pendekatan baru untuk mengatasi kelemahan struktural dalam desain Transformer
- Dataset dan kode AbsenceBench telah dibuka untuk publik, dan diusulkan sebagai titik awal penelitian kemampuan deteksi informasi yang hilang pada LLM
Ringkasan kontribusi utama
- Merancang dan merilis benchmark baru untuk mendeteksi elemen yang secara eksplisit dihilangkan dari dokumen berkonteks menengah (5K token)
- Mengevaluasi 14 LLM terbaru dan mengonfirmasi bahwa deteksi informasi yang disisipkan hampir sempurna, tetapi deteksi informasi yang hilang masih sulit
- Menunjukkan bahwa inference-time compute juga memiliki keterbatasan dalam meningkatkan performa nyata
- Mengonfirmasi fenomena bahwa performa meningkat tajam ketika placeholder secara eksplisit dimasukkan pada bagian yang hilang
- Menunjukkan bahwa AbsenceBench menjadi contoh yang mengungkap keterbatasan mendasar mekanisme attention pada Transformer
Komposisi dataset AbsenceBench
- Poetry: satu puisi dipotong menjadi dokumen dengan panjang bervariasi antara 100 hingga 1000 baris, lalu dilakukan penghilangan per baris
- Numerical Sequences: angka pertama ditetapkan secara acak, lalu angka berikutnya disusun menurut berbagai pola (menaik, menurun, acak, interval beragam), dengan sebagian angka dihilangkan
- GitHub PRs: dari diff sepanjang 10 hingga 200 baris pada 20 repositori terpopuler, hanya baris yang berubah yang dipilih lalu sebagian dihilangkan agar mencerminkan situasi nyata
Contoh benchmark nyata
- Contoh puisi
- Asli: “And so, to you, who always were / To me, I give these weedy rhymes / In memory of early times...”
- Versi modifikasi: “And so, to you, who always were / In memory of early times...”
- Jawaban: “To me, I give these weedy rhymes”
- Contoh sekuens angka
- Asli: 117, 121, 125, 129, 133, 137 ...
- Versi modifikasi: 117, 125, 129, 133 ...
- Jawaban: 121, 137
- Contoh GitHub PR
- Baris tertentu dari perubahan kode di PR dihilangkan
Penerapan dan makna praktis
- Dalam praktik, hal ini berkaitan langsung dengan kemampuan mendeteksi perubahan yang hilang pada diff PR atau informasi penting yang hilang dalam dokumen
- Saat menerapkan LLM untuk otomatisasi review/verifikasi, deteksi informasi yang hilang memerlukan langkah pelengkap tersendiri
1 komentar
Komentar Hacker News
Berbagi pengalaman setelah menonton kuliah Gerald Sussman, lalu memasukkan gambar segitiga Kanizsa ke Claude dan mengajukan pertanyaan samar untuk menguji apakah Claude mengenali segitiga tersebut. Claude mengenali gambar dengan akurat dan bahkan merangkumnya, jadi gambar diputar 90 derajat lalu diuji lagi. Namun kali ini Claude gagal mengenali gambar dan bahkan salah menghitung jumlah elemennya. Deskripsi Claude saat itu terdiri dari ‘empat lingkaran parsial mirip Pac-Man, dua segitiga hitam tipis atau bentuk panah, dan latar belakang abu-abu muda’
Memprediksi bahwa ke depannya masalah seperti ini mungkin diatasi dengan menambahkan versi semua gambar yang diputar 90 derajat ke proses pelatihan data
Berbagi pandangan bahwa karena cakupan makalah terbatas pada dokumen teks, eksperimen segitiga Kanizsa tidak bisa langsung diterapkan pada diskusi tersebut. Ditekankan juga bahwa untuk pemrosesan gambar, LLM saat ini masih kurang matang. Dijelaskan bahwa sebagian besar kemampuan vision memiliki struktur di mana hasil tokenisasi dari prapemrosesan terpisah dimasukkan ke transformer, sambil menyebut berbagai contoh tahap prapemrosesan seperti OCR, pengenalan pola berbasis CNN, gambar dari berbagai sudut, dan gambar yang diperbesar
Menunjukkan kurangnya pemahaman terhadap komputasi itu sendiri. Membagikan diskusi Hacker News terkait perdebatan lama dan video kuliah Strange Loop tautan, tautan
Berpendapat bahwa jika ditunjukkan foto anjing berkaki lima ke LLM, model itu juga tidak akan bisa mengetahui jumlah kakinya
Sebagai contoh generalisasi abstraksi, disebutkan kemampuan manusia yang langsung mengenali segitiga saat banyak titik disusun dalam bentuk segitiga. Ia merasa bahwa hakikat kecerdasan bisa ditemukan dalam contoh sesederhana ini, dan bahwa kemampuan mengenali kompleksitas besar sebagai pola sederhana pada akhirnya adalah makna dari IQ. Jika titik-titik itu sebenarnya adalah verteks kubus 10 dimensi yang sedikit diputar, maka dari sudut pandang berpikir 10 dimensi itu akan menjadi pola yang sangat mudah
Dibagikan ringkasan klaim penulis makalah bahwa bahkan model terbaru pun berkinerja buruk saat harus mengidentifikasi informasi yang hilang dengan melihat versi asli dan versi yang dimodifikasi secara bersamaan, dan bahwa dengan mekanisme attention pada Transformer, model tidak bisa memberi perhatian pada token yang sudah dihapus
Disampaikan pendapat bahwa karena kunci yang dicari sebenarnya ada di teks asli, jika kedua versi diberikan sebagai input maka model seharusnya bisa memberi perhatian pada kunci tersebut. Dari sudut pandang attention,
dan
diklaim tidak terlalu berbeda. Diusulkan pendekatan konkret bahwa melalui RASP mungkin bisa diimplementasikan algoritme seperti berikut: tahap 1 menentukan posisi token Original/Modified, tahap 2 menghitung nilai rata-rata token masing-masing lalu mengambil selisihnya, tahap 3 menentukan bahwa token yang paling dekat dengan selisih ini adalah {bagian yang dihapus}/{bagian yang ditambahkan}. Hanya ada persoalan arah pengurangan dalam perhitungan selisih. Jika model bisa mendeteksi penambahan tetapi gagal mendeteksi penghapusan, analisisnya adalah LLM mungkin memahami prinsipnya tetapi kurang terlatih karena data penghapusan tidak cukup banyak
Menunjukkan bahwa hasil eksperimen pada model-model papan atas terbaru (OpenAI opus, o3, Gemini 25 pro, dll.) tidak dimasukkan ke dalam makalah
Mengungkapkan rasa penasaran apakah untuk model vision justru bisa dilatih melalui foto negatif, rotasi gambar, dan sebagainya. Juga menyebut bahwa format Q/A pengisian bagian kosong seperti madlib mungkin bisa diuji secara eksperimental
Karena performa berbeda-beda antar model, sekarang setelah benchmark ini muncul dan mendapat perhatian, diharapkan performanya akan meningkat ke depan. Terlihat jelas masih ada ruang perbaikan
Dikemukakan bahwa secara struktural mekanisme attention memang wajar jika gagal menemukan bagian yang hilang yang belum terklasifikasi. Pada masalah needle-in-a-haystack, ada target spesifik yang harus dicari sehingga attention bekerja baik, tetapi pada omission kita tidak tahu apa yang hilang, jadi seluruh konteks harus dibandingkan dan lapisan attention yang ada memiliki keterbatasan. Dijelaskan bahwa ini mirip dengan masalah seperti pengurutan daftar panjang
Mengatakan belum membaca makalahnya, tetapi penulis komentar juga setuju dengan penjelasan tentang keterbatasan mekanisme attention. Karena omission berarti kita tidak tahu apa yang hilang, hal itu sulit ditemukan begitu saja dan menuntut perbandingan seluruh konteks
Menganggap sebagian kritik terhadap metode benchmark baru seperti AbsenceBench memang valid, tetapi tetap memandang positif fakta bahwa upaya seperti ini sedang dilakukan dan merasa ini bisa menjadi momentum untuk bergerak ke arah yang lebih baik
Sebagian setuju dengan pendapat penulis makalah bahwa berbeda dari manusia, LLM bahkan sulit mendekati lokasi kekosongan dalam konteks, tetapi juga mempertanyakan mengapa arsitekturnya secara matematis kurang cocok untuk hal ini. Penasaran apakah fine-tuning untuk tugas seperti ini akan efektif. Juga menyinggung hasil bahwa semakin pendek input dan semakin sedikit bagian yang hilang, justru semakin sulit diselesaikan, dan bahwa manusia pun punya keterbatasan serupa karena sering tidak menyadari hilangnya satu atau dua kata. Disebutkan bahwa model reasoning berkinerja lebih baik, tetapi tetap mengejutkan bahwa mereka tidak mencapai akurasi 100%. Ditunjukkan pula bahwa seperti dalam makalah, masalah ini mudah diselesaikan dengan program sederhana. Ia tertarik pada isi makalah yang mengisyaratkan bahwa masih banyak aspek kecerdasan manusia yang belum didefinisikan secara formal, dan LLM bisa jadi lemah pada aspek-aspek tersebut
Mencari literal string diff dinilai sebagai pembebanan kompleksitas berlebihan pada LLM, mirip memaksa LLM melakukan aritmetika. Diamati bahwa pendekatan reasoning seperti menyuruh LLM mencantumkan seluruh dokumen lalu membandingkannya secara langsung justru lebih menguntungkan. Ini mirip dengan fenomena bahwa performa pada soal arithmetic membaik jika dipecah langkah demi langkah. Diajukan kemungkinan bahwa model dengan hasil bagus mungkin memakai arsitektur MoE (Mixture of Experts), dan Gemini Flash juga diduga merupakan model berbasis MoE
Jika LLM diberi izin untuk mengambil pendekatan ‘meta’, ada kemungkinan masalah bisa dipecahkan dengan menulis lalu menjalankan skrip Python sendiri untuk mendeteksi omission
Menyatakan ketidakpuasan pada benchmark yang spesifik ini. Dalam contoh prompt, model qwq-32b berhasil sempurna menemukan item yang dihilangkan pada eksperimen dengan 3 item. Ia yakin 100 item pun bisa diselesaikan dengan setia, hanya saja memerlukan jauh lebih banyak token. Batas 5000 token dianggap terlalu sempit untuk reasoning model, dan diklaim bahwa jika lebih banyak batch dan proses simplification diulang, model sebenarnya selalu bisa menemukan jawaban yang benar. Diusulkan metodologi untuk mengekstrak jawaban dengan menokenisasi seluruh dokumen lalu membandingkannya berulang kali. [Contoh prompt lengkap dibagikan]
Ia benar-benar menguji sendiri qwq-32b dengan daftar 26 headline HN yang dikurangi 3 item, dan membuktikan lewat eksperimen bahwa semuanya ditemukan dengan tepat tanpa menghabiskan 50 ribu token. Tautan materi eksperimen
Menyederhanakan masalah menjadi sekadar menghitung angka dikritik sebagai riset yang tidak bermakna, dan ditekankan bahwa tujuan sejati penelitian ini adalah memahami area keterbatasan LLM yang tidak bisa diselesaikan lewat pengurutan/klasifikasi
Memperkenalkan pengalaman nyata saat menanyakan ke ChatGPT apakah dialog Hamlet mengandung frasa ‘utter love’. ChatGPT menjawab bahwa setelah memeriksa seluruh dialog Hamlet, frasa itu tidak ada. Namun setelah pengguna sendiri mencari teks asli secara online, frasa itu langsung ditemukan; ketika bagian tersebut ditunjukkan ke ChatGPT, model itu segera mengakui dan meminta maaf, lalu bahkan memberikan kembali seluruh dialog. Dibagikan sebagai “pengalaman bahwa pada akhirnya daya ingat manusia lebih unggul daripada indeks ChatGPT”
Dikoreksi bahwa jawaban yang benar adalah Act 2, Scene 1, dan penuturnya adalah Polonius
Diakui bahwa tanpa loop pencarian atau alat bantu, kemampuan recall LLM memang sangat lemah; model 4o juga gagal tanpa pencarian, dan jawaban benar hanya mungkin jika ada fitur search. Disimpulkan insight bahwa “semakin penting untuk memakai alat yang tepat secara benar sesuai masalah”
LLM mungkin cukup baik dalam mendeteksi keberadaan berdasarkan sensory input, tetapi sulit mendeteksi absence karena tidak ada sensory input untuk ketidakhadiran itu sendiri. Untuk mendeteksinya diperlukan world model dan ekspektasi yang sangat kuat. Diajukan bahwa tugas neurologis tingkat tinggi seperti ini mungkin masih merupakan kemampuan khas organisme dan belum dimiliki LLM
LLM berpotensi memiliki masalah konsistensi secara desain; sebagian bergantung pada hafalan sederhana, sebagian jalur lain cenderung mengandalkan pencocokan pola tingkat lanjut
Dibandingkan dengan pemikiran real-time, LLM disebut menalar berdasarkan realitas yang ‘tetap dan statis’, sehingga aspek temporal juga menjadi keterbatasan
Deteksi ketidakhadiran dalam praktik sangat berkaitan dengan memori. Misalnya saat pena yang tadinya ada di atas meja menghilang, otak mengenali ketiadaan itu dengan membandingkan sensory input masa lalu (ingatan melihat pena) dengan situasi saat ini. Pada titik ini, ditegaskan bahwa thinking masih merupakan karakteristik unik organisme