AbsenceBench: model bahasa gagal mengidentifikasi informasi yang hilang

(arxiv.org)

1 poin oleh GN⁺ 2025-06-22 | 1 komentar | Bagikan ke WhatsApp

Evaluasi untuk menemukan “informasi yang ada” dalam konteks panjang memang membaik dengan cepat, tetapi AbsenceBench menunjukkan bahwa kemampuan menemukan informasi yang hilang dengan membandingkan versi asli dan versi yang telah diubah masih lemah
Benchmark ini terdiri dari 3 domain: puisi, urutan angka, dan GitHub PR diff; menggunakan 4.302 instance dengan konteks rata-rata 5K token dan rasio penghilangan dasar 10%
Meski mengevaluasi 14 LLM termasuk GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash, o3-mini, Grok-3-mini, dan DeepSeek-R1, kinerja model terbaru tetap terbatas; Claude-3.7-Sonnet hanya mencapai 69,6% F1-score pada konteks rata-rata 5K token
F1-score AbsenceBench turun rata-rata 56,9% dibanding NIAH, dan model dengan komputasi saat inferensi pun hanya meningkatkan performa sebesar 7,9% sambil memakai rata-rata 8K thinking token tambahan
Jika placeholder eksplisit dimasukkan di lokasi yang hilang, performa meningkat rata-rata 35,7%, mendukung interpretasi bahwa perhatian Transformer sulit diarahkan ke “celah” di dalam dokumen

Pertanyaan yang diajukan AbsenceBench

LLM modern baru-baru ini menunjukkan performa tinggi pada tugas konteks panjang, dan dalam uji Needle-in-a-Haystack(NIAH) mereka mampu menemukan informasi kecil yang spesifik di dalam input yang sangat panjang
AbsenceBench mengevaluasi masalah yang berlawanan
- Alih-alih mencari informasi yang ada di dalam input, model harus menemukan informasi yang jelas-jelas hilang
- Model diberi dokumen asli dan dokumen revisi yang sebagian elemennya telah dihapus
- Output harus berupa himpunan elemen yang tepat yang hilang dari dokumen revisi
Tugas ini memiliki aturan sederhana dan jawaban yang jelas, tetapi bahkan model tertutup mutakhir pun menunjukkan performa rendah

Definisi tugas dan komposisi data

AbsenceBench menggunakan format generasi terkontrol: dari dokumen asli Dorig, sebagian elemen Domit sengaja dihapus untuk membuat dokumen revisi Dmodified, lalu model diminta menemukan elemen yang dihapus
“document length” berarti jumlah token dokumen asli, sedangkan “context length” berarti jumlah token seluruh input model
Seluruh benchmark terdiri dari 4.302 instance dengan panjang konteks rata-rata 5K token
Repositori kodenya dibuka di harvey-fin/absence-bench
Pengukuran panjang token menggunakan GPT-4 Tokenizer

Puisi, urutan angka, dan GitHub PR diff

Puisi(Poetry)
- Menggunakan puisi dari Gutenberg Poetry Corpus
- Penghilangan diterapkan per baris, dan pemisah baris adalah karakter newline
- Untuk keragaman panjang dokumen, setiap puisi dipotong agar jumlah barisnya terdistribusi merata antara 100 hingga 1000
Urutan angka
- Sebanyak 1.200 urutan angka sintetis dibuat
- Angka disusun dalam urutan menaik, menurun, atau acak
- step size antara angka yang berurutan adalah salah satu dari 1, 4, 7, atau 13
- Angka pertama dipilih secara acak dari 0 hingga 9999
GitHub PR diff
- PR dikumpulkan dari 20 repositori teratas dengan jumlah PR terbanyak menggunakan data GitHub publik dan GitHub API
- Hanya PR dengan 10 hingga 200 baris yang diperbarui di diff yang dipertahankan
- Di antara baris pembaruan yang diawali + atau -, hanya baris yang unik dalam tiap PR diff yang dijadikan target penghilangan
- Karena LLM yang menyelesaikan dan memverifikasi konflik merge harus bisa mendeteksi bagian yang hilang dalam file diff, ini terhubung dengan kasus penggunaan nyata

Batasan yang terlihat dari evaluasi 14 LLM

Total ada 14 LLM yang dievaluasi
- Termasuk model terbaru seperti GPT-4, Claude-3.7-Sonnet, dan Gemini-2.5-flash
- Termasuk model dengan komputasi saat inferensi seperti o3-mini, Grok-3-mini, dan DeepSeek-R1
- Claude-3.7-Sonnet dan Gemini-2.5-flash dievaluasi secara terpisah berdasarkan penggunaan komputasi saat inferensi atau tidak
Bahkan model terbaru pun tidak mampu memberikan performa stabil di AbsenceBench
- Claude-3.7-Sonnet mencatat 69,6% F1-score pada konteks rata-rata 5K token
Semakin panjang konteks, tugas menjadi semakin sulit, dan perbedaannya особенно menonjol di domain puisi
Komputasi saat inferensi hanya memberi peningkatan performa 7,9% rata-rata
- Sebagai gantinya, model menghasilkan rata-rata 8K thinking token tambahan
- Ini hampir setara dengan 3 kali panjang dokumen rata-rata
Hasil juga menunjukkan bahwa ketika rasio penghilangan lebih rendah, performa model justru memburuk

Pola kegagalan yang berbeda dari NIAH

AbsenceBench terbukti jauh lebih sulit bagi LLM dibanding NIAH
- Saat tiga LLM dibandingkan antara pengaturan AbsenceBench dan pengaturan NIAH asli, F1-score turun rata-rata 56,9%
Perhatian Transformer mungkin kesulitan menangani gap di dalam dokumen
- Karena bagian yang hilang tidak berkorespondensi dengan key tertentu yang bisa dituju attention
Dalam eksperimen yang menaruh string placeholder di lokasi yang hilang, performa meningkat rata-rata 35,7%
- Contohnya adalah memasukkan token seperti <missing line> di lokasi baris yang hilang
Hasil ini menunjukkan bahwa LLM bisa lebih rentan dalam mengidentifikasi situasi ketika informasi “hilang” dibanding ketika informasi “disisipkan”
Pada pola penggunaan seperti LLM-as-a-Judge, yang menuntut kemampuan menyadari informasi yang hilang dengan tepat, keterbatasan ini dapat menjadi risiko praktis

1 komentar

GN⁺ 2025-06-22

Komentar Hacker News

Setelah menonton ceramah Gerald Sussman, saya memasukkan gambar Kanizsa triangle ke Claude dan bertanya dengan cukup ambigu apakah ia bisa “melihat” segitiga yang tersimpulkan; ia mengenali gambarnya dan langsung memberikan ringkasan
Jadi saya memutar gambar itu 90 derajat dan mencobanya lagi di percakapan baru; kali ini ia tidak mengenali gambar tersebut dan bahkan salah menghitung jumlah elemennya
Untuk gambar yang diputar itu, Claude menjelaskannya sebagai 4 bentuk hitam mirip Pac-Man di empat sudut, 1 segitiga tipis yang mengarah ke atas dan 1 segitiga tipis yang mengarah ke kanan, serta latar belakang abu-abu muda
- Sekarang sepertinya mereka akan memasukkan semua gambar dalam data pelatihan juga dalam versi yang diputar 90 derajat untuk menutup celah seperti ini
- Kalau Anda menunjukkan foto anjing berkaki 5 kepada LLM, Anda bisa melihat bahwa ia sama sekali tidak bisa menghitung jumlah
- Rasanya kita benar-benar tidak tahu cara menghitung
  Oktober 2011, 30 komentar
  https://news.ycombinator.com/item?id=3163473
  Video Strange Loop:
  Juli 2011, 36 komentar
  https://news.ycombinator.com/item?id=2820118
- Menurut saya, makalah ini hanya membahas dokumen teks, jadi contoh itu tidak benar-benar tepat
  Sudah diketahui bahwa LLM masih punya jalan panjang untuk memproses gambar seperti memproses teks atau audio
  Saya rasa hampir tidak ada model multimodal yang menerima piksel gambar secara langsung dan menghasilkan kinerja bagus. Sebagian besar kemampuan visual lebih mirip hack atau tambahan rekayasa; gambar melewati beberapa tahap pemrosesan, lalu keluaran dari tiap pemroses masuk ke transformer sebagai token. Itu bisa saja terjadi di dalam satu jaringan, tetapi jaringan non-transformer juga terlibat. Contoh prapemrosesan bisa mencakup OCR, CNN (pengenal pola 2D) dengan berbagai tingkat pembesaran, sudut, dan irisan, serta hal-hal lain
- Jika gagasan ini digeneralisasi, ketika melihat 1.000 titik yang kira-kira mengisi sebuah segitiga, kita langsung mengenali bentuknya
  Menurut saya contoh sederhana ini memperlihatkan inti kecerdasan. Kita mengenali segitiga karena kompleksitas besar berupa 1.000 titik itu cocok dengan bentuk geometris yang sederhana dan berentropi rendah
  Saya pikir apa yang kita sebut IQ mirip dengan batas atas kompleksitas pola yang bisa kita sadari. Misalnya, 1.000 titik itu sebenarnya bisa saja merupakan titik-titik sudut dari kubus 10 dimensi yang sedikit diputar, dan bagi pikiran 10 dimensi itu mungkin pola yang mudah terlihat
Menarik. Bahkan model-model terbaru pun, ketika diberi konteks asli dan konteks yang telah diedit, memiliki kinerja yang relatif rendah dalam mengidentifikasi informasi apa yang dihapus dari konteks
Para penulis berpendapat kinerjanya rendah karena mekanisme perhatian transformer tidak punya key untuk token yang dihapus, sehingga tidak bisa memberi perhatian padanya
- Ada key untuk diberi perhatian. Hanya saja key itu ada di teks asli, bukan di versi yang sudah dimodifikasi. Karena model menerima keduanya sebagai input, secara teori ia bisa memberi perhatian pada key-key tersebut
  Dari sudut pandang mekanisme perhatian, tidak ada perbedaan besar antara Original: {prefiks umum} {bagian yang dihapus} {sufiks umum} Modified: {prefiks umum} {sufiks umum} dan Original: {prefiks umum} {sufiks umum} Modified: {prefiks umum} {bagian yang ditambahkan} {sufiks umum}
  Dengan RASP (bahasa untuk memprogram transformer secara manual), sepertinya kita bisa membuat algoritma kira-kira seperti ini. Lapisan 1 memberi perhatian pada token "Original:" dan "Modified:" untuk menentukan apakah token saat ini berada di sisi asli atau sisi modifikasi. Di lapisan 2, satu head memberi perhatian merata ke semua token asli untuk merata-ratakan nilainya, sementara head lain merata-ratakan semua token modifikasi, lalu menghitung selisih kedua rata-rata itu. Lapisan 3 memberi perhatian pada token yang mirip dengan selisih ini, dan itu akan menjadi {bagian yang dihapus} atau {bagian yang ditambahkan}
  Satu-satunya bagian yang bergantung pada urutan adalah apakah selisih dihitung sebagai rata-rata asli - rata-rata modifikasi, atau sebaliknya
  Jika model bisa mendeteksi penambahan tetapi tidak bisa mendeteksi penghapusan, itu bisa berarti bahwa pada prinsipnya ia mampu mempelajari algoritma seperti ini atau yang serupa, tetapi data bertipe penghapusan kurang sehingga sirkuit yang diperlukan belum berkembang
- Saya penasaran apakah model visual bisa dilatih dengan hal-hal seperti negatif foto atau gambar yang diputar. Atau mungkin juga dengan kalimat isian kosong seperti “the _____ took first place in the horse show”
- Sepertinya mereka hampir tidak memakai model-model papan atas terbaru. Tidak ada Opus, o3, Gemini 2.5 Pro
- Meski begitu, ada perbedaan yang mencolok di antara model-model, jadi setelah ada benchmark dan masalah ini mendapat perhatian, saya penasaran sejauh apa ini bisa membaik. Jelas ada sesuatu yang bisa dilakukan
Sangat menarik. 1) Para penulis mengatakan karena celah kosong bukan token, mekanisme perhatian mungkin tidak bisa memberi perhatian pada posisi celah itu, tetapi saya menduga transformer LLM yang bagus setidaknya bisa cukup mendekati area di sekitar celah
Secara matematis saya belum benar-benar paham mengapa arsitektur ini kurang cocok. Sepertinya ia tetap bisa memberi perhatian pada area yang mungkin mengandung celah. Saya juga penasaran apakah fine-tuning untuk tugas semacam ini akan membantu
2) Semakin pendek input dan semakin sedikit bagian yang hilang, tugasnya semakin sulit. Bahkan bagi manusia, menyadari bahwa 1 kata hilang memang lebih sulit, dan kehilangan satu baris lebih sulit daripada kehilangan sepuluh baris, jadi ini tidak sepenuhnya mengejutkan. Namun tetap menarik bahwa LLM mengalami masalah seperti ini
3) Model penalaran bekerja lebih baik karena bisa menuliskan sendiri dokumen itu sambil menyelesaikannya. Namun tetap saja sangat mengejutkan bahwa akurasinya tidak 100%. Ini seharusnya tugas sepele, dan seperti yang dikatakan makalah, bisa diselesaikan dengan program sederhana. Agen seperti ChatGPT mungkin saja membaca makalah ini selama pelatihan dan mengetahui bahwa saat menyelesaikan masalah seperti ini, ia harus menulis dan menjalankan Python
Bagian paling menarik adalah aspek-aspek kecerdasan lain apa yang belum kita identifikasi secara eksplisit, dan apakah LLM serta AI saat ini sangat lemah pada aspek-aspek itu. Makalah ini mengisyaratkan bahwa kemungkinan ada banyak aspek seperti itu, dan secara umum ini tampaknya masa yang cukup menarik bagi para pembuat benchmark
Agar adil, mencari perbedaan string secara harfiah akan saya masukkan ke kategori yang sama seperti menyuruh LLM melakukan aritmetika mekanis
Mekanisme attention berpikir terlalu rumit untuk tugas bodoh seperti ini. Justru dalam kasus seperti ini, alih-alih melakukan prediksi token berikutnya yang canggih, ia perlu dengan sengaja menyederhanakan, fokus, dan memprosesnya secara disiplin
Akan membantu jika benar-benar meminta LLM mencantumkan seluruh dokumen lalu membandingkannya. Ini seperti memecah penalaran menjadi langkah-langkah, mirip dengan bagaimana LLM bekerja lebih baik saat memecah soal aritmetika atau aljabar menjadi langkah-langkah kecil
Saya menduga model yang berkinerja baik kemungkinan adalah model MoE. Mungkin ada satu atau dua ahli yang cocok untuk tugas yang membutuhkan fokus ketimbang intuisi. Saya sama sekali tidak tahu soal Gemini Flash, tetapi saya rasa itu mungkin model MoE
Saya belum membaca makalahnya, tetapi dari sudut pandang mekanisme attention struktural, kegagalan mendeteksi ketiadaan yang tidak diklasifikasikan sepenuhnya bisa diperkirakan. Namun saya pikir ini bisa dipecahkan dengan pemikiran terstruktur
Dalam masalah mencari jarum, cukup berikan perhatian pada target yang dicari, dan attention cukup bagus dalam hal ini
Saat mencari sesuatu yang hilang, yang hilang itu bisa apa saja, sehingga hanya bisa disimpulkan dengan membandingkan satu konteks utuh dengan konteks utuh lainnya. Lapisan attention sulit melakukannya dengan benar
Ini mirip dengan masalah “mengurutkan sekumpulan item yang panjang”. Tanpa suatu proses metakognitif, ia tidak bisa melakukannya
- Anda mengatakan “yang hilang bisa apa saja”, tetapi dalam benchmark ini LLM diberi informasi yang diperlukan untuk menentukan apa yang hilang
  Misalnya, “ini ada sebuah puisi, dan ada versi dari puisi yang sama yang mungkin kehilangan beberapa baris. Apakah ada baris yang hilang?”
  Menurut saya ini lebih dekat ke masalah tuning daripada kelemahan inheren LLM
  Jika saya diminta menemukan bagian yang hilang dalam makalah machine learning, otak saya membandingkannya dengan makalah machine learning lain, bukan dengan Star Wars, Top Gear, sejarah Yunani, tembikar, dan ribuan konteks lain yang saya ketahui
Kritik terhadap pendekatan AbsenceBench memang valid, tetapi fakta bahwa hal semacam ini dijadikan benchmark sendiri sangat menggembirakan. Ini jelas dorongan ke arah yang benar
Saat mendeteksi keberadaan, otak nyata menerima input sensorik, membandingkannya dengan ekspektasi, mempertahankan ketenangan atau mencatat keterkejutan, dan terkadang menghasilkan prediksi untuk membimbing organisme
Saat mendeteksi ketiadaan, menurut definisi otak tidak bisa bergantung pada input sensorik. Untuk terkejut ketika tidak ada bukti sensorik, diperlukan model dunia yang cukup kuat sehingga bisa terkejut bahwa ekspektasi tidak terpenuhi meski tanpa petunjuk sensorik
Deteksi ketiadaan tampaknya merupakan tugas neurologis yang secara ketat berada pada tingkat lebih tinggi daripada pemrosesan input sensorik
Jika LLM tidak bisa melakukan tugas neurologis tingkat lebih tinggi ini, bukankah ini kemampuan yang saat ini hanya dimiliki makhluk hidup?
- Berpikir itu sendiri sejauh ini masih hanya ada pada makhluk hidup, jadi tidak perlu sampai ke penjelasan seperti itu untuk mencari keunikan otak manusia
  Yang Anda jelaskan berkaitan dengan memori. Memori adalah menyimpan dan memutar ulang input sensorik ketika tidak ada input sensorik. Jadi otak memutar ulang input sensorik masa lalu dan membandingkannya dengan input sensorik saat ini
  Misalnya, jika Anda meninggalkan pulpen di atas meja lalu kembali dan pulpennya tidak ada, otak membandingkan memori tersimpan bahwa ada pulpen di atas meja dengan apa yang terlihat sekarang
- LLM mungkin tidak terlalu konsisten di seluruh struktur yang dipelajarinya. Sebagian jalur bisa mengarah ke informasi yang dihafal, sementara jalur lain bisa mengarah ke pencocokan pola tingkat lanjut
- Saya hampir tidak tahu bidang ini, tetapi aspek temporal saja tampaknya sudah bisa menjadi masalah. Bukankah agen-agen seperti ini bernalar dari versi “realitas” yang tetap atau beku, alih-alih menyesuaikan diri secara real time?
LLM tampaknya lemah dalam perbedaan string. Sebagai catatan sampingan, saya penasaran apakah ada sumber seperti repositori GitHub yang merangkum temuan-temuan semacam ini tentang apa yang bisa dan tidak bisa dilakukan LLM dengan baik
Benchmark yang buruk
Saya mencoba prompt mereka [1] dengan 3 item bernomor, dan qwq-32b menebaknya tanpa masalah. Saya rasa 100 item pun bisa diselesaikan dengan akurasi 100%, tetapi mungkin akan butuh 1 juta token. Mungkin bahkan lebih dari 10 juta token
Batas 5.000 token terlalu kecil untuk model penalaran. Harus diberi banyak komputasi waktu uji, dan 10 kali dari 5.000 token pun masih kurang
Jika penulis berbicara tentang input panjang, untuk 100 halaman mereka harus memberi 1 miliar token
Implementasi yang benar adalah pemrosesan batch. Cari 5 item bernomor pertama dalam teks input yang hilang, lalu jika ditemukan, sederhanakan item input dan item input yang hilang, kemudian lanjutkan lagi
Bergantung pada ukuran input, ini akan selalu membutuhkan token yang cukup banyak, tetapi penyederhanaan akan membantu mundur dengan benar tanpa kehilangan konteks sepenuhnya
[1] Anda sedang membantu seorang siswa berlatih menghafal puisi. Siswa itu membacakan puisi tetapi mungkin melewatkan beberapa baris. Tugas Anda adalah mengidentifikasi dengan tepat baris mana yang hilang dari pembacaan tersebut. Cantumkan hanya baris yang hilang dan jangan tulis apa pun lagi. Pesan pengguna: Berikut puisi asli lengkapnya: 1)Quisella's lashes fluttered panic-morse. 2)The Moisture Vampires leeches that sucked humidity. 3)Lysandra's nostrils flared precisely one degree. Sekarang berikut pembacaan saya yang mungkin ada baris hilang: Quisella's lashes fluttered panic-morse. Lysandra's nostrils flared precisely one degree. Baris mana yang saya lewatkan? Cantumkan hanya baris yang hilang dan jangan tulis apa pun lagi
- Saya tidak mengerti apa menariknya mereduksi masalah menjadi menghitung jumlah. Tujuan jelas studi ini tampaknya adalah memahami batas LLM pada tugas yang tidak bisa secara sepele dijadikan daftar item atau disejajarkan
- Saya baru saja mencoba qwq-32b dengan 26 judul bernomor terkini di HN [1], menghapus 3 judul, dan pada percobaan pertama ia menemukan ketiga item yang hilang dengan sempurna. Tidak sampai memakai 50.000 token
  [1] https://gist.github.com/pramatias/fee1391ad08c7b965f435f3af1...
Saya penasaran bagaimana ini akan berlaku pada model visual. Saat saya coba dengan beberapa contoh gambar tunggal, tampaknya hasilnya baik
Pada beberapa contoh mainan, Claude dan Gemini tampaknya cukup baik dalam menemukan perbedaan. Contoh gambar: https://www.pinterest.com/pin/127578601938412480/
Jika gambarnya dibalik, tampaknya mereka lebih kesulitan, dan juga mungkin menemukan lebih sedikit perbedaan atau berhalusinasi

AbsenceBench: model bahasa gagal mengidentifikasi informasi yang hilang

Pertanyaan yang diajukan AbsenceBench

Definisi tugas dan komposisi data

Puisi, urutan angka, dan GitHub PR diff

Puisi(Poetry)

Urutan angka

GitHub PR diff

Batasan yang terlihat dari evaluasi 14 LLM

Pola kegagalan yang berbeda dari NIAH

Bacaan terkait

1 komentar

Komentar Hacker News