Ditemukan lebih dari 50 kasus halusinasi dalam makalah yang diajukan ke ICLR 2026

(gptzero.me)

3 poin oleh GN⁺ 2025-12-08 | 4 komentar | Bagikan ke WhatsApp

GPTZero mendeteksi lebih dari 50 kesalahan sitasi dan informasi penulis palsu dalam makalah yang diajukan ke ICLR 2026
Setiap makalah diverifikasi bersama tautan OpenReview untuk memastikan apakah benar-benar ada dan apakah sitasinya cocok
Dalam banyak kasus, ditemukan penulis yang tidak ada, tahun yang salah, dan judul makalah yang berbeda
Beberapa makalah sebagian cocok dengan makalah asli, tetapi metadata rinci telah terdistorsi
Ini menjadi contoh yang menunjukkan bahwa masalah halusinasi yang dihasilkan AI (hallucination) juga menyebar ke naskah akademik yang diajukan

Hasil deteksi halusinasi ICLR 2026 oleh GPTZero

GPTZero melakukan verifikasi otomatis terhadap kutipan dan informasi penulis pada makalah yang diajukan ke ICLR 2026
- Untuk setiap makalah, ditampilkan tautan OpenReview, tautan verifikasi GPTZero, dan informasi sitasi
- Hasil verifikasi menemukan lebih dari 50 sitasi palsu atau penulis yang tidak ada

Contoh kasus halusinasi yang menonjol

Makalah TamperTok memang ada, tetapi seluruh informasi penulisnya salah
Makalah MixtureVitae cocok untuk 3 penulis pertama, tetapi 7 penulis sisanya tidak ada
OrtSAE, Principled Policy Optimization, IMPQ dan lainnya tidak cocok dengan makalah asli dari sisi judul atau penulis
PDMBench memiliki makalah serupa, tetapi tahun dan judulnya berbeda
C3-OWD, GRF-LLM dan lainnya diklasifikasikan sebagai kecocokan sebagian

Kasus yang sama sekali tidak cocok

Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI dan lainnya tidak memiliki makalah yang disitasi
SAFE-LLM, Typed Chain-of-Thought, MANTA dan lainnya memiliki makalah serupa, tetapi metadata tidak cocok
AI-Assisted Medical Triage Assistant, QUART, KARMA dan lainnya mengutip makalah yang sama sekali tidak terkait

Metode verifikasi dan jenis hasil

GPTZero membandingkan setiap sitasi dengan basis data nyata (misalnya arXiv, NeurIPS, ICLR, ACL, dan lainnya)
- Hasilnya diklasifikasikan sebagai “ada”, “kecocokan sebagian”, “tidak cocok”, “penulis palsu”, dan sebagainya
- Beberapa entri ditandai sebagai makalah nyata ada, tetapi penulis, tahun, dan judul semuanya berbeda

Makna dan implikasi

Banyak naskah yang diajukan ke ICLR 2026 memuat begitu saja masalah halusinasi pada teks yang dihasilkan AI
Dalam proses penulisan makalah akademik, kebutuhan akan alat otomatis untuk verifikasi fakta semakin menonjol
Hasil deteksi GPTZero menunjukkan perlunya memperkuat sistem verifikasi keandalan konten yang dihasilkan AI

4 komentar

shakespeares 2025-12-09

Apakah masih ada ruang untuk kemajuan lebih lanjut dari AI yang berulang dengan tingkat pengetahuan yang mirip?
Jika tidak, sepertinya dunia hanya akan dipenuhi tulisan hasil salinan dari manusia kloning yang sama, dan akan menjadi semakin sulit untuk memilah mana yang bernilai dan mana yang tidak.

GN⁺ 2025-12-08

Komentar Hacker News

Saya pikir tindakan seperti ini jelas merupakan pelanggaran etika profesional
Jika peneliti saya melakukan hal seperti ini, mereka akan terancam dipecat
Sebagai reviewer, ketika melihat penulis berbohong, saya tidak bisa lagi mempercayai seluruh makalahnya, dan secara etis menurut saya sudah tepat untuk langsung reject
Kesalahan itu umum, tetapi ini masalah di level yang berbeda
- Ini juga tampak seperti masalah perbedaan budaya
  Di dunia Barat, kejujuran individu dianggap menopang kepercayaan terhadap seluruh dunia akademik, tetapi di Timur Tengah, India, dan Tiongkok ada kecenderungan untuk menganggap tindakan semacam ini sebagai tanggung jawab jurnal
  Kalau perbedaan ini tidak dipahami, kolaborasi bisa menjadi sangat kacau
Dalam pengalaman saya, masalah utama yang menurunkan kualitas makalah adalah sitasi yang salah
Dibanding sitasi yang tidak ada, jauh lebih sering terjadi bahwa sumber yang disitasi sebenarnya tidak mengatakan hal tersebut atau konteksnya dipelintir
Menemukan kesalahan seperti ini membutuhkan waktu sangat lama karena kita harus membaca dan memahami sumber aslinya
Tindakan seperti ini bukan sekadar kekeliruan, melainkan menyebabkan erosi pengetahuan, jadi perlu sanksi seperti ‘3 kali peringatan lalu dikeluarkan’
- Verifikasi seperti ini justru bisa menjadi area yang cocok untuk LLM
  Misalnya dengan membandingkan klaim dalam makalah dengan daftar sitasinya untuk memeriksa secara otomatis apakah benar ada landasannya
- Namun, sebagian peneliti sengaja mendistorsi hasil agar sesuai dengan keinginan penyandang dana (Exxon, Meta, Pfizer, dll.)
  Dalam kasus seperti ini, itu bukan sekadar kecerobohan, melainkan manipulasi karena konflik kepentingan
- Sitasi palsu hanyalah puncak gunung es, dan penyalahgunaan sitasi adalah masalah yang jauh lebih lama dan lebih serius
Bukan AI semata yang jadi masalah, melainkan kemalasan dan kecerobohan
Jika ilmuwan menulis makalah dengan LLM yang berisi sitasi palsu, maka dia adalah ilmuwan yang buruk
Jika tidak ada sanksi sosial untuk tindakan seperti ini, pada akhirnya hal itu akan dibiarkan
- Saya bekerja sebagai teknisi listrik industri, dan pekerjaan listrik yang buruk hanya bisa dikenali oleh para ahli
  Verifikasi teknis membutuhkan pemeriksa yang terampil
- Namun, pernyataan “AI bukan masalahnya” terdengar seperti logika mengelak dalam debat senjata api: “bukan senjatanya, manusianya yang bermasalah”
  Pada akhirnya saya tetap melihat AI itu sendiri sebagai masalah
- Melanjutkan analogi tukang kayu, rak yang dibuat LLM tampak baik dari luar tetapi lemah secara struktural
  Justru karena tampilannya bagus, masalahnya jadi lebih tersembunyi
- Saya juga memakai Gemini Pro untuk mencari makalah, tetapi sitasinya masih kacau
  Meski begitu, dalam setahun terakhir halusinasi sudah berkurang, dan jika dibatasi pada makalah yang terverifikasi, alat ini cukup berguna
  Namun, agar peneliti tidak bergantung pada alat semacam ini, struktur persaingan pendanaan yang terus-menerus harus diubah terlebih dahulu
- Seperti kata Bruce Schneier, siapa pun bisa membuat algoritme yang tidak dapat mereka verifikasi sendiri
  LLM juga sama: ia mengembalikan jawaban yang diinginkan pengguna dan memperkuat bias konfirmasi
  Saya rasa tidak ada cara yang aman untuk menggunakan LLM dalam riset ilmiah
Kalau benar-benar membaca makalah-makalah itu secara langsung, sering kali masalahnya bukan sekadar AI yang menulis, melainkan idenya sendiri dihasilkan AI
Di permukaan terlihat meyakinkan, tetapi isinya kosong dan tak masuk akal
Kalau ada peneliti sungguhan yang masuk ke daftar ini hanya karena kesalahan sederhana di .bib, itu patut disayangkan
Avi Loeb (fisikawan teoretis Harvard) menyebut bahwa kasus mahasiswa yang mengutip makalah yang tidak ada meningkat tajam
Mereka begitu saja mempercayai fiksi yang dibuat LLM tanpa melakukan verifikasi sama sekali
Artikel terkait: How AI is making us dumber
- Namun Loeb juga dikenal karena klaim UFO-nya, sehingga ada kontroversi soal kredibilitasnya
- Sebagian orang menganggapnya sebagai sosok yang tidak dapat dipercaya
- Saya pikir fenomena ini berasal dari budaya kepemimpinan yang melepaskan tanggung jawab
  Memberi teladan buruk dari atas lalu memarahi orang di bawah adalah pendidikan yang buruk
Saya penasaran apakah riset ini menganggap semua sitasi yang salah sebagai halusinasi LLM
Perlu ada analisis baseline untuk melihat apakah kesalahan seperti ini juga ada pada makalah sebelum era LLM
- Di makalah itu ada bagian ‘Defining Hallucitations’, yang menjelaskan definisi sitasi palsu dan masalah false positive
  Saya penasaran seperti apa hasilnya jika alat yang sama diterapkan pada makalah dari tahun 2010-an
- Saat kuliah pascasarjana, saya juga pernah punya kesalahan kecil di file .bib
  Sebagian besar jurnal memverifikasi sitasi berdasarkan DOI, jadi makalah lama juga perlu dianalisis secara perbandingan
- Jika melihat makalah-makalah yang benar-benar dipublikasikan, jejak hasil buatan AI sangat jelas
  Cukup dengan memberi topik, LLM bisa menghasilkan makalah yang sangat mirip
- Sebenarnya, bahkan sebelum LLM pun manusia sudah sering keliru, dan buku maupun makalah juga penuh kesalahan
  Penyebabnya adalah sistem pengetahuan manusia yang tidak sempurna, bukan semata-mata masalah khas LLM
- Singkatnya, alat mereka memang sedang melakukan verifikasi semacam ini
Tujuan peer review bukan sekadar mendeteksi kesalahan, melainkan menilai kebaruan dan tingkat kematangan
Karena itu, perlu ada insentif untuk mencegah kecerobohan
Misalnya, penerbit bisa membuat sistem hadiah untuk memberi imbalan kepada orang yang menemukan kelalaian besar, atau
menjalankan Wall of Shame yang memublikasikan peneliti yang berulang kali ceroboh
- Atau, akan bagus jika saat pengajuan makalah ada sistem pemeriksaan sitasi otomatis yang memberi tahu kesalahan dalam satu atau dua hari
Saya sudah memakai alat manajemen sitasi seperti Zotero selama 15 tahun, dan tetap mengejutkan bahwa masih banyak sitasi dengan nama penulis yang salah
Jika pengiriman file .bib diwajibkan, kontrol kualitas dasar seharusnya bisa dilakukan lewat verifikasi DOI
Fakta bahwa verifikasi dasar seperti ini pun tidak dilakukan sungguh mengejutkan
- Namun Zotero juga tidak sempurna
  Ada juga kasus penulis salah mengutip makalahnya sendiri, dan walaupun DOI-nya benar, salah ketik nama penulis sangat sering terjadi
  Berkat alat semacam ini jumlah sitasi meningkat dan tingkat kesalahan menurun, tetapi tetap saja masih ada setidaknya satu kesalahan per makalah
Jika dari 20 ribu pengajuan hanya 300 yang diperiksa tetapi sudah ditemukan ratusan makalah berhalusinasi, maka skala sebenarnya kemungkinan jauh lebih besar
- Ada 20 ribu pengajuan untuk satu konferensi saja, itu sendiri sudah merupakan skala yang tidak normal
Halusinasi LLM adalah karakteristik yang memang dirancang
Dalam proses menghasilkan output yang tampak masuk akal secara statistik, sitasi palsu muncul secara alami
Namun secara teknis mesin sebenarnya bisa membuat sitasi yang benar
Hanya saja, LLM saat ini tidak menghasilkan apa yang kita minta berupa ‘pembuatan sitasi yang akurat’, melainkan hasil yang hanya mirip dari segi tampilan

dbs0829 2025-12-08

Saya sudah lama berpikir bahwa LLM mungkin justru bisa menghambat kemajuan umat manusia, dan dalam konteks itu, masalah yang saya bayangkan tampaknya mulai muncul. Menurunkan beban kognitif dari sudut pandang manusia terasa seperti narkoba. Saya juga meneliti, tetapi bahkan di dalam tim kami pun ada kewaspadaan bahwa semakin sering memakai model LLM, semakin terbentuk kebiasaan untuk tidak berpikir. Mungkin masalah ini akan terus memburuk. Karena jumlahnya membengkak sampai ke tingkat yang sulit ditangani lewat peer review, sepertinya kita memang harus mencari cara lain. Belakangan ini jumlah submission paper ke konferensi-konferensi ternama tampaknya meningkat tajam, dan saya rasa mungkin alasannya mirip.