- GPTZero mendeteksi lebih dari 50 kesalahan sitasi dan informasi penulis palsu dalam makalah yang diajukan ke ICLR 2026
- Setiap makalah diverifikasi bersama tautan OpenReview untuk memastikan apakah benar-benar ada dan apakah sitasinya cocok
- Dalam banyak kasus, ditemukan penulis yang tidak ada, tahun yang salah, dan judul makalah yang berbeda
- Beberapa makalah sebagian cocok dengan makalah asli, tetapi metadata rinci telah terdistorsi
- Ini menjadi contoh yang menunjukkan bahwa masalah halusinasi yang dihasilkan AI (hallucination) juga menyebar ke naskah akademik yang diajukan
Hasil deteksi halusinasi ICLR 2026 oleh GPTZero
- GPTZero melakukan verifikasi otomatis terhadap kutipan dan informasi penulis pada makalah yang diajukan ke ICLR 2026
- Untuk setiap makalah, ditampilkan tautan OpenReview, tautan verifikasi GPTZero, dan informasi sitasi
- Hasil verifikasi menemukan lebih dari 50 sitasi palsu atau penulis yang tidak ada
Contoh kasus halusinasi yang menonjol
- Makalah TamperTok memang ada, tetapi seluruh informasi penulisnya salah
- Makalah MixtureVitae cocok untuk 3 penulis pertama, tetapi 7 penulis sisanya tidak ada
- OrtSAE, Principled Policy Optimization, IMPQ dan lainnya tidak cocok dengan makalah asli dari sisi judul atau penulis
- PDMBench memiliki makalah serupa, tetapi tahun dan judulnya berbeda
- C3-OWD, GRF-LLM dan lainnya diklasifikasikan sebagai kecocokan sebagian
Kasus yang sama sekali tidak cocok
- Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI dan lainnya tidak memiliki makalah yang disitasi
- SAFE-LLM, Typed Chain-of-Thought, MANTA dan lainnya memiliki makalah serupa, tetapi metadata tidak cocok
- AI-Assisted Medical Triage Assistant, QUART, KARMA dan lainnya mengutip makalah yang sama sekali tidak terkait
Metode verifikasi dan jenis hasil
- GPTZero membandingkan setiap sitasi dengan basis data nyata (misalnya arXiv, NeurIPS, ICLR, ACL, dan lainnya)
- Hasilnya diklasifikasikan sebagai “ada”, “kecocokan sebagian”, “tidak cocok”, “penulis palsu”, dan sebagainya
- Beberapa entri ditandai sebagai makalah nyata ada, tetapi penulis, tahun, dan judul semuanya berbeda
Makna dan implikasi
- Banyak naskah yang diajukan ke ICLR 2026 memuat begitu saja masalah halusinasi pada teks yang dihasilkan AI
- Dalam proses penulisan makalah akademik, kebutuhan akan alat otomatis untuk verifikasi fakta semakin menonjol
- Hasil deteksi GPTZero menunjukkan perlunya memperkuat sistem verifikasi keandalan konten yang dihasilkan AI
4 komentar
Apakah masih ada ruang untuk kemajuan lebih lanjut dari AI yang berulang dengan tingkat pengetahuan yang mirip?
Jika tidak, sepertinya dunia hanya akan dipenuhi tulisan hasil salinan dari manusia kloning yang sama, dan akan menjadi semakin sulit untuk memilah mana yang bernilai dan mana yang tidak.
Komentar Hacker News
Saya pikir tindakan seperti ini jelas merupakan pelanggaran etika profesional
Jika peneliti saya melakukan hal seperti ini, mereka akan terancam dipecat
Sebagai reviewer, ketika melihat penulis berbohong, saya tidak bisa lagi mempercayai seluruh makalahnya, dan secara etis menurut saya sudah tepat untuk langsung reject
Kesalahan itu umum, tetapi ini masalah di level yang berbeda
Di dunia Barat, kejujuran individu dianggap menopang kepercayaan terhadap seluruh dunia akademik, tetapi di Timur Tengah, India, dan Tiongkok ada kecenderungan untuk menganggap tindakan semacam ini sebagai tanggung jawab jurnal
Kalau perbedaan ini tidak dipahami, kolaborasi bisa menjadi sangat kacau
Dalam pengalaman saya, masalah utama yang menurunkan kualitas makalah adalah sitasi yang salah
Dibanding sitasi yang tidak ada, jauh lebih sering terjadi bahwa sumber yang disitasi sebenarnya tidak mengatakan hal tersebut atau konteksnya dipelintir
Menemukan kesalahan seperti ini membutuhkan waktu sangat lama karena kita harus membaca dan memahami sumber aslinya
Tindakan seperti ini bukan sekadar kekeliruan, melainkan menyebabkan erosi pengetahuan, jadi perlu sanksi seperti ‘3 kali peringatan lalu dikeluarkan’
Misalnya dengan membandingkan klaim dalam makalah dengan daftar sitasinya untuk memeriksa secara otomatis apakah benar ada landasannya
Dalam kasus seperti ini, itu bukan sekadar kecerobohan, melainkan manipulasi karena konflik kepentingan
Bukan AI semata yang jadi masalah, melainkan kemalasan dan kecerobohan
Jika ilmuwan menulis makalah dengan LLM yang berisi sitasi palsu, maka dia adalah ilmuwan yang buruk
Jika tidak ada sanksi sosial untuk tindakan seperti ini, pada akhirnya hal itu akan dibiarkan
Verifikasi teknis membutuhkan pemeriksa yang terampil
Pada akhirnya saya tetap melihat AI itu sendiri sebagai masalah
Justru karena tampilannya bagus, masalahnya jadi lebih tersembunyi
Meski begitu, dalam setahun terakhir halusinasi sudah berkurang, dan jika dibatasi pada makalah yang terverifikasi, alat ini cukup berguna
Namun, agar peneliti tidak bergantung pada alat semacam ini, struktur persaingan pendanaan yang terus-menerus harus diubah terlebih dahulu
LLM juga sama: ia mengembalikan jawaban yang diinginkan pengguna dan memperkuat bias konfirmasi
Saya rasa tidak ada cara yang aman untuk menggunakan LLM dalam riset ilmiah
Kalau benar-benar membaca makalah-makalah itu secara langsung, sering kali masalahnya bukan sekadar AI yang menulis, melainkan idenya sendiri dihasilkan AI
Di permukaan terlihat meyakinkan, tetapi isinya kosong dan tak masuk akal
Kalau ada peneliti sungguhan yang masuk ke daftar ini hanya karena kesalahan sederhana di .bib, itu patut disayangkan
Avi Loeb (fisikawan teoretis Harvard) menyebut bahwa kasus mahasiswa yang mengutip makalah yang tidak ada meningkat tajam
Mereka begitu saja mempercayai fiksi yang dibuat LLM tanpa melakukan verifikasi sama sekali
Artikel terkait: How AI is making us dumber
Memberi teladan buruk dari atas lalu memarahi orang di bawah adalah pendidikan yang buruk
Saya penasaran apakah riset ini menganggap semua sitasi yang salah sebagai halusinasi LLM
Perlu ada analisis baseline untuk melihat apakah kesalahan seperti ini juga ada pada makalah sebelum era LLM
Saya penasaran seperti apa hasilnya jika alat yang sama diterapkan pada makalah dari tahun 2010-an
Sebagian besar jurnal memverifikasi sitasi berdasarkan DOI, jadi makalah lama juga perlu dianalisis secara perbandingan
Cukup dengan memberi topik, LLM bisa menghasilkan makalah yang sangat mirip
Penyebabnya adalah sistem pengetahuan manusia yang tidak sempurna, bukan semata-mata masalah khas LLM
Tujuan peer review bukan sekadar mendeteksi kesalahan, melainkan menilai kebaruan dan tingkat kematangan
Karena itu, perlu ada insentif untuk mencegah kecerobohan
Misalnya, penerbit bisa membuat sistem hadiah untuk memberi imbalan kepada orang yang menemukan kelalaian besar, atau
menjalankan Wall of Shame yang memublikasikan peneliti yang berulang kali ceroboh
Saya sudah memakai alat manajemen sitasi seperti Zotero selama 15 tahun, dan tetap mengejutkan bahwa masih banyak sitasi dengan nama penulis yang salah
Jika pengiriman file .bib diwajibkan, kontrol kualitas dasar seharusnya bisa dilakukan lewat verifikasi DOI
Fakta bahwa verifikasi dasar seperti ini pun tidak dilakukan sungguh mengejutkan
Ada juga kasus penulis salah mengutip makalahnya sendiri, dan walaupun DOI-nya benar, salah ketik nama penulis sangat sering terjadi
Berkat alat semacam ini jumlah sitasi meningkat dan tingkat kesalahan menurun, tetapi tetap saja masih ada setidaknya satu kesalahan per makalah
Jika dari 20 ribu pengajuan hanya 300 yang diperiksa tetapi sudah ditemukan ratusan makalah berhalusinasi, maka skala sebenarnya kemungkinan jauh lebih besar
Halusinasi LLM adalah karakteristik yang memang dirancang
Dalam proses menghasilkan output yang tampak masuk akal secara statistik, sitasi palsu muncul secara alami
Namun secara teknis mesin sebenarnya bisa membuat sitasi yang benar
Hanya saja, LLM saat ini tidak menghasilkan apa yang kita minta berupa ‘pembuatan sitasi yang akurat’, melainkan hasil yang hanya mirip dari segi tampilan
Saya sudah lama berpikir bahwa LLM mungkin justru bisa menghambat kemajuan umat manusia, dan dalam konteks itu, masalah yang saya bayangkan tampaknya mulai muncul. Menurunkan beban kognitif dari sudut pandang manusia terasa seperti narkoba. Saya juga meneliti, tetapi bahkan di dalam tim kami pun ada kewaspadaan bahwa semakin sering memakai model LLM, semakin terbentuk kebiasaan untuk tidak berpikir. Mungkin masalah ini akan terus memburuk. Karena jumlahnya membengkak sampai ke tingkat yang sulit ditangani lewat peer review, sepertinya kita memang harus mencari cara lain. Belakangan ini jumlah submission paper ke konferensi-konferensi ternama tampaknya meningkat tajam, dan saya rasa mungkin alasannya mirip.
Saya setuju. Kalau begini terus, rasanya otak manusia akan terus menyusut.
Pada akhirnya, skenario AI menguasai manusia mungkin menjadi pemikiran paling tingkat tinggi yang bisa kita bayangkan saat ini. Ke depannya, bisa jadi tanpa revolusi baru yang membuat kita mampu mencapai pemikiran itu sekalipun, yang tersisa hanyalah fase konvergensi sampai kita dikendalikan oleh AI.