- Alat Hallucination Check milik GPTZero menganalisis 4.841 dari 5.290 makalah yang diterima di NeurIPS 2025 dan mengonfirmasi lebih dari 100 ‘kutipan halusinasi (hallucinated citations)’
- Di banyak makalah ditemukan jejak hasil buatan AI seperti penulis yang tidak ada, DOI·URL yang salah, dan judul yang direkayasa
- GPTZero mendefinisikan kesalahan semacam ini sebagai ‘vibe citing’, yaitu bentuk kutipan yang dibuat agar tampak meyakinkan dengan mencampur dan memodifikasi informasi makalah yang nyata
- Semua kasus telah melalui verifikasi oleh pakar manusia, dan alat ini memiliki tingkat false negative yang sangat rendah (deteksi 99%), sambil secara konservatif menandai kasus yang mencurigakan
- Ini dinilai sebagai contoh yang menunjukkan perlunya otomatisasi deteksi kesalahan sitasi AI dalam proses penulisan dan verifikasi makalah penelitian
Hasil analisis GPTZero terhadap makalah NeurIPS 2025
- GPTZero memindai 4.841 dari 5.290 makalah yang diterima di NeurIPS 2025 dan menemukan lebih dari 100 kutipan halusinasi
- Setiap kasus dipastikan sebagai kutipan yang sebenarnya tidak ada melalui verifikasi manusia
- Sebagai contoh, ditemukan banyak kutipan yang mencantumkan nama jurnal, nama penulis, dan DOI yang tidak ada
- GPTZero mengklasifikasikan kesalahan kutipan ini sebagai jejak hasil buatan AI (vibe citing)
- Bentuk yang umum adalah kutipan palsu yang menggabungkan atau memodifikasi judul dan penulis dari makalah nyata
- Sebagian memakai judul yang mirip dengan makalah asli, tetapi teridentifikasi lewat ketidakcocokan tahun, sumber, dan penulis
Definisi dan jenis ‘Vibe Citing’
- GPTZero mendefinisikan ‘vibe citing’ sebagai “kutipan yang dibuat oleh AI generatif dengan menggabungkan atau memodifikasi sumber yang nyata”
- Mencakup kasus yang memanipulasi atau mensintesis nama penulis, judul, penerbit, dan DOI
- Ada juga kasus yang mengutip sebagian makalah yang benar-benar ada, atau menciptakan nama jurnal palsu
- Sebaliknya, salah ketik, tautan mati, atau nomor halaman yang hilang tidak dimasukkan karena dianggap sebagai kesalahan manusia
- GPTZero menyajikan perbedaan antara kutipan nyata, rusak, dan halusinasi dalam tabel perbandingan
- Contoh: makalah “Deep learning” yang diubah menjadi “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” diklasifikasikan sebagai kutipan halusinasi
Fungsi alat Hallucination Check
- Hallucination Check adalah sistem deteksi berbasis AI untuk mengotomatiskan verifikasi sitasi
- Secara otomatis menandai kutipan yang tidak dapat diverifikasi secara online
- Membantu penulis, editor, dan reviewer meninjau kesalahan kutipan dengan cepat
- Tahap penggunaan
- Penulis memeriksa sitasi makalah secara otomatis sebelum pengiriman
- Reviewer dengan cepat mengidentifikasi kutipan yang belum terverifikasi
- Editor konferensi dan jurnal dapat menjalankannya bersama AI Detector untuk mendeteksi jejak penulisan AI dan kesalahan sitasi secara bersamaan
Akurasi verifikasi GPTZero
- Hallucination Check memiliki tingkat false negative yang sangat rendah (akurasi deteksi 99%)
- Artinya, kemungkinan melewatkan kutipan halusinasi yang nyata sangat kecil
- Sebaliknya, karena deteksinya konservatif, tingkat false positive agak lebih tinggi
- GPTZero juga menemukan puluhan kesalahan sitasi AI dengan metode yang sama pada ICLR 2026, laporan Deloitte, dan lainnya
Maknanya bagi akademia dan ekosistem penerbitan
- Kasus NeurIPS 2025 memperlihatkan masalah menurunnya keandalan sitasi seiring meluasnya penggunaan alat AI dalam penulisan makalah
- GPTZero bekerja sama dengan komite penyelenggara ICLR untuk membangun sistem verifikasi otomatis untuk makalah yang dikirimkan di masa mendatang
- Upaya semacam ini diperkirakan akan meningkatkan efisiensi dan transparansi peninjauan makalah serta memperkuat sistem verifikasi konten buatan AI
1 komentar
Komentar Hacker News
Saya memeriksa secara acak satu makalah yang salah satu rekan saya di Google ikut menulis sebagai co-author
Makalah yang disebut bermasalah itu adalah makalah ICLR 2024, dan dua penulis yang dikutip hilang sementara satu orang lain (Kyle Richardson) salah ditambahkan
Kutipan ini ada di bagian latar belakang, bukan inti makalah, dan kemungkinan besar hanya salah ketik sederhana yang muncul dalam proses autocomplete AI
Mungkin ada kasus serius di dataset itu, tetapi yang saya lihat hanyalah kesalahan kecil yang bisa langsung diperbaiki dengan pemeriksaan DOI
Masuknya makalah dengan ‘satu kesalahan’ seperti ini tampak seperti upaya untuk memaksimalkan efek promosi produk dari pihak penulis
Masalahnya, kita tidak tahu apakah ini satu-satunya kesalahan
Adanya kesalahan seperti ini adalah sinyal bahwa makalah diajukan tanpa verifikasi yang memadai, dan merupakan jejak penggunaan LLM secara ceroboh
Untuk memverifikasi sisanya dibutuhkan keahlian khusus dan eksperimen replikasi
Jika fenomena ini menyebar, ada risiko fondasi kepercayaan terhadap riset itu sendiri ikut terguncang
Namun dalam kasus ini salah
Jika halusinasi muncul di referensi, saya menganggap itu sinyal kuat bahwa seluruh makalah ditulis dengan AI
Padahal ini bisa tersaring hanya dengan pemeriksaan DOI, tetapi saat ini verifikasi sitasi bukan prosedur inti dalam proses review makalah
Model kepercayaan yang masih memperlakukan sitasi sebagai ‘teks naratif’ sudah tidak bisa diskalakan lagi
Di Duke University saya sedang mengerjakan proyek untuk menjadikan proses sitasi dan verifikasi sebagai infrastruktur yang dapat diverifikasi mesin (Liberata)
Justru menghapus ‘kasus yang tidak berbahaya’ akan lebih menyesatkan
Membiarkan data berbicara sendiri adalah pendekatan yang lebih jujur
Fenomena seperti ini tampaknya akan memberi pukulan serius pada riset ilmiah
Masalah manipulasi data saja sudah ada, dan jika LLM bisa menghasilkan makalah yang tampak meyakinkan, situasinya akan makin buruk
Meski begitu, ini mungkin bisa menjadi momentum agar reproducibility ditangani dengan lebih serius
Hampir tidak ada lembaga yang mau mendanai proposal seperti, “Tahun lalu kami butuh 2 tahun dan 1 juta dolar untuk memverifikasi makalah yang meragukan”
Tanpa mengubah struktur alokasi dana sains, masalah ini sulit diselesaikan
Jika penilaian didasarkan pada jumlah makalah, maka makalah berkualitas rendah akan membanjir; jika dinilai dari jumlah sitasi, maka hanya riset yang berpusat pada penemuan yang didorong
Studi replikasi sitasinya sedikit, dan pada akhirnya reputasi serta nafkah bergantung pada ‘penemuan’, jadi tidak ada yang mau berinvestasi pada replikasi
Proyek seperti Liberata ingin menggeser budaya publikasi dari berpusat pada ‘kebaruan’ menjadi berpusat pada ‘verifikasi dan replikasi’
Jika perubahan ini terjadi, kekacauan saat ini bisa menjadi proses koreksi yang memang diperlukan
Pandangannya adalah bahwa bahkan jika semua makalah bisa direplikasi, masalah mendasar sains tetap tidak terselesaikan
Tulisan terkait: Replication studies can’t fix science
Pihak NeurIPS menyatakan bahwa adanya halusinasi sitasi (reference hallucination) tidak otomatis membuat seluruh makalah menjadi tidak valid
Menurut artikel lengkap Fortune, penggunaan LLM berkembang sangat cepat, dan pada 2025 reviewer disebut telah diberi panduan untuk menandai halusinasi
Posisi mereka adalah bahwa meski ada kesalahan sitasi pada 1,1% makalah, isi makalah itu sendiri tidak otomatis batal
Kesannya seperti memilih satu alasan yang paling tidak berbahaya untuk menutupi seluruh masalah
Sains sudah mengalami krisis reproducibility, dan sekarang ditambah lagi dengan masalah halusinasi
Di tengah makin besarnya pengaruh perusahaan swasta, masa depan open science tampak suram
Bahkan pencabutan makalah pun tidak memberi kerugian nyata, dan strukturnya membuat expected value dari pelanggaran tetap positif
Jika insentif tidak berubah, keadaan hanya akan makin memburuk
Membiarkan LLM menangani sitasi pada akhirnya bisa berlanjut ke penyerahan interpretasi data juga, dan itu bisa menghasilkan hasil yang terhalusinasi
Ironisnya, makalah riset menyertakan tinjauan pustaka untuk melakukan dialog pengetahuan dengan riset sebelumnya
Memanipulasi sitasi dengan LLM berarti berdiri bukan di atas ‘bahu para raksasa’, melainkan di atas bahu ilusi
Saya menerima review yang sepenuhnya ditulis AI pada review makalah WACV 2024
Reviewer menulis review yang benar-benar berbeda di empat kotak teks (ringkasan, kekuatan, kelemahan, penilaian akhir), dan isinya saling bertentangan
Situasi seperti ini terjadi karena beban reviewer berlebihan, dan dibutuhkan lebih banyak relawan
(Kalau Anda mampu me-review makalah, saya sarankan langsung menghubungi program chair konferensi yang Anda sukai)
Beberapa makalah bahkan memasukkan nama palsu seperti ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’ di sitasi dan tidak ada yang menyadarinya
Bagi mahasiswa doktoral yang berhasil menerbitkan makalah NeurIPS pertamanya, imbalan ekonominya sangat besar
Sebagian besar internship di big tech pada praktiknya menganggap makalah first-author di NeurIPS/ICML/ICLR sebagai syarat hampir wajib
Sekali lolos, gaji tahunan bisa melonjak dua sampai tiga kali lipat, dan tidak berlebihan jika dikatakan karier pun terbuka lebar
Jadi tidak mengejutkan jika dalam struktur seperti ini muncul pelanggaran
Satu makalah NeurIPS saja bisa membuat seseorang memenuhi syarat untuk posisi riset bahkan tanpa gelar PhD, dengan gaji tahunan lebih dari 300 ribu dolar
Jika mendapat Spotlight atau presentasi Oral, nilainya bisa mencapai tujuh digit
Semua orang tampaknya sepakat bahwa struktur insentif saat ini melahirkan perilaku seperti ini
Kalau begitu, bukankah sebaiknya memakai ‘tongkat’ alih-alih ‘wortel’
Usulnya adalah memberi sanksi setingkat mengakhiri karier jika halusinasi LLM atau manipulasi data terdeteksi
Alat deteksi AI masih belum cukup andal, dan bisa saja itu hanya kesalahan BibTeX sederhana atau kekeliruan yang muncul saat koreksi tata bahasa
Saya rasa hukuman berat hanya layak untuk kasus pelanggaran yang disengaja seperti manipulasi data yang jelas terbukti
Akan menarik jika dianalisis juga seberapa banyak manipulasi sumber yang ada dalam makalah sebelum 2020
Saya tidak sepenuhnya percaya baik pada LLM maupun detektor AI
Hanya saja sekarang frekuensinya berakselerasi
Masalah kesalahan sitasi akan hilang jika biaya pencarian AI dan pengumpulan data menjadi 100 kali lebih murah daripada sekarang
Tetapi saat itu tiba, bahkan akan sulit membedakan apakah makalah yang ditulis AI benar-benar mencerminkan realitas,
dan kita mungkin memasuki semacam era ‘cermin stokastik (stochastic mirror)’