GPTZero Menemukan 100 Kutipan Halusinasi Baru dalam Makalah yang Diterima di NeurIPS 2025

(gptzero.me)

1 poin oleh GN⁺ 2026-01-23 | 1 komentar | Bagikan ke WhatsApp

Alat Hallucination Check milik GPTZero menganalisis 4.841 dari 5.290 makalah yang diterima di NeurIPS 2025 dan mengonfirmasi lebih dari 100 ‘kutipan halusinasi (hallucinated citations)’
Di banyak makalah ditemukan jejak hasil buatan AI seperti penulis yang tidak ada, DOI·URL yang salah, dan judul yang direkayasa
GPTZero mendefinisikan kesalahan semacam ini sebagai ‘vibe citing’, yaitu bentuk kutipan yang dibuat agar tampak meyakinkan dengan mencampur dan memodifikasi informasi makalah yang nyata
Semua kasus telah melalui verifikasi oleh pakar manusia, dan alat ini memiliki tingkat false negative yang sangat rendah (deteksi 99%), sambil secara konservatif menandai kasus yang mencurigakan
Ini dinilai sebagai contoh yang menunjukkan perlunya otomatisasi deteksi kesalahan sitasi AI dalam proses penulisan dan verifikasi makalah penelitian

Hasil analisis GPTZero terhadap makalah NeurIPS 2025

GPTZero memindai 4.841 dari 5.290 makalah yang diterima di NeurIPS 2025 dan menemukan lebih dari 100 kutipan halusinasi
- Setiap kasus dipastikan sebagai kutipan yang sebenarnya tidak ada melalui verifikasi manusia
- Sebagai contoh, ditemukan banyak kutipan yang mencantumkan nama jurnal, nama penulis, dan DOI yang tidak ada
GPTZero mengklasifikasikan kesalahan kutipan ini sebagai jejak hasil buatan AI (vibe citing)
- Bentuk yang umum adalah kutipan palsu yang menggabungkan atau memodifikasi judul dan penulis dari makalah nyata
- Sebagian memakai judul yang mirip dengan makalah asli, tetapi teridentifikasi lewat ketidakcocokan tahun, sumber, dan penulis

Definisi dan jenis ‘Vibe Citing’

GPTZero mendefinisikan ‘vibe citing’ sebagai “kutipan yang dibuat oleh AI generatif dengan menggabungkan atau memodifikasi sumber yang nyata”
- Mencakup kasus yang memanipulasi atau mensintesis nama penulis, judul, penerbit, dan DOI
- Ada juga kasus yang mengutip sebagian makalah yang benar-benar ada, atau menciptakan nama jurnal palsu
Sebaliknya, salah ketik, tautan mati, atau nomor halaman yang hilang tidak dimasukkan karena dianggap sebagai kesalahan manusia
GPTZero menyajikan perbedaan antara kutipan nyata, rusak, dan halusinasi dalam tabel perbandingan
- Contoh: makalah “Deep learning” yang diubah menjadi “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” diklasifikasikan sebagai kutipan halusinasi

Fungsi alat Hallucination Check

Hallucination Check adalah sistem deteksi berbasis AI untuk mengotomatiskan verifikasi sitasi
- Secara otomatis menandai kutipan yang tidak dapat diverifikasi secara online
- Membantu penulis, editor, dan reviewer meninjau kesalahan kutipan dengan cepat
Tahap penggunaan
1. Penulis memeriksa sitasi makalah secara otomatis sebelum pengiriman
2. Reviewer dengan cepat mengidentifikasi kutipan yang belum terverifikasi
3. Editor konferensi dan jurnal dapat menjalankannya bersama AI Detector untuk mendeteksi jejak penulisan AI dan kesalahan sitasi secara bersamaan

Akurasi verifikasi GPTZero

Hallucination Check memiliki tingkat false negative yang sangat rendah (akurasi deteksi 99%)
- Artinya, kemungkinan melewatkan kutipan halusinasi yang nyata sangat kecil
- Sebaliknya, karena deteksinya konservatif, tingkat false positive agak lebih tinggi
GPTZero juga menemukan puluhan kesalahan sitasi AI dengan metode yang sama pada ICLR 2026, laporan Deloitte, dan lainnya

Maknanya bagi akademia dan ekosistem penerbitan

Kasus NeurIPS 2025 memperlihatkan masalah menurunnya keandalan sitasi seiring meluasnya penggunaan alat AI dalam penulisan makalah
GPTZero bekerja sama dengan komite penyelenggara ICLR untuk membangun sistem verifikasi otomatis untuk makalah yang dikirimkan di masa mendatang
Upaya semacam ini diperkirakan akan meningkatkan efisiensi dan transparansi peninjauan makalah serta memperkuat sistem verifikasi konten buatan AI

1 komentar

GN⁺ 2026-01-23

Komentar Hacker News

Saya memeriksa secara acak satu makalah yang salah satu rekan saya di Google ikut menulis sebagai co-author
Makalah yang disebut bermasalah itu adalah makalah ICLR 2024, dan dua penulis yang dikutip hilang sementara satu orang lain (Kyle Richardson) salah ditambahkan
Kutipan ini ada di bagian latar belakang, bukan inti makalah, dan kemungkinan besar hanya salah ketik sederhana yang muncul dalam proses autocomplete AI
Mungkin ada kasus serius di dataset itu, tetapi yang saya lihat hanyalah kesalahan kecil yang bisa langsung diperbaiki dengan pemeriksaan DOI
Masuknya makalah dengan ‘satu kesalahan’ seperti ini tampak seperti upaya untuk memaksimalkan efek promosi produk dari pihak penulis
- Kesalahan seperti ini adalah tanda khas halusinasi yang bahkan mudah diperiksa oleh non-ahli
  Masalahnya, kita tidak tahu apakah ini satu-satunya kesalahan
  Adanya kesalahan seperti ini adalah sinyal bahwa makalah diajukan tanpa verifikasi yang memadai, dan merupakan jejak penggunaan LLM secara ceroboh
  Untuk memverifikasi sisanya dibutuhkan keahlian khusus dan eksperimen replikasi
  Jika fenomena ini menyebar, ada risiko fondasi kepercayaan terhadap riset itu sendiri ikut terguncang
- Analisis yang kurang adalah perbandingan dengan konferensi sebelum era LLM (2022~2023) untuk menunjukkan tingkat false positive alat tersebut
- Biasanya kalau daftar pustaka makalah di-copy-paste, nama penulis tidak akan sampai salah
  Namun dalam kasus ini salah
  Jika halusinasi muncul di referensi, saya menganggap itu sinyal kuat bahwa seluruh makalah ditulis dengan AI
- Menarik bahwa kesalahan seperti ini mudah terjadi dan sulit tertangkap
  Padahal ini bisa tersaring hanya dengan pemeriksaan DOI, tetapi saat ini verifikasi sitasi bukan prosedur inti dalam proses review makalah
  Model kepercayaan yang masih memperlakukan sitasi sebagai ‘teks naratif’ sudah tidak bisa diskalakan lagi
  Di Duke University saya sedang mengerjakan proyek untuk menjadikan proses sitasi dan verifikasi sebagai infrastruktur yang dapat diverifikasi mesin (Liberata)
- Saya rasa dataset penulis itu tidak mengklaim dampak spesifik dari halusinasi
  Justru menghapus ‘kasus yang tidak berbahaya’ akan lebih menyesatkan
  Membiarkan data berbicara sendiri adalah pendekatan yang lebih jujur
Fenomena seperti ini tampaknya akan memberi pukulan serius pada riset ilmiah
Masalah manipulasi data saja sudah ada, dan jika LLM bisa menghasilkan makalah yang tampak meyakinkan, situasinya akan makin buruk
Meski begitu, ini mungkin bisa menjadi momentum agar reproducibility ditangani dengan lebih serius
- Akar masalah reproducibility adalah kekurangan pendanaan
  Hampir tidak ada lembaga yang mau mendanai proposal seperti, “Tahun lalu kami butuh 2 tahun dan 1 juta dolar untuk memverifikasi makalah yang meragukan”
  Tanpa mengubah struktur alokasi dana sains, masalah ini sulit diselesaikan
- Sebagian besar ilmuwan juga mengakui adanya krisis reproducibility, tetapi masalahnya ada pada struktur insentif
  Jika penilaian didasarkan pada jumlah makalah, maka makalah berkualitas rendah akan membanjir; jika dinilai dari jumlah sitasi, maka hanya riset yang berpusat pada penemuan yang didorong
  Studi replikasi sitasinya sedikit, dan pada akhirnya reputasi serta nafkah bergantung pada ‘penemuan’, jadi tidak ada yang mau berinvestasi pada replikasi
- AI juga bisa menjadi pemicu untuk menyingkap masalah struktural seperti ini
  Proyek seperti Liberata ingin menggeser budaya publikasi dari berpusat pada ‘kebaruan’ menjadi berpusat pada ‘verifikasi dan replikasi’
  Jika perubahan ini terjadi, kekacauan saat ini bisa menjadi proses koreksi yang memang diperlukan
- Ada yang berpendapat bahwa reproducibility itu sendiri terlalu dilebih-lebihkan
  Pandangannya adalah bahwa bahkan jika semua makalah bisa direplikasi, masalah mendasar sains tetap tidak terselesaikan
  Tulisan terkait: Replication studies can’t fix science
- Saya penasaran apakah masalah makalah yang masih terus mengutip riset yang sudah dibatalkan itu sudah terselesaikan
Pihak NeurIPS menyatakan bahwa adanya halusinasi sitasi (reference hallucination) tidak otomatis membuat seluruh makalah menjadi tidak valid
Menurut artikel lengkap Fortune, penggunaan LLM berkembang sangat cepat, dan pada 2025 reviewer disebut telah diberi panduan untuk menandai halusinasi
Posisi mereka adalah bahwa meski ada kesalahan sitasi pada 1,1% makalah, isi makalah itu sendiri tidak otomatis batal
- Namun ini tampak seperti respons yang terlalu lunak
  Kesannya seperti memilih satu alasan yang paling tidak berbahaya untuk menutupi seluruh masalah
  Sains sudah mengalami krisis reproducibility, dan sekarang ditambah lagi dengan masalah halusinasi
  Di tengah makin besarnya pengaruh perusahaan swasta, masa depan open science tampak suram
- Karena tidak ada hukuman, hal seperti ini akan terus terjadi
  Bahkan pencabutan makalah pun tidak memberi kerugian nyata, dan strukturnya membuat expected value dari pelanggaran tetap positif
  Jika insentif tidak berubah, keadaan hanya akan makin memburuk
- Ada juga pendapat bahwa semua makalah yang diajukan harus diperiksa dengan alat seperti GPTZero, dan jika ada halusinasi maka langsung ditolak
- Adanya kesalahan sitasi memang tidak otomatis berarti isinya salah, tetapi satu manipulasi saja bisa meruntuhkan seluruh kepercayaan
  Membiarkan LLM menangani sitasi pada akhirnya bisa berlanjut ke penyerahan interpretasi data juga, dan itu bisa menghasilkan hasil yang terhalusinasi
- Saya pikir jika halusinasi LLM ditemukan bahkan sekali saja, makalah harus dicabut dan penulisnya dilarang mengajukan lagi
Ironisnya, makalah riset menyertakan tinjauan pustaka untuk melakukan dialog pengetahuan dengan riset sebelumnya
Memanipulasi sitasi dengan LLM berarti berdiri bukan di atas ‘bahu para raksasa’, melainkan di atas bahu ilusi
- Karena itu ada yang bercanda, “Ini berdiri di atas bahu kebohongan”
- Secara filosofis, pertanyaannya yang tersisa adalah apakah LLM menciptakan sampah baru, atau hanya memperbesar struktur produksi sampah yang sudah ada
Saya menerima review yang sepenuhnya ditulis AI pada review makalah WACV 2024
Reviewer menulis review yang benar-benar berbeda di empat kotak teks (ringkasan, kekuatan, kelemahan, penilaian akhir), dan isinya saling bertentangan
Situasi seperti ini terjadi karena beban reviewer berlebihan, dan dibutuhkan lebih banyak relawan
(Kalau Anda mampu me-review makalah, saya sarankan langsung menghubungi program chair konferensi yang Anda sukai)
- Tidak ada reaksi selain, “Wah…”
Beberapa makalah bahkan memasukkan nama palsu seperti ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’ di sitasi dan tidak ada yang menyadarinya
- Tetap saja, saya harap kalau akhirnya ketahuan nanti akan dihukum
- Ada juga yang sinis berkata, “Inilah cara masa depan”
Bagi mahasiswa doktoral yang berhasil menerbitkan makalah NeurIPS pertamanya, imbalan ekonominya sangat besar
Sebagian besar internship di big tech pada praktiknya menganggap makalah first-author di NeurIPS/ICML/ICLR sebagai syarat hampir wajib
Sekali lolos, gaji tahunan bisa melonjak dua sampai tiga kali lipat, dan tidak berlebihan jika dikatakan karier pun terbuka lebar
Jadi tidak mengejutkan jika dalam struktur seperti ini muncul pelanggaran
- Faktanya, nilai pasar satu makalah jauh lebih besar
  Satu makalah NeurIPS saja bisa membuat seseorang memenuhi syarat untuk posisi riset bahkan tanpa gelar PhD, dengan gaji tahunan lebih dari 300 ribu dolar
  Jika mendapat Spotlight atau presentasi Oral, nilainya bisa mencapai tujuh digit
Semua orang tampaknya sepakat bahwa struktur insentif saat ini melahirkan perilaku seperti ini
Kalau begitu, bukankah sebaiknya memakai ‘tongkat’ alih-alih ‘wortel’
Usulnya adalah memberi sanksi setingkat mengakhiri karier jika halusinasi LLM atau manipulasi data terdeteksi
- Namun makin berat hukumannya, makin diperlukan due process
  Alat deteksi AI masih belum cukup andal, dan bisa saja itu hanya kesalahan BibTeX sederhana atau kekeliruan yang muncul saat koreksi tata bahasa
  Saya rasa hukuman berat hanya layak untuk kasus pelanggaran yang disengaja seperti manipulasi data yang jelas terbukti
Akan menarik jika dianalisis juga seberapa banyak manipulasi sumber yang ada dalam makalah sebelum 2020
- Saya juga penasaran seberapa sering detektor AI salah menandai makalah pra-LLM sebagai tulisan AI
  Saya tidak sepenuhnya percaya baik pada LLM maupun detektor AI
- Pada akhirnya, sangat mungkin masalah seperti ini juga sudah ada sejak dulu
  Hanya saja sekarang frekuensinya berakselerasi
Masalah kesalahan sitasi akan hilang jika biaya pencarian AI dan pengumpulan data menjadi 100 kali lebih murah daripada sekarang
Tetapi saat itu tiba, bahkan akan sulit membedakan apakah makalah yang ditulis AI benar-benar mencerminkan realitas,
dan kita mungkin memasuki semacam era ‘cermin stokastik (stochastic mirror)’

GPTZero Menemukan 100 Kutipan Halusinasi Baru dalam Makalah yang Diterima di NeurIPS 2025

Hasil analisis GPTZero terhadap makalah NeurIPS 2025

Definisi dan jenis ‘Vibe Citing’

Fungsi alat Hallucination Check

Akurasi verifikasi GPTZero

Maknanya bagi akademia dan ekosistem penerbitan

Bacaan terkait

1 komentar

Komentar Hacker News