1 poin oleh GN⁺ 2026-01-23 | 1 komentar | Bagikan ke WhatsApp
  • Alat Hallucination Check milik GPTZero menganalisis 4.841 dari 5.290 makalah yang diterima di NeurIPS 2025 dan mengonfirmasi lebih dari 100 ‘kutipan halusinasi (hallucinated citations)’
  • Di banyak makalah ditemukan jejak hasil buatan AI seperti penulis yang tidak ada, DOI·URL yang salah, dan judul yang direkayasa
  • GPTZero mendefinisikan kesalahan semacam ini sebagai ‘vibe citing’, yaitu bentuk kutipan yang dibuat agar tampak meyakinkan dengan mencampur dan memodifikasi informasi makalah yang nyata
  • Semua kasus telah melalui verifikasi oleh pakar manusia, dan alat ini memiliki tingkat false negative yang sangat rendah (deteksi 99%), sambil secara konservatif menandai kasus yang mencurigakan
  • Ini dinilai sebagai contoh yang menunjukkan perlunya otomatisasi deteksi kesalahan sitasi AI dalam proses penulisan dan verifikasi makalah penelitian

Hasil analisis GPTZero terhadap makalah NeurIPS 2025

  • GPTZero memindai 4.841 dari 5.290 makalah yang diterima di NeurIPS 2025 dan menemukan lebih dari 100 kutipan halusinasi
    • Setiap kasus dipastikan sebagai kutipan yang sebenarnya tidak ada melalui verifikasi manusia
    • Sebagai contoh, ditemukan banyak kutipan yang mencantumkan nama jurnal, nama penulis, dan DOI yang tidak ada
  • GPTZero mengklasifikasikan kesalahan kutipan ini sebagai jejak hasil buatan AI (vibe citing)
    • Bentuk yang umum adalah kutipan palsu yang menggabungkan atau memodifikasi judul dan penulis dari makalah nyata
    • Sebagian memakai judul yang mirip dengan makalah asli, tetapi teridentifikasi lewat ketidakcocokan tahun, sumber, dan penulis

Definisi dan jenis ‘Vibe Citing’

  • GPTZero mendefinisikan ‘vibe citing’ sebagai “kutipan yang dibuat oleh AI generatif dengan menggabungkan atau memodifikasi sumber yang nyata”
    • Mencakup kasus yang memanipulasi atau mensintesis nama penulis, judul, penerbit, dan DOI
    • Ada juga kasus yang mengutip sebagian makalah yang benar-benar ada, atau menciptakan nama jurnal palsu
  • Sebaliknya, salah ketik, tautan mati, atau nomor halaman yang hilang tidak dimasukkan karena dianggap sebagai kesalahan manusia
  • GPTZero menyajikan perbedaan antara kutipan nyata, rusak, dan halusinasi dalam tabel perbandingan
    • Contoh: makalah “Deep learning” yang diubah menjadi “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” diklasifikasikan sebagai kutipan halusinasi

Fungsi alat Hallucination Check

  • Hallucination Check adalah sistem deteksi berbasis AI untuk mengotomatiskan verifikasi sitasi
    • Secara otomatis menandai kutipan yang tidak dapat diverifikasi secara online
    • Membantu penulis, editor, dan reviewer meninjau kesalahan kutipan dengan cepat
  • Tahap penggunaan
    1. Penulis memeriksa sitasi makalah secara otomatis sebelum pengiriman
    2. Reviewer dengan cepat mengidentifikasi kutipan yang belum terverifikasi
    3. Editor konferensi dan jurnal dapat menjalankannya bersama AI Detector untuk mendeteksi jejak penulisan AI dan kesalahan sitasi secara bersamaan

Akurasi verifikasi GPTZero

  • Hallucination Check memiliki tingkat false negative yang sangat rendah (akurasi deteksi 99%)
    • Artinya, kemungkinan melewatkan kutipan halusinasi yang nyata sangat kecil
    • Sebaliknya, karena deteksinya konservatif, tingkat false positive agak lebih tinggi
  • GPTZero juga menemukan puluhan kesalahan sitasi AI dengan metode yang sama pada ICLR 2026, laporan Deloitte, dan lainnya

Maknanya bagi akademia dan ekosistem penerbitan

  • Kasus NeurIPS 2025 memperlihatkan masalah menurunnya keandalan sitasi seiring meluasnya penggunaan alat AI dalam penulisan makalah
  • GPTZero bekerja sama dengan komite penyelenggara ICLR untuk membangun sistem verifikasi otomatis untuk makalah yang dikirimkan di masa mendatang
  • Upaya semacam ini diperkirakan akan meningkatkan efisiensi dan transparansi peninjauan makalah serta memperkuat sistem verifikasi konten buatan AI

1 komentar

 
GN⁺ 2026-01-23
Komentar Hacker News
  • Saya memeriksa secara acak satu makalah yang salah satu rekan saya di Google ikut menulis sebagai co-author
    Makalah yang disebut bermasalah itu adalah makalah ICLR 2024, dan dua penulis yang dikutip hilang sementara satu orang lain (Kyle Richardson) salah ditambahkan
    Kutipan ini ada di bagian latar belakang, bukan inti makalah, dan kemungkinan besar hanya salah ketik sederhana yang muncul dalam proses autocomplete AI
    Mungkin ada kasus serius di dataset itu, tetapi yang saya lihat hanyalah kesalahan kecil yang bisa langsung diperbaiki dengan pemeriksaan DOI
    Masuknya makalah dengan ‘satu kesalahan’ seperti ini tampak seperti upaya untuk memaksimalkan efek promosi produk dari pihak penulis

    • Kesalahan seperti ini adalah tanda khas halusinasi yang bahkan mudah diperiksa oleh non-ahli
      Masalahnya, kita tidak tahu apakah ini satu-satunya kesalahan
      Adanya kesalahan seperti ini adalah sinyal bahwa makalah diajukan tanpa verifikasi yang memadai, dan merupakan jejak penggunaan LLM secara ceroboh
      Untuk memverifikasi sisanya dibutuhkan keahlian khusus dan eksperimen replikasi
      Jika fenomena ini menyebar, ada risiko fondasi kepercayaan terhadap riset itu sendiri ikut terguncang
    • Analisis yang kurang adalah perbandingan dengan konferensi sebelum era LLM (2022~2023) untuk menunjukkan tingkat false positive alat tersebut
    • Biasanya kalau daftar pustaka makalah di-copy-paste, nama penulis tidak akan sampai salah
      Namun dalam kasus ini salah
      Jika halusinasi muncul di referensi, saya menganggap itu sinyal kuat bahwa seluruh makalah ditulis dengan AI
    • Menarik bahwa kesalahan seperti ini mudah terjadi dan sulit tertangkap
      Padahal ini bisa tersaring hanya dengan pemeriksaan DOI, tetapi saat ini verifikasi sitasi bukan prosedur inti dalam proses review makalah
      Model kepercayaan yang masih memperlakukan sitasi sebagai ‘teks naratif’ sudah tidak bisa diskalakan lagi
      Di Duke University saya sedang mengerjakan proyek untuk menjadikan proses sitasi dan verifikasi sebagai infrastruktur yang dapat diverifikasi mesin (Liberata)
    • Saya rasa dataset penulis itu tidak mengklaim dampak spesifik dari halusinasi
      Justru menghapus ‘kasus yang tidak berbahaya’ akan lebih menyesatkan
      Membiarkan data berbicara sendiri adalah pendekatan yang lebih jujur
  • Fenomena seperti ini tampaknya akan memberi pukulan serius pada riset ilmiah
    Masalah manipulasi data saja sudah ada, dan jika LLM bisa menghasilkan makalah yang tampak meyakinkan, situasinya akan makin buruk
    Meski begitu, ini mungkin bisa menjadi momentum agar reproducibility ditangani dengan lebih serius

    • Akar masalah reproducibility adalah kekurangan pendanaan
      Hampir tidak ada lembaga yang mau mendanai proposal seperti, “Tahun lalu kami butuh 2 tahun dan 1 juta dolar untuk memverifikasi makalah yang meragukan”
      Tanpa mengubah struktur alokasi dana sains, masalah ini sulit diselesaikan
    • Sebagian besar ilmuwan juga mengakui adanya krisis reproducibility, tetapi masalahnya ada pada struktur insentif
      Jika penilaian didasarkan pada jumlah makalah, maka makalah berkualitas rendah akan membanjir; jika dinilai dari jumlah sitasi, maka hanya riset yang berpusat pada penemuan yang didorong
      Studi replikasi sitasinya sedikit, dan pada akhirnya reputasi serta nafkah bergantung pada ‘penemuan’, jadi tidak ada yang mau berinvestasi pada replikasi
    • AI juga bisa menjadi pemicu untuk menyingkap masalah struktural seperti ini
      Proyek seperti Liberata ingin menggeser budaya publikasi dari berpusat pada ‘kebaruan’ menjadi berpusat pada ‘verifikasi dan replikasi’
      Jika perubahan ini terjadi, kekacauan saat ini bisa menjadi proses koreksi yang memang diperlukan
    • Ada yang berpendapat bahwa reproducibility itu sendiri terlalu dilebih-lebihkan
      Pandangannya adalah bahwa bahkan jika semua makalah bisa direplikasi, masalah mendasar sains tetap tidak terselesaikan
      Tulisan terkait: Replication studies can’t fix science
    • Saya penasaran apakah masalah makalah yang masih terus mengutip riset yang sudah dibatalkan itu sudah terselesaikan
  • Pihak NeurIPS menyatakan bahwa adanya halusinasi sitasi (reference hallucination) tidak otomatis membuat seluruh makalah menjadi tidak valid
    Menurut artikel lengkap Fortune, penggunaan LLM berkembang sangat cepat, dan pada 2025 reviewer disebut telah diberi panduan untuk menandai halusinasi
    Posisi mereka adalah bahwa meski ada kesalahan sitasi pada 1,1% makalah, isi makalah itu sendiri tidak otomatis batal

    • Namun ini tampak seperti respons yang terlalu lunak
      Kesannya seperti memilih satu alasan yang paling tidak berbahaya untuk menutupi seluruh masalah
      Sains sudah mengalami krisis reproducibility, dan sekarang ditambah lagi dengan masalah halusinasi
      Di tengah makin besarnya pengaruh perusahaan swasta, masa depan open science tampak suram
    • Karena tidak ada hukuman, hal seperti ini akan terus terjadi
      Bahkan pencabutan makalah pun tidak memberi kerugian nyata, dan strukturnya membuat expected value dari pelanggaran tetap positif
      Jika insentif tidak berubah, keadaan hanya akan makin memburuk
    • Ada juga pendapat bahwa semua makalah yang diajukan harus diperiksa dengan alat seperti GPTZero, dan jika ada halusinasi maka langsung ditolak
    • Adanya kesalahan sitasi memang tidak otomatis berarti isinya salah, tetapi satu manipulasi saja bisa meruntuhkan seluruh kepercayaan
      Membiarkan LLM menangani sitasi pada akhirnya bisa berlanjut ke penyerahan interpretasi data juga, dan itu bisa menghasilkan hasil yang terhalusinasi
    • Saya pikir jika halusinasi LLM ditemukan bahkan sekali saja, makalah harus dicabut dan penulisnya dilarang mengajukan lagi
  • Ironisnya, makalah riset menyertakan tinjauan pustaka untuk melakukan dialog pengetahuan dengan riset sebelumnya
    Memanipulasi sitasi dengan LLM berarti berdiri bukan di atas ‘bahu para raksasa’, melainkan di atas bahu ilusi

    • Karena itu ada yang bercanda, “Ini berdiri di atas bahu kebohongan”
    • Secara filosofis, pertanyaannya yang tersisa adalah apakah LLM menciptakan sampah baru, atau hanya memperbesar struktur produksi sampah yang sudah ada
  • Saya menerima review yang sepenuhnya ditulis AI pada review makalah WACV 2024
    Reviewer menulis review yang benar-benar berbeda di empat kotak teks (ringkasan, kekuatan, kelemahan, penilaian akhir), dan isinya saling bertentangan
    Situasi seperti ini terjadi karena beban reviewer berlebihan, dan dibutuhkan lebih banyak relawan
    (Kalau Anda mampu me-review makalah, saya sarankan langsung menghubungi program chair konferensi yang Anda sukai)

    • Tidak ada reaksi selain, “Wah…”
  • Beberapa makalah bahkan memasukkan nama palsu seperti ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’ di sitasi dan tidak ada yang menyadarinya

    • Tetap saja, saya harap kalau akhirnya ketahuan nanti akan dihukum
    • Ada juga yang sinis berkata, “Inilah cara masa depan”
  • Bagi mahasiswa doktoral yang berhasil menerbitkan makalah NeurIPS pertamanya, imbalan ekonominya sangat besar
    Sebagian besar internship di big tech pada praktiknya menganggap makalah first-author di NeurIPS/ICML/ICLR sebagai syarat hampir wajib
    Sekali lolos, gaji tahunan bisa melonjak dua sampai tiga kali lipat, dan tidak berlebihan jika dikatakan karier pun terbuka lebar
    Jadi tidak mengejutkan jika dalam struktur seperti ini muncul pelanggaran

    • Faktanya, nilai pasar satu makalah jauh lebih besar
      Satu makalah NeurIPS saja bisa membuat seseorang memenuhi syarat untuk posisi riset bahkan tanpa gelar PhD, dengan gaji tahunan lebih dari 300 ribu dolar
      Jika mendapat Spotlight atau presentasi Oral, nilainya bisa mencapai tujuh digit
  • Semua orang tampaknya sepakat bahwa struktur insentif saat ini melahirkan perilaku seperti ini
    Kalau begitu, bukankah sebaiknya memakai ‘tongkat’ alih-alih ‘wortel’
    Usulnya adalah memberi sanksi setingkat mengakhiri karier jika halusinasi LLM atau manipulasi data terdeteksi

    • Namun makin berat hukumannya, makin diperlukan due process
      Alat deteksi AI masih belum cukup andal, dan bisa saja itu hanya kesalahan BibTeX sederhana atau kekeliruan yang muncul saat koreksi tata bahasa
      Saya rasa hukuman berat hanya layak untuk kasus pelanggaran yang disengaja seperti manipulasi data yang jelas terbukti
  • Akan menarik jika dianalisis juga seberapa banyak manipulasi sumber yang ada dalam makalah sebelum 2020

    • Saya juga penasaran seberapa sering detektor AI salah menandai makalah pra-LLM sebagai tulisan AI
      Saya tidak sepenuhnya percaya baik pada LLM maupun detektor AI
    • Pada akhirnya, sangat mungkin masalah seperti ini juga sudah ada sejak dulu
      Hanya saja sekarang frekuensinya berakselerasi
  • Masalah kesalahan sitasi akan hilang jika biaya pencarian AI dan pengumpulan data menjadi 100 kali lebih murah daripada sekarang
    Tetapi saat itu tiba, bahkan akan sulit membedakan apakah makalah yang ditulis AI benar-benar mencerminkan realitas,
    dan kita mungkin memasuki semacam era ‘cermin stokastik (stochastic mirror)’