3 poin oleh GN⁺ 2025-12-08 | 4 komentar | Bagikan ke WhatsApp
  • GPTZero mendeteksi lebih dari 50 kesalahan sitasi dan informasi penulis palsu dalam makalah yang diajukan ke ICLR 2026
  • Setiap makalah diverifikasi bersama tautan OpenReview untuk memastikan apakah benar-benar ada dan apakah sitasinya cocok
  • Dalam banyak kasus, ditemukan penulis yang tidak ada, tahun yang salah, dan judul makalah yang berbeda
  • Beberapa makalah sebagian cocok dengan makalah asli, tetapi metadata rinci telah terdistorsi
  • Ini menjadi contoh yang menunjukkan bahwa masalah halusinasi yang dihasilkan AI (hallucination) juga menyebar ke naskah akademik yang diajukan

Hasil deteksi halusinasi ICLR 2026 oleh GPTZero

  • GPTZero melakukan verifikasi otomatis terhadap kutipan dan informasi penulis pada makalah yang diajukan ke ICLR 2026
    • Untuk setiap makalah, ditampilkan tautan OpenReview, tautan verifikasi GPTZero, dan informasi sitasi
    • Hasil verifikasi menemukan lebih dari 50 sitasi palsu atau penulis yang tidak ada

Contoh kasus halusinasi yang menonjol

  • Makalah TamperTok memang ada, tetapi seluruh informasi penulisnya salah
  • Makalah MixtureVitae cocok untuk 3 penulis pertama, tetapi 7 penulis sisanya tidak ada
  • OrtSAE, Principled Policy Optimization, IMPQ dan lainnya tidak cocok dengan makalah asli dari sisi judul atau penulis
  • PDMBench memiliki makalah serupa, tetapi tahun dan judulnya berbeda
  • C3-OWD, GRF-LLM dan lainnya diklasifikasikan sebagai kecocokan sebagian
Iklan

Kasus yang sama sekali tidak cocok

  • Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI dan lainnya tidak memiliki makalah yang disitasi
  • SAFE-LLM, Typed Chain-of-Thought, MANTA dan lainnya memiliki makalah serupa, tetapi metadata tidak cocok
  • AI-Assisted Medical Triage Assistant, QUART, KARMA dan lainnya mengutip makalah yang sama sekali tidak terkait

Metode verifikasi dan jenis hasil

  • GPTZero membandingkan setiap sitasi dengan basis data nyata (misalnya arXiv, NeurIPS, ICLR, ACL, dan lainnya)
    • Hasilnya diklasifikasikan sebagai “ada”, “kecocokan sebagian”, “tidak cocok”, “penulis palsu”, dan sebagainya
    • Beberapa entri ditandai sebagai makalah nyata ada, tetapi penulis, tahun, dan judul semuanya berbeda

Makna dan implikasi

  • Banyak naskah yang diajukan ke ICLR 2026 memuat begitu saja masalah halusinasi pada teks yang dihasilkan AI
  • Dalam proses penulisan makalah akademik, kebutuhan akan alat otomatis untuk verifikasi fakta semakin menonjol
  • Hasil deteksi GPTZero menunjukkan perlunya memperkuat sistem verifikasi keandalan konten yang dihasilkan AI

4 komentar

 
shakespeares 2025-12-09

Apakah masih ada ruang untuk kemajuan lebih lanjut dari AI yang berulang dengan tingkat pengetahuan yang mirip?
Jika tidak, sepertinya dunia hanya akan dipenuhi tulisan hasil salinan dari manusia kloning yang sama, dan akan menjadi semakin sulit untuk memilah mana yang bernilai dan mana yang tidak.

 
GN⁺ 2025-12-08
Komentar Hacker News
  • Saya pikir tindakan seperti ini jelas merupakan pelanggaran etika profesional
    Jika peneliti saya melakukan hal seperti ini, mereka akan terancam dipecat
    Sebagai reviewer, ketika melihat penulis berbohong, saya tidak bisa lagi mempercayai seluruh makalahnya, dan secara etis menurut saya sudah tepat untuk langsung reject
    Kesalahan itu umum, tetapi ini masalah di level yang berbeda

    • Ini juga tampak seperti masalah perbedaan budaya
      Di dunia Barat, kejujuran individu dianggap menopang kepercayaan terhadap seluruh dunia akademik, tetapi di Timur Tengah, India, dan Tiongkok ada kecenderungan untuk menganggap tindakan semacam ini sebagai tanggung jawab jurnal
      Kalau perbedaan ini tidak dipahami, kolaborasi bisa menjadi sangat kacau
  • Dalam pengalaman saya, masalah utama yang menurunkan kualitas makalah adalah sitasi yang salah
    Dibanding sitasi yang tidak ada, jauh lebih sering terjadi bahwa sumber yang disitasi sebenarnya tidak mengatakan hal tersebut atau konteksnya dipelintir
    Menemukan kesalahan seperti ini membutuhkan waktu sangat lama karena kita harus membaca dan memahami sumber aslinya
    Tindakan seperti ini bukan sekadar kekeliruan, melainkan menyebabkan erosi pengetahuan, jadi perlu sanksi seperti ‘3 kali peringatan lalu dikeluarkan’

    • Verifikasi seperti ini justru bisa menjadi area yang cocok untuk LLM
      Misalnya dengan membandingkan klaim dalam makalah dengan daftar sitasinya untuk memeriksa secara otomatis apakah benar ada landasannya
    • Namun, sebagian peneliti sengaja mendistorsi hasil agar sesuai dengan keinginan penyandang dana (Exxon, Meta, Pfizer, dll.)
      Dalam kasus seperti ini, itu bukan sekadar kecerobohan, melainkan manipulasi karena konflik kepentingan
    • Sitasi palsu hanyalah puncak gunung es, dan penyalahgunaan sitasi adalah masalah yang jauh lebih lama dan lebih serius
  • Bukan AI semata yang jadi masalah, melainkan kemalasan dan kecerobohan
    Jika ilmuwan menulis makalah dengan LLM yang berisi sitasi palsu, maka dia adalah ilmuwan yang buruk
    Jika tidak ada sanksi sosial untuk tindakan seperti ini, pada akhirnya hal itu akan dibiarkan

    • Saya bekerja sebagai teknisi listrik industri, dan pekerjaan listrik yang buruk hanya bisa dikenali oleh para ahli
      Verifikasi teknis membutuhkan pemeriksa yang terampil
    • Namun, pernyataan “AI bukan masalahnya” terdengar seperti logika mengelak dalam debat senjata api: “bukan senjatanya, manusianya yang bermasalah”
      Pada akhirnya saya tetap melihat AI itu sendiri sebagai masalah
    • Melanjutkan analogi tukang kayu, rak yang dibuat LLM tampak baik dari luar tetapi lemah secara struktural
      Justru karena tampilannya bagus, masalahnya jadi lebih tersembunyi
    • Saya juga memakai Gemini Pro untuk mencari makalah, tetapi sitasinya masih kacau
      Meski begitu, dalam setahun terakhir halusinasi sudah berkurang, dan jika dibatasi pada makalah yang terverifikasi, alat ini cukup berguna
      Namun, agar peneliti tidak bergantung pada alat semacam ini, struktur persaingan pendanaan yang terus-menerus harus diubah terlebih dahulu
    • Seperti kata Bruce Schneier, siapa pun bisa membuat algoritme yang tidak dapat mereka verifikasi sendiri
      LLM juga sama: ia mengembalikan jawaban yang diinginkan pengguna dan memperkuat bias konfirmasi
      Saya rasa tidak ada cara yang aman untuk menggunakan LLM dalam riset ilmiah
  • Kalau benar-benar membaca makalah-makalah itu secara langsung, sering kali masalahnya bukan sekadar AI yang menulis, melainkan idenya sendiri dihasilkan AI
    Di permukaan terlihat meyakinkan, tetapi isinya kosong dan tak masuk akal
    Kalau ada peneliti sungguhan yang masuk ke daftar ini hanya karena kesalahan sederhana di .bib, itu patut disayangkan

  • Avi Loeb (fisikawan teoretis Harvard) menyebut bahwa kasus mahasiswa yang mengutip makalah yang tidak ada meningkat tajam
    Mereka begitu saja mempercayai fiksi yang dibuat LLM tanpa melakukan verifikasi sama sekali
    Artikel terkait: How AI is making us dumber

    • Namun Loeb juga dikenal karena klaim UFO-nya, sehingga ada kontroversi soal kredibilitasnya
    • Sebagian orang menganggapnya sebagai sosok yang tidak dapat dipercaya
    • Saya pikir fenomena ini berasal dari budaya kepemimpinan yang melepaskan tanggung jawab
      Memberi teladan buruk dari atas lalu memarahi orang di bawah adalah pendidikan yang buruk
  • Saya penasaran apakah riset ini menganggap semua sitasi yang salah sebagai halusinasi LLM
    Perlu ada analisis baseline untuk melihat apakah kesalahan seperti ini juga ada pada makalah sebelum era LLM

    • Di makalah itu ada bagian ‘Defining Hallucitations’, yang menjelaskan definisi sitasi palsu dan masalah false positive
      Saya penasaran seperti apa hasilnya jika alat yang sama diterapkan pada makalah dari tahun 2010-an
    • Saat kuliah pascasarjana, saya juga pernah punya kesalahan kecil di file .bib
      Sebagian besar jurnal memverifikasi sitasi berdasarkan DOI, jadi makalah lama juga perlu dianalisis secara perbandingan
    • Jika melihat makalah-makalah yang benar-benar dipublikasikan, jejak hasil buatan AI sangat jelas
      Cukup dengan memberi topik, LLM bisa menghasilkan makalah yang sangat mirip
    • Sebenarnya, bahkan sebelum LLM pun manusia sudah sering keliru, dan buku maupun makalah juga penuh kesalahan
      Penyebabnya adalah sistem pengetahuan manusia yang tidak sempurna, bukan semata-mata masalah khas LLM
    • Singkatnya, alat mereka memang sedang melakukan verifikasi semacam ini
  • Tujuan peer review bukan sekadar mendeteksi kesalahan, melainkan menilai kebaruan dan tingkat kematangan
    Karena itu, perlu ada insentif untuk mencegah kecerobohan
    Misalnya, penerbit bisa membuat sistem hadiah untuk memberi imbalan kepada orang yang menemukan kelalaian besar, atau
    menjalankan Wall of Shame yang memublikasikan peneliti yang berulang kali ceroboh

    • Atau, akan bagus jika saat pengajuan makalah ada sistem pemeriksaan sitasi otomatis yang memberi tahu kesalahan dalam satu atau dua hari
  • Saya sudah memakai alat manajemen sitasi seperti Zotero selama 15 tahun, dan tetap mengejutkan bahwa masih banyak sitasi dengan nama penulis yang salah
    Jika pengiriman file .bib diwajibkan, kontrol kualitas dasar seharusnya bisa dilakukan lewat verifikasi DOI
    Fakta bahwa verifikasi dasar seperti ini pun tidak dilakukan sungguh mengejutkan

    • Namun Zotero juga tidak sempurna
      Ada juga kasus penulis salah mengutip makalahnya sendiri, dan walaupun DOI-nya benar, salah ketik nama penulis sangat sering terjadi
      Berkat alat semacam ini jumlah sitasi meningkat dan tingkat kesalahan menurun, tetapi tetap saja masih ada setidaknya satu kesalahan per makalah
  • Jika dari 20 ribu pengajuan hanya 300 yang diperiksa tetapi sudah ditemukan ratusan makalah berhalusinasi, maka skala sebenarnya kemungkinan jauh lebih besar

    • Ada 20 ribu pengajuan untuk satu konferensi saja, itu sendiri sudah merupakan skala yang tidak normal
  • Halusinasi LLM adalah karakteristik yang memang dirancang
    Dalam proses menghasilkan output yang tampak masuk akal secara statistik, sitasi palsu muncul secara alami
    Namun secara teknis mesin sebenarnya bisa membuat sitasi yang benar
    Hanya saja, LLM saat ini tidak menghasilkan apa yang kita minta berupa ‘pembuatan sitasi yang akurat’, melainkan hasil yang hanya mirip dari segi tampilan

 
dbs0829 2025-12-08

Saya sudah lama berpikir bahwa LLM mungkin justru bisa menghambat kemajuan umat manusia, dan dalam konteks itu, masalah yang saya bayangkan tampaknya mulai muncul. Menurunkan beban kognitif dari sudut pandang manusia terasa seperti narkoba. Saya juga meneliti, tetapi bahkan di dalam tim kami pun ada kewaspadaan bahwa semakin sering memakai model LLM, semakin terbentuk kebiasaan untuk tidak berpikir. Mungkin masalah ini akan terus memburuk. Karena jumlahnya membengkak sampai ke tingkat yang sulit ditangani lewat peer review, sepertinya kita memang harus mencari cara lain. Belakangan ini jumlah submission paper ke konferensi-konferensi ternama tampaknya meningkat tajam, dan saya rasa mungkin alasannya mirip.

 
shakespeares 2025-12-09

Saya setuju. Kalau begini terus, rasanya otak manusia akan terus menyusut.
Pada akhirnya, skenario AI menguasai manusia mungkin menjadi pemikiran paling tingkat tinggi yang bisa kita bayangkan saat ini. Ke depannya, bisa jadi tanpa revolusi baru yang membuat kita mampu mencapai pemikiran itu sekalipun, yang tersisa hanyalah fase konvergensi sampai kita dikendalikan oleh AI.