Kebijakan baru arXiv: dilarang menggunakan selama 1 tahun karena sitasi halusinasi

(twitter.com/tdietterich)

5 poin oleh GN⁺ 2026-05-15 | 1 komentar | Bagikan ke WhatsApp

Code of Conduct arXiv menetapkan bahwa mencantumkan nama sebagai penulis makalah berarti bertanggung jawab atas keseluruhan makalah, terlepas dari cara kontennya dibuat
Jika bahasa yang tidak pantas, konten yang dijiplak, konten yang bias, error, kekeliruan, referensi yang salah, atau konten yang menyesatkan yang dibuat oleh alat AI generatif dimasukkan ke dalam karya ilmiah, tanggung jawabnya ada pada penulis
arXiv menilai bahwa jika ada bukti yang jelas dalam naskah bahwa penulis tidak memeriksa hasil yang dihasilkan LLM, maka tidak ada bagian dari makalah tersebut yang dapat dipercaya
Sanksinya adalah larangan menggunakan arXiv selama 1 tahun, dan setelah itu untuk mengirim ke arXiv, makalah tersebut harus terlebih dahulu diterima di venue akademik peer-review yang bereputasi
Bukti yang jelas mencakup referensi halusinasi dan meta-komentar dari LLM
- Contoh: “here is a 200 word summary; would you like me to make any changes?”
- Contoh: “the data in this table is illustrative, fill it in with the real numbers from your experiments”

1 komentar

GN⁺ 2026-05-15

Komentar Hacker News

Jika hukumannya adalah larangan menggunakan arXiv selama 1 tahun, lalu setelah itu kiriman berikutnya harus lebih dulu diterima oleh penerbit peer review yang bereputasi, itu benar-benar hal yang baik untuk sains
arXiv memang gratis, tetapi lebih mirip privilese daripada hak
Namun ini tidak terlihat jelas di https://info.arxiv.org/help/policies/index.html, jadi mungkin masih tahap rencana, atau mungkin aku saja yang kurang teliti mencarinya
Seperti kata seorang doktor, inti dari mesin kiamat adalah tidak ada gunanya jika disembunyikan
- Setelah postingan ini naik, rasanya pasti sudah ada seseorang yang buru-buru membuat pemeriksa referensi lalu berniat menjualnya sebagai langganan
  Itu bagus untuk memeriksa referensi, tetapi sepertinya tidak akan banyak mengurangi sains buruk yang biasanya ikut datang bersama referensi halusinasi
- Menurutku ini terlihat berlebihan
  arXiv juga tidak memeriksa kiriman sedetail itu, jadi bagaimana mereka bisa tahu?
  Mereka bilang “error, mistake”, tetapi yang diperiksa oleh sistem otomatis hanya apakah syarat dasarnya terpenuhi, lalu kadang diteruskan ke peninjauan manusia yang dangkal; memverifikasi semua referensi dalam skala besar itu mustahil
  Ini seperti mencoba melakukan sesuatu yang menyerupai peer review di repositori preprint yang menerima volume 100 kali lebih banyak daripada jurnal
  Lagi pula ada perbedaan besar antara mengunggah ke arXiv dan lolos peer review
  Secara pribadi, di bidang matematika aku mungkin sudah ditolak peer review lebih dari sepuluh kali, tetapi tetap bisa unggah ke arXiv math tanpa masalah
  Peer review tidak hanya menilai apakah sesuatu itu baru dan benar, tetapi juga apakah itu “menarik bagi komunitas matematika”, dan itu pada dasarnya subjektif serta jauh lebih sulit daripada sekadar tayang di arXiv
  Seorang profesor terkenal di teori bilangan memuji makalahku saat menjadi endorser, dan profesor lain juga menyarankan lewat email agar dipublikasikan, tetapi tetap ditolak 3 kali dan aku masih menunggu
  Jika publikasi jurnal peer review diwajibkan, arXiv bisa tertutup selamanya bagi banyak peneliti, dan itu juga bertentangan dengan tujuan preprint
- Aku tidak setuju bahwa ini “benar-benar hal yang baik untuk sains”
  Ini cuma satu sitasi halusinasi, bukan penipuan atau semacamnya
  Itu sama sekali tidak mencerminkan isi atau kualitas riset orang tersebut
  Untuk kesalahan pertama yang kecil seperti ini, larangan 1 tahun saja sudah terasa cukup
  Manusia membuat kesalahan, dan banyak dari mereka bisa belajar dari kesalahan itu
  Tidak perlu merusak secara permanen kemajuan hidup seseorang atau kemampuannya berkontribusi pada umat manusia hanya karena AI pernah sekali menghalusinasikan referensi dalam hidupnya
  Ini lebih bersifat menghukum daripada rehabilitatif
Ini langkah yang patut disambut, tetapi pada dasarnya aku lebih berharap masalah membuat entri BibTeX yang benar untuk makalah yang dikutip bisa diselesaikan dengan lebih baik
Informasi sitasi untuk satu makalah tertentu bisa datang dari banyak sumber seperti jurnal penerbit, konferensi, preprint, dan lain-lain
Makalah yang sama juga bisa ada di beberapa tempat, seperti arXiv dan situs konferensi, dengan detail yang sedikit berbeda
Berkat alat seperti Zotero, mengekstrak sitasi dari halaman web publikasi memang jadi jauh lebih mudah, tetapi detail BibTeX yang diekstrak masih sering bermasalah
Nama penulis dan judul umumnya terekstrak dengan baik, tetapi apakah penerbit, tahun, volume/nomor, halaman, URL, dan sebagainya terekstrak akurat serta tampil benar dalam format LaTeX masih harus diperiksa manual
Setiap publikasi juga bisa punya gaya sitasi yang berbeda
Karena tidak ada cara terpadu untuk dengan mudah mengambil data sitasi yang konsisten, sayangnya orang bisa tergoda mengambil jalan pintas dengan data sitasi buatan AI
Aku juga tidak yakin apakah sitasi halusinasi itu muncul di teks utama atau di file BibTeX terpisah, jadi mungkin pemahamanku sedikit meleset
- Zotero juga punya alat online gratis untuk membuat sitasi atau file BibTeX dalam format yang diinginkan dari URL/DOI/ISBN dan sebagainya
  https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
- Menurut kode etik, mencantumkan nama sebagai penulis makalah berarti setiap penulis memikul tanggung jawab penuh atas seluruh isinya, tidak peduli bagaimana isi itu dibuat
Masalahnya adalah bagaimana mendeteksi referensi halusinasi dalam skala besar
Tidak tahu apakah lewat sampling manual atau validasi DOI otomatis
Arah kebijakannya tampak benar, tetapi penegakannya sulit
Bagus
Kalau tidak punya waktu untuk memeriksa output LLM dengan teliti, aku juga tidak punya waktu untuk membacanya
- Sayangnya, terlepas dari apakah dibuat dengan LLM atau tidak, kemungkinan 99% makalah arXiv memang tidak layak dibaca
  Pernahkah kamu memilih satu secara acak lalu benar-benar mendalaminya?
Aku belum melihat pembahasan soal syarat “bereputasi” di sini
Berdasarkan standar apa peer review yang bereputasi itu ditentukan?
Sebelum sanksi seperti ini diberlakukan, perlu ada verifikasi yang hati-hati
Jika seseorang memasukkan nama orang lain dan mengirimkannya tanpa izin eksplisit, apakah semuanya ikut diblokir?
Kalau diimplementasikan dengan benar, aku setuju ini arah yang baik
- Selain itu, setahuku kamu bisa menambahkan co-author mana pun tanpa verifikasi
  Kalau begitu, dengan satu makalah satu kalimat saja orang bisa memblokir semua orang dari arXiv
Fakta bahwa para pendukung LLM yang terlalu bersemangat yang selalu terlihat di Twitter marah dan membalas kebijakan ini adalah sinyal yang cukup jelas
Sama seperti di komentar tulisan tentang kontaminasi LLM, sebagian orang tidak bisa menerima bahwa ada orang yang tidak menyukai LLM, dan mereka marah setiap kali ada hambatan sekecil apa pun terhadap adopsi cepat
- Aneh kalau ini di-gray out
  Jadinya terasa seolah konsensus HN adalah bahwa adopsi LLM harus dipercepat secara berlebihan di mana pun
  Konyol, tetapi pada saat yang sama juga sangat khas HN
Bagus. Literatur akademik sedang dalam kondisi krisis karena begitu banyak sampah berkualitas rendah
Menuntut pertanggungjawaban untuk halusinasi yang mudah dideteksi hanya bisa dianggap hal yang baik
- Ini bukan masalah khusus AI
  Sekitar 40 tahun lalu aku menjalani program PhD fisika, dan bahkan saat itu referensi yang salah sudah jadi masalah
Seorang kolega pernah mengirim makalah dengan kalimat sampah AI literal masih tertinggal di teks utama, lalu mendapat permintaan revisi yang keras
Draf harus diperiksa sebelum dikirim
Reviewer akan menemukannya
- Komentar LaTeX juga perlu diperiksa. arXiv membuatnya terlihat publik
  Aku pengguna screen reader, jadi biasanya membaca makalah dalam bentuk TeX mentah, dan aku sudah melihat macam-macam
  Mulai dari hinaan, caci maki terhadap reviewer dan profesor, pengakuan penipuan, sampai instruksi kepada co-author sebelum submit untuk melakukan penipuan tambahan demi menutupi penipuan sebelumnya
  Jumlahnya jauh lebih sedikit dari yang mungkin dibayangkan, kurang dari 1% makalah, tetapi itu nyata ada
  Menjalankan deteksi penipuan berbasis LLM sekali pada source TeX makalah arXiv baru tampaknya bisa berguna
  Memang tidak akan menangkap semuanya, tetapi bisa menangkap sebagian penipu paling bodoh
  Ada sisi positif juga: kamu bisa menemukan klaim yang lebih kuat yang gagal lolos review, penjelasan tambahan yang dipotong karena batas halaman konferensi, atau hasil eksperimen yang dianggap penulis tidak cukup bernilai untuk dimasukkan
  Hal-hal seperti ini harus diperlakukan sangat hati-hati, tetapi kadang benar-benar berguna
- Saran di sini terdengar menyedihkan karena kesannya bukan jangan kirim sampah dari awal, melainkan samarkan sampah agar lebih sulit ditemukan reviewer

Kebijakan baru arXiv: dilarang menggunakan selama 1 tahun karena sitasi halusinasi

Bacaan terkait

1 komentar

Komentar Hacker News