1 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • arXiv Code of Conduct menetapkan bahwa orang yang mencantumkan namanya sebagai penulis bertanggung jawab atas seluruh makalah, terlepas dari cara pembuatannya
  • Jika bahasa yang tidak pantas yang dibuat AI generatif, plagiarisme, bias, kesalahan, atau referensi yang keliru masuk ke dalam makalah, tanggung jawab tetap berada pada penulis
  • arXiv menganggap bahwa jika ada bukti yang jelas bahwa penulis tidak memverifikasi hasil buatan LLM, maka seluruh makalah tidak dapat dipercaya
  • Sanksinya adalah larangan menggunakan arXiv selama 1 tahun, dan setelah itu kiriman harus lebih dulu diterima di venue akademik peer-review bereputasi
  • Referensi halusinasi atau komentar meta LLM seperti “fill it in with the real numbers from your experiments” dianggap sebagai bukti yang jelas

Tanggung jawab dan sanksi bagi penulis arXiv

  • arXiv Code of Conduct menetapkan bahwa mencantumkan nama sebagai penulis makalah berarti memikul tanggung jawab atas seluruh makalah tanpa memandang bagaimana isinya dibuat
  • Jika karya ilmiah memuat bahasa yang tidak pantas, konten hasil plagiarisme, konten yang bias, error, kekeliruan, referensi yang salah, atau konten yang menyesatkan yang dibuat oleh alat AI generatif, tanggung jawab tetap berada pada penulis
  • arXiv menilai bahwa jika dalam kiriman terdapat bukti yang jelas bahwa penulis tidak memeriksa hasil buatan LLM, maka tidak ada bagian dari makalah tersebut yang dapat dipercaya
  • Sanksinya adalah larangan menggunakan arXiv selama 1 tahun, dan untuk mengirim ke arXiv setelah itu, karya tersebut harus lebih dulu diterima di venue akademik peer-review bereputasi
  • Bukti yang jelas mencakup referensi halusinasi dan komentar meta dari LLM
    • Contoh: “here is a 200 word summary; would you like me to make any changes?”
    • Contoh: “the data in this table is illustrative, fill it in with the real numbers from your experiments”

1 komentar

 
GN⁺ 5 jam lalu
Komentar Hacker News
  • Jika hukumannya adalah larangan menggunakan arXiv selama 1 tahun, lalu setelah itu kiriman berikutnya harus lebih dulu diterima oleh penerbit peer review yang bereputasi, itu benar-benar hal yang baik untuk sains
    arXiv memang gratis, tetapi lebih mirip privilese daripada hak
    Namun ini tidak terlihat jelas di https://info.arxiv.org/help/policies/index.html, jadi mungkin masih tahap rencana, atau mungkin aku saja yang kurang teliti mencarinya
    Seperti kata seorang doktor, inti dari mesin kiamat adalah tidak ada gunanya jika disembunyikan

    • Setelah postingan ini naik, rasanya pasti sudah ada seseorang yang buru-buru membuat pemeriksa referensi lalu berniat menjualnya sebagai langganan
      Itu bagus untuk memeriksa referensi, tetapi sepertinya tidak akan banyak mengurangi sains buruk yang biasanya ikut datang bersama referensi halusinasi
    • Menurutku ini terlihat berlebihan
      arXiv juga tidak memeriksa kiriman sedetail itu, jadi bagaimana mereka bisa tahu?
      Mereka bilang “error, mistake”, tetapi yang diperiksa oleh sistem otomatis hanya apakah syarat dasarnya terpenuhi, lalu kadang diteruskan ke peninjauan manusia yang dangkal; memverifikasi semua referensi dalam skala besar itu mustahil
      Ini seperti mencoba melakukan sesuatu yang menyerupai peer review di repositori preprint yang menerima volume 100 kali lebih banyak daripada jurnal
      Lagi pula ada perbedaan besar antara mengunggah ke arXiv dan lolos peer review
      Secara pribadi, di bidang matematika aku mungkin sudah ditolak peer review lebih dari sepuluh kali, tetapi tetap bisa unggah ke arXiv math tanpa masalah
      Peer review tidak hanya menilai apakah sesuatu itu baru dan benar, tetapi juga apakah itu “menarik bagi komunitas matematika”, dan itu pada dasarnya subjektif serta jauh lebih sulit daripada sekadar tayang di arXiv
      Seorang profesor terkenal di teori bilangan memuji makalahku saat menjadi endorser, dan profesor lain juga menyarankan lewat email agar dipublikasikan, tetapi tetap ditolak 3 kali dan aku masih menunggu
      Jika publikasi jurnal peer review diwajibkan, arXiv bisa tertutup selamanya bagi banyak peneliti, dan itu juga bertentangan dengan tujuan preprint
    • Aku tidak setuju bahwa ini “benar-benar hal yang baik untuk sains”
      Ini cuma satu sitasi halusinasi, bukan penipuan atau semacamnya
      Itu sama sekali tidak mencerminkan isi atau kualitas riset orang tersebut
      Untuk kesalahan pertama yang kecil seperti ini, larangan 1 tahun saja sudah terasa cukup
      Manusia membuat kesalahan, dan banyak dari mereka bisa belajar dari kesalahan itu
      Tidak perlu merusak secara permanen kemajuan hidup seseorang atau kemampuannya berkontribusi pada umat manusia hanya karena AI pernah sekali menghalusinasikan referensi dalam hidupnya
      Ini lebih bersifat menghukum daripada rehabilitatif
  • Ini langkah yang patut disambut, tetapi pada dasarnya aku lebih berharap masalah membuat entri BibTeX yang benar untuk makalah yang dikutip bisa diselesaikan dengan lebih baik
    Informasi sitasi untuk satu makalah tertentu bisa datang dari banyak sumber seperti jurnal penerbit, konferensi, preprint, dan lain-lain
    Makalah yang sama juga bisa ada di beberapa tempat, seperti arXiv dan situs konferensi, dengan detail yang sedikit berbeda
    Berkat alat seperti Zotero, mengekstrak sitasi dari halaman web publikasi memang jadi jauh lebih mudah, tetapi detail BibTeX yang diekstrak masih sering bermasalah
    Nama penulis dan judul umumnya terekstrak dengan baik, tetapi apakah penerbit, tahun, volume/nomor, halaman, URL, dan sebagainya terekstrak akurat serta tampil benar dalam format LaTeX masih harus diperiksa manual
    Setiap publikasi juga bisa punya gaya sitasi yang berbeda
    Karena tidak ada cara terpadu untuk dengan mudah mengambil data sitasi yang konsisten, sayangnya orang bisa tergoda mengambil jalan pintas dengan data sitasi buatan AI
    Aku juga tidak yakin apakah sitasi halusinasi itu muncul di teks utama atau di file BibTeX terpisah, jadi mungkin pemahamanku sedikit meleset

    • Zotero juga punya alat online gratis untuk membuat sitasi atau file BibTeX dalam format yang diinginkan dari URL/DOI/ISBN dan sebagainya
      https://zbib.org/
  • https://xcancel.com/tdietterich/status/2055000956144935055

    • Menurut kode etik, mencantumkan nama sebagai penulis makalah berarti setiap penulis memikul tanggung jawab penuh atas seluruh isinya, tidak peduli bagaimana isi itu dibuat
  • Masalahnya adalah bagaimana mendeteksi referensi halusinasi dalam skala besar
    Tidak tahu apakah lewat sampling manual atau validasi DOI otomatis
    Arah kebijakannya tampak benar, tetapi penegakannya sulit

  • Bagus
    Kalau tidak punya waktu untuk memeriksa output LLM dengan teliti, aku juga tidak punya waktu untuk membacanya

    • Sayangnya, terlepas dari apakah dibuat dengan LLM atau tidak, kemungkinan 99% makalah arXiv memang tidak layak dibaca
      Pernahkah kamu memilih satu secara acak lalu benar-benar mendalaminya?
  • Aku belum melihat pembahasan soal syarat “bereputasi” di sini
    Berdasarkan standar apa peer review yang bereputasi itu ditentukan?

  • Sebelum sanksi seperti ini diberlakukan, perlu ada verifikasi yang hati-hati
    Jika seseorang memasukkan nama orang lain dan mengirimkannya tanpa izin eksplisit, apakah semuanya ikut diblokir?
    Kalau diimplementasikan dengan benar, aku setuju ini arah yang baik

    • Selain itu, setahuku kamu bisa menambahkan co-author mana pun tanpa verifikasi
      Kalau begitu, dengan satu makalah satu kalimat saja orang bisa memblokir semua orang dari arXiv
  • Fakta bahwa para pendukung LLM yang terlalu bersemangat yang selalu terlihat di Twitter marah dan membalas kebijakan ini adalah sinyal yang cukup jelas
    Sama seperti di komentar tulisan tentang kontaminasi LLM, sebagian orang tidak bisa menerima bahwa ada orang yang tidak menyukai LLM, dan mereka marah setiap kali ada hambatan sekecil apa pun terhadap adopsi cepat

    • Aneh kalau ini di-gray out
      Jadinya terasa seolah konsensus HN adalah bahwa adopsi LLM harus dipercepat secara berlebihan di mana pun
      Konyol, tetapi pada saat yang sama juga sangat khas HN
  • Bagus. Literatur akademik sedang dalam kondisi krisis karena begitu banyak sampah berkualitas rendah
    Menuntut pertanggungjawaban untuk halusinasi yang mudah dideteksi hanya bisa dianggap hal yang baik

    • Ini bukan masalah khusus AI
      Sekitar 40 tahun lalu aku menjalani program PhD fisika, dan bahkan saat itu referensi yang salah sudah jadi masalah
  • Seorang kolega pernah mengirim makalah dengan kalimat sampah AI literal masih tertinggal di teks utama, lalu mendapat permintaan revisi yang keras
    Draf harus diperiksa sebelum dikirim
    Reviewer akan menemukannya

    • Komentar LaTeX juga perlu diperiksa. arXiv membuatnya terlihat publik
      Aku pengguna screen reader, jadi biasanya membaca makalah dalam bentuk TeX mentah, dan aku sudah melihat macam-macam
      Mulai dari hinaan, caci maki terhadap reviewer dan profesor, pengakuan penipuan, sampai instruksi kepada co-author sebelum submit untuk melakukan penipuan tambahan demi menutupi penipuan sebelumnya
      Jumlahnya jauh lebih sedikit dari yang mungkin dibayangkan, kurang dari 1% makalah, tetapi itu nyata ada
      Menjalankan deteksi penipuan berbasis LLM sekali pada source TeX makalah arXiv baru tampaknya bisa berguna
      Memang tidak akan menangkap semuanya, tetapi bisa menangkap sebagian penipu paling bodoh
      Ada sisi positif juga: kamu bisa menemukan klaim yang lebih kuat yang gagal lolos review, penjelasan tambahan yang dipotong karena batas halaman konferensi, atau hasil eksperimen yang dianggap penulis tidak cukup bernilai untuk dimasukkan
      Hal-hal seperti ini harus diperlakukan sangat hati-hati, tetapi kadang benar-benar berguna
    • Saran di sini terdengar menyedihkan karena kesannya bukan jangan kirim sampah dari awal, melainkan samarkan sampah agar lebih sulit ditemukan reviewer