Konferensi AI besar dibanjiri ulasan sejawat yang ditulis AI

(nature.com)

3 poin oleh GN⁺ 2025-12-01 | 2 komentar | Bagikan ke WhatsApp

Dalam ulasan sejawat makalah untuk konferensi pembelajaran mesin internasional ICLR 2026, 21% dipastikan sepenuhnya ditulis oleh kecerdasan buatan
Alat pendeteksi AI dari Pangram Labs menganalisis 75.800 ulasan dan menemukan jejak penggunaan AI di lebih dari separuhnya
Sejumlah peneliti mengangkat kemungkinan konten buatan AI setelah menerima umpan balik yang sangat bertele-tele atau tidak akurat
Pihak konferensi menyatakan akan memeriksa pelanggaran kebijakan penggunaan AI dengan alat otomatis, dan sedang menjalankan proses pemulihan kepercayaan
Insiden ini menunjukkan bahwa memastikan transparansi dan keandalan proses peninjauan ilmiah adalah hal yang mendesak

Kondisi penggunaan AI yang terungkap dalam peninjauan makalah ICLR 2026

Dari ulasan makalah untuk konferensi pembelajaran mesin internasional ICLR 2026, dianalisis bahwa sekitar 21% sepenuhnya ditulis oleh AI, dan lebih dari separuh dipengaruhi oleh AI
- Analisis dilakukan oleh Pangram Labs, dengan cakupan total 19.490 makalah dan 75.800 ulasan
- Pangram menggunakan alat pendeteksi teks buatan AI untuk mempublikasikan hasilnya
Konferensi menyatakan berencana meninjau dengan alat otomatis apakah penggunaan AI melanggar kebijakan peninjauan
- Penanggung jawab program ICLR 2026 menyebut ini sebagai kasus pertama di mana masalah ulasan AI terungkap dalam skala besar

Sorotan peneliti dan proses investigasi

Sejumlah peneliti membagikan ulasan yang diduga ditulis AI di media sosial
- Beberapa ulasan memuat ‘hallucinated citations’ atau umpan balik yang samar dan bertele-tele
Graham Neubig dari Carnegie Mellon University menerima ulasan yang tidak lazim dan meminta verifikasi apakah itu dibuat AI
- Ia mengunggah pengumuman hadiah di X (dulu Twitter), dan Max Spero dari Pangram Labs merespons lalu melakukan pemeriksaan menyeluruh
- Pangram menjelaskan bahwa mereka menulis kode untuk menganalisis teks semua kiriman hanya dalam 12 jam

Hasil analisis Pangram Labs

Alat Pangram bekerja dengan memprediksi teks yang dihasilkan atau diedit oleh LLM (large language model)
- Hasil analisis menunjukkan 15.899 ulasan sepenuhnya dibuat AI, dan 199 makalah (1%) juga dinilai sepenuhnya ditulis AI
- 61% makalah ditulis manusia, sementara 9% memuat teks buatan AI lebih dari separuh isi
Pangram mengirimkan modelnya sendiri ke ICLR 2026 dalam bentuk preprint, dan sebagian ulasan untuk makalah tersebut juga dinilai sebagai buatan AI

Reaksi para peneliti

Desmond Elliott dari University of Copenhagen menunjukkan bahwa salah satu ulasan untuk makalah yang ia kirim salah memahami inti makalah dan menyebut angka yang keliru
- Mahasiswa doktoralnya menduga ulasan tersebut tampaknya ditulis oleh LLM
- Menurut hasil analisis Pangram, ulasan itu memang sepenuhnya dibuat AI
- Ulasan tersebut memberikan skor penilaian terendah pada makalah itu, sehingga menempatkannya di batas diterima atau tidak

Tanggapan konferensi dan tantangan ke depan

Pihak konferensi mengumumkan akan menerapkan alat otomatis untuk mendeteksi penggunaan AI, dengan tujuan memulihkan keandalan peninjauan
Penanggung jawab program mengatakan bahwa melalui proses ini, ada kebutuhan untuk mendefinisikan ulang konsep kepercayaan
Insiden ini menjadi contoh bahwa AI telah meresap jauh ke dalam proses peninjauan ilmiah, sehingga memastikan transparansi dalam evaluasi riset muncul sebagai tugas utama

2 komentar

yuntae 2025-12-01

Ada banyak contoh ulasan yang menarik
https://reddit.com/r/MachineLearning/…

GN⁺ 2025-12-01

Komentar Hacker News

Saya memang merasa ketergantungan pada AI dalam menulis makin besar, tetapi metodologi yang dipakai dalam artikel ini terlihat seperti promosi untuk Pangram
Detektor AI pada umumnya tidak dapat diandalkan, dan justru merugikan orang-orang yang bahkan belum pernah memakai LLM
Diskusi terkait bisa dilihat di tautan ini
- Saya adalah salah satu pendiri Pangram. Kami telah membuat kemajuan nyata di area masalah ini
  Jika yang Anda bayangkan adalah detektor lawas seperti GPTZero, berarti Anda belum melihat peningkatan performa terbaru
  Menurut makalah para ekonom University of Chicago, dari 1.992 dokumen yang ditulis manusia, tercatat 0 false positive, dan tingkat deteksi dokumen AI di atas 99%
- Detektor AI hanya berbahaya jika dipakai untuk menghukum orang
  Memakainya untuk analisis statistik seperti dalam riset ini tidak masalah
  Nyaris tidak ada makalah yang benar-benar ditulis AI, dan wajar jika yang banyak memakai AI justru review-nya
- Sebagian orang tidak percaya pada LLM, tetapi akan dengan senang hati memakainya jika riset itu mengonfirmasi bias mereka
  Standar ganda seperti ini menarik
Entah angka 20% itu akurat atau tidak, semua orang bisa merasakan penurunan kualitas review di konferensi papan atas
Di beberapa bidang, kolusi antar-reviewer benar-benar ada, dan dalam beberapa kasus bahkan melibatkan AC
Sekarang sudah tidak ada yang meninjau makalah dengan sungguh-sungguh hanya karena itu adalah ‘hal yang benar secara prinsip’
- Dulu, meski tanpa insentif yang eksplisit, orang tetap mereview dengan hati nurani, tetapi budaya itu kini benar-benar hilang
- Dalam situasi ketika peneliti AI direkrut dengan gaji yang sangat besar, wajar jika sistem menjadi terdistorsi
- Fenomena ini juga bisa dilihat sebagai semacam penyesuaian pasar
  Karena terlalu banyak makalah yang hanya untuk kebutuhan karier, reviewer jadi makin tidak peduli
Menurut analisis Pangram, 21% review ICLR sepenuhnya dihasilkan AI, dan lebih dari separuh mengandung jejak AI
Namun pertanyaannya adalah apa yang dimaksud dengan “bukti”, dan bagaimana bisa dibuktikan bahwa sesuatu benar-benar dihasilkan AI
- Istilah “bukti” memang kurang tepat. Tetapi analisis statistik bisa bersifat objektif
  Alat seperti ini cocok untuk tujuan tersebut
- Mereka memang menulis makalah yang menjelaskan metodologinya
- Mungkin saja detektor AI itu sendiri adalah AI
- Saya juga menghadapi masalah serupa saat menilai tugas mahasiswa
  Saya sering ‘merasakan’ bahwa kebanyakan ditulis dengan AI, tetapi tidak bisa membuktikannya, jadi tidak bisa mengambil tindakan apa pun
- Sebenarnya mustahil membedakannya hanya dari teks
  Tanpa informasi tambahan seperti metadata, menilai apakah suatu teks ditulis LLM atau bukan pada dasarnya tidak bermakna
Judulnya mungkin benar, tetapi keandalan detektor AI masih tetap rendah
Tidak ada bukti bahwa alat Pangram sudah lepas dari reputasi buruk itu
- Sebagai salah satu pendiri Pangram, saya bisa bilang bahwa tingkat false positive kami sekitar 1 per 10.000
  Sudah dijelaskan lebih rinci dalam posting blog
  Dari 10.202 review ICLR 2022, 10.190 ditulis manusia, dan hanya 12 yang memiliki jejak penyuntingan AI
- Makalah konferensi pada dasarnya memang mengikuti gaya bahasa yang sangat terformat, sehingga sulit membedakan apakah ada AI atau tidak
- Jika makalah hanya 1% tetapi review 20% memakai AI, kemungkinan besar itu hanya berarti reviewer lebih bergantung pada AI
  Kita tidak bisa menghakimi individu tertentu, tetapi hampir bisa dipastikan banyak review memang diserahkan ke AI
Saat melihat judul artikel “21% review dihasilkan AI”, kesan saya justru angka itu lebih rendah dari dugaan
- Jika 21% benar-benar sepenuhnya dihasilkan AI, itu berarti kecurangan yang jelas
  Seperti situasi ‘lubang-lubang Swiss cheese sejajar’ dalam investigasi kecelakaan, ini adalah hasil akumulasi kelalaian tugas
Awalnya saya terkejut, tetapi 21% justru merupakan angka yang sangat rendah
Lagi pula, angka ini berasal dari perusahaan yang menjual detektor AI, jadi tetap ada kemungkinan false positive
Yang penting bukan apakah review ditulis AI, melainkan akurasi review itu sendiri
- Tidak, itu bukan intinya
  Konferensi mengklaim menjalankan ‘peer review’, dan AI secanggih apa pun tetap bukan peer
- Jika risetnya benar-benar berguna dan akurat, itu lebih penting
  Pangram tampak seperti sedang memancing kemarahan lewat deteksi AI demi clickbait
- Kenyataannya seperti ini
  1. Ilmuwan melakukan riset yang sarat bias
  2. Reviewer memakai AI untuk menghasilkan review yang tampak meyakinkan
  3. Pada akhirnya peneliti harus meninjau ulang review itu sendiri, menciptakan siklus yang absurd
Pada akhirnya, korban pertama dari monster buatan AI adalah para pekerja pengetahuan yang menciptakannya, seperti programmer, peneliti, dan universitas
Konferensi ini sebelumnya juga pernah mengalami bug OpenReview yang sempat membocorkan identitas semua reviewer
Menurut artikel terkait, setelah itu skor direset dan keputusan dibuat ulang oleh AC yang baru
Ke depan, mungkin lebih baik jika semua makalah secara default mendapat review AI, lalu reviewer manusia melengkapi hasilnya
Dengan begitu reviewer akan memeriksa hasil AI, dan penulis juga bisa menerima umpan balik yang lebih dapat diprediksi
Tentu reviewer manusia pun bisa kembali memakai AI, tetapi hal yang sama juga berlaku bagi penulis

Konferensi AI besar dibanjiri ulasan sejawat yang ditulis AI

Kondisi penggunaan AI yang terungkap dalam peninjauan makalah ICLR 2026

Sorotan peneliti dan proses investigasi

Hasil analisis Pangram Labs

Reaksi para peneliti

Tanggapan konferensi dan tantangan ke depan

Bacaan terkait

2 komentar

Komentar Hacker News