- Dalam ulasan sejawat makalah untuk konferensi pembelajaran mesin internasional ICLR 2026, 21% dipastikan sepenuhnya ditulis oleh kecerdasan buatan
- Alat pendeteksi AI dari Pangram Labs menganalisis 75.800 ulasan dan menemukan jejak penggunaan AI di lebih dari separuhnya
- Sejumlah peneliti mengangkat kemungkinan konten buatan AI setelah menerima umpan balik yang sangat bertele-tele atau tidak akurat
- Pihak konferensi menyatakan akan memeriksa pelanggaran kebijakan penggunaan AI dengan alat otomatis, dan sedang menjalankan proses pemulihan kepercayaan
- Insiden ini menunjukkan bahwa memastikan transparansi dan keandalan proses peninjauan ilmiah adalah hal yang mendesak
Kondisi penggunaan AI yang terungkap dalam peninjauan makalah ICLR 2026
- Dari ulasan makalah untuk konferensi pembelajaran mesin internasional ICLR 2026, dianalisis bahwa sekitar 21% sepenuhnya ditulis oleh AI, dan lebih dari separuh dipengaruhi oleh AI
- Analisis dilakukan oleh Pangram Labs, dengan cakupan total 19.490 makalah dan 75.800 ulasan
- Pangram menggunakan alat pendeteksi teks buatan AI untuk mempublikasikan hasilnya
- Konferensi menyatakan berencana meninjau dengan alat otomatis apakah penggunaan AI melanggar kebijakan peninjauan
- Penanggung jawab program ICLR 2026 menyebut ini sebagai kasus pertama di mana masalah ulasan AI terungkap dalam skala besar
Sorotan peneliti dan proses investigasi
- Sejumlah peneliti membagikan ulasan yang diduga ditulis AI di media sosial
- Beberapa ulasan memuat ‘hallucinated citations’ atau umpan balik yang samar dan bertele-tele
- Graham Neubig dari Carnegie Mellon University menerima ulasan yang tidak lazim dan meminta verifikasi apakah itu dibuat AI
- Ia mengunggah pengumuman hadiah di X (dulu Twitter), dan Max Spero dari Pangram Labs merespons lalu melakukan pemeriksaan menyeluruh
- Pangram menjelaskan bahwa mereka menulis kode untuk menganalisis teks semua kiriman hanya dalam 12 jam
Hasil analisis Pangram Labs
- Alat Pangram bekerja dengan memprediksi teks yang dihasilkan atau diedit oleh LLM (large language model)
- Hasil analisis menunjukkan 15.899 ulasan sepenuhnya dibuat AI, dan 199 makalah (1%) juga dinilai sepenuhnya ditulis AI
- 61% makalah ditulis manusia, sementara 9% memuat teks buatan AI lebih dari separuh isi
- Pangram mengirimkan modelnya sendiri ke ICLR 2026 dalam bentuk preprint, dan sebagian ulasan untuk makalah tersebut juga dinilai sebagai buatan AI
Reaksi para peneliti
- Desmond Elliott dari University of Copenhagen menunjukkan bahwa salah satu ulasan untuk makalah yang ia kirim salah memahami inti makalah dan menyebut angka yang keliru
- Mahasiswa doktoralnya menduga ulasan tersebut tampaknya ditulis oleh LLM
- Menurut hasil analisis Pangram, ulasan itu memang sepenuhnya dibuat AI
- Ulasan tersebut memberikan skor penilaian terendah pada makalah itu, sehingga menempatkannya di batas diterima atau tidak
Tanggapan konferensi dan tantangan ke depan
- Pihak konferensi mengumumkan akan menerapkan alat otomatis untuk mendeteksi penggunaan AI, dengan tujuan memulihkan keandalan peninjauan
- Penanggung jawab program mengatakan bahwa melalui proses ini, ada kebutuhan untuk mendefinisikan ulang konsep kepercayaan
- Insiden ini menjadi contoh bahwa AI telah meresap jauh ke dalam proses peninjauan ilmiah, sehingga memastikan transparansi dalam evaluasi riset muncul sebagai tugas utama
2 komentar
Ada banyak contoh ulasan yang menarik
https://reddit.com/r/MachineLearning/…
Komentar Hacker News
Saya memang merasa ketergantungan pada AI dalam menulis makin besar, tetapi metodologi yang dipakai dalam artikel ini terlihat seperti promosi untuk Pangram
Detektor AI pada umumnya tidak dapat diandalkan, dan justru merugikan orang-orang yang bahkan belum pernah memakai LLM
Diskusi terkait bisa dilihat di tautan ini
Jika yang Anda bayangkan adalah detektor lawas seperti GPTZero, berarti Anda belum melihat peningkatan performa terbaru
Menurut makalah para ekonom University of Chicago, dari 1.992 dokumen yang ditulis manusia, tercatat 0 false positive, dan tingkat deteksi dokumen AI di atas 99%
Memakainya untuk analisis statistik seperti dalam riset ini tidak masalah
Nyaris tidak ada makalah yang benar-benar ditulis AI, dan wajar jika yang banyak memakai AI justru review-nya
Standar ganda seperti ini menarik
Entah angka 20% itu akurat atau tidak, semua orang bisa merasakan penurunan kualitas review di konferensi papan atas
Di beberapa bidang, kolusi antar-reviewer benar-benar ada, dan dalam beberapa kasus bahkan melibatkan AC
Sekarang sudah tidak ada yang meninjau makalah dengan sungguh-sungguh hanya karena itu adalah ‘hal yang benar secara prinsip’
Karena terlalu banyak makalah yang hanya untuk kebutuhan karier, reviewer jadi makin tidak peduli
Menurut analisis Pangram, 21% review ICLR sepenuhnya dihasilkan AI, dan lebih dari separuh mengandung jejak AI
Namun pertanyaannya adalah apa yang dimaksud dengan “bukti”, dan bagaimana bisa dibuktikan bahwa sesuatu benar-benar dihasilkan AI
Alat seperti ini cocok untuk tujuan tersebut
Saya sering ‘merasakan’ bahwa kebanyakan ditulis dengan AI, tetapi tidak bisa membuktikannya, jadi tidak bisa mengambil tindakan apa pun
Tanpa informasi tambahan seperti metadata, menilai apakah suatu teks ditulis LLM atau bukan pada dasarnya tidak bermakna
Judulnya mungkin benar, tetapi keandalan detektor AI masih tetap rendah
Tidak ada bukti bahwa alat Pangram sudah lepas dari reputasi buruk itu
Sudah dijelaskan lebih rinci dalam posting blog
Dari 10.202 review ICLR 2022, 10.190 ditulis manusia, dan hanya 12 yang memiliki jejak penyuntingan AI
Kita tidak bisa menghakimi individu tertentu, tetapi hampir bisa dipastikan banyak review memang diserahkan ke AI
Saat melihat judul artikel “21% review dihasilkan AI”, kesan saya justru angka itu lebih rendah dari dugaan
Seperti situasi ‘lubang-lubang Swiss cheese sejajar’ dalam investigasi kecelakaan, ini adalah hasil akumulasi kelalaian tugas
Awalnya saya terkejut, tetapi 21% justru merupakan angka yang sangat rendah
Lagi pula, angka ini berasal dari perusahaan yang menjual detektor AI, jadi tetap ada kemungkinan false positive
Yang penting bukan apakah review ditulis AI, melainkan akurasi review itu sendiri
Konferensi mengklaim menjalankan ‘peer review’, dan AI secanggih apa pun tetap bukan peer
Pangram tampak seperti sedang memancing kemarahan lewat deteksi AI demi clickbait
Pada akhirnya, korban pertama dari monster buatan AI adalah para pekerja pengetahuan yang menciptakannya, seperti programmer, peneliti, dan universitas
Konferensi ini sebelumnya juga pernah mengalami bug OpenReview yang sempat membocorkan identitas semua reviewer
Menurut artikel terkait, setelah itu skor direset dan keputusan dibuat ulang oleh AC yang baru
Ke depan, mungkin lebih baik jika semua makalah secara default mendapat review AI, lalu reviewer manusia melengkapi hasilnya
Dengan begitu reviewer akan memeriksa hasil AI, dan penulis juga bisa menerima umpan balik yang lebih dapat diprediksi
Tentu reviewer manusia pun bisa kembali memakai AI, tetapi hal yang sama juga berlaku bagi penulis