- Dalam ulasan sejawat makalah untuk konferensi pembelajaran mesin internasional ICLR 2026, 21% dipastikan sepenuhnya ditulis oleh kecerdasan buatan
- Alat pendeteksi AI dari Pangram Labs menganalisis 75.800 ulasan dan menemukan jejak penggunaan AI di lebih dari separuhnya
- Sejumlah peneliti mengangkat kemungkinan konten buatan AI setelah menerima umpan balik yang sangat bertele-tele atau tidak akurat
- Pihak konferensi menyatakan akan memeriksa pelanggaran kebijakan penggunaan AI dengan alat otomatis, dan sedang menjalankan proses pemulihan kepercayaan
- Insiden ini menunjukkan bahwa memastikan transparansi dan keandalan proses peninjauan ilmiah adalah hal yang mendesak
Kondisi penggunaan AI yang terungkap dalam peninjauan makalah ICLR 2026
- Dari ulasan makalah untuk konferensi pembelajaran mesin internasional ICLR 2026, dianalisis bahwa sekitar 21% sepenuhnya ditulis oleh AI, dan lebih dari separuh dipengaruhi oleh AI
- Analisis dilakukan oleh Pangram Labs, dengan cakupan total 19.490 makalah dan 75.800 ulasan
- Pangram menggunakan alat pendeteksi teks buatan AI untuk mempublikasikan hasilnya
- Konferensi menyatakan berencana meninjau dengan alat otomatis apakah penggunaan AI melanggar kebijakan peninjauan
- Penanggung jawab program ICLR 2026 menyebut ini sebagai kasus pertama di mana masalah ulasan AI terungkap dalam skala besar
Sorotan peneliti dan proses investigasi
- Sejumlah peneliti membagikan ulasan yang diduga ditulis AI di media sosial
- Beberapa ulasan memuat ‘hallucinated citations’ atau umpan balik yang samar dan bertele-tele
- Graham Neubig dari Carnegie Mellon University menerima ulasan yang tidak lazim dan meminta verifikasi apakah itu dibuat AI
- Ia mengunggah pengumuman hadiah di X (dulu Twitter), dan Max Spero dari Pangram Labs merespons lalu melakukan pemeriksaan menyeluruh
- Pangram menjelaskan bahwa mereka menulis kode untuk menganalisis teks semua kiriman hanya dalam 12 jam
Hasil analisis Pangram Labs
- Alat Pangram bekerja dengan memprediksi teks yang dihasilkan atau diedit oleh LLM (large language model)
- Hasil analisis menunjukkan 15.899 ulasan sepenuhnya dibuat AI, dan 199 makalah (1%) juga dinilai sepenuhnya ditulis AI
- 61% makalah ditulis manusia, sementara 9% memuat teks buatan AI lebih dari separuh isi
- Pangram mengirimkan modelnya sendiri ke ICLR 2026 dalam bentuk preprint, dan sebagian ulasan untuk makalah tersebut juga dinilai sebagai buatan AI
Reaksi para peneliti
- Desmond Elliott dari University of Copenhagen menunjukkan bahwa salah satu ulasan untuk makalah yang ia kirim salah memahami inti makalah dan menyebut angka yang keliru
- Mahasiswa doktoralnya menduga ulasan tersebut tampaknya ditulis oleh LLM
- Menurut hasil analisis Pangram, ulasan itu memang sepenuhnya dibuat AI
- Ulasan tersebut memberikan skor penilaian terendah pada makalah itu, sehingga menempatkannya di batas diterima atau tidak
Tanggapan konferensi dan tantangan ke depan
- Pihak konferensi mengumumkan akan menerapkan alat otomatis untuk mendeteksi penggunaan AI, dengan tujuan memulihkan keandalan peninjauan
- Penanggung jawab program mengatakan bahwa melalui proses ini, ada kebutuhan untuk mendefinisikan ulang konsep kepercayaan
- Insiden ini menjadi contoh bahwa AI telah meresap jauh ke dalam proses peninjauan ilmiah, sehingga memastikan transparansi dalam evaluasi riset muncul sebagai tugas utama
Belum ada komentar.