3 poin oleh GN⁺ 2025-12-01 | 2 komentar | Bagikan ke WhatsApp
  • Dalam ulasan sejawat makalah untuk konferensi pembelajaran mesin internasional ICLR 2026, 21% dipastikan sepenuhnya ditulis oleh kecerdasan buatan
  • Alat pendeteksi AI dari Pangram Labs menganalisis 75.800 ulasan dan menemukan jejak penggunaan AI di lebih dari separuhnya
  • Sejumlah peneliti mengangkat kemungkinan konten buatan AI setelah menerima umpan balik yang sangat bertele-tele atau tidak akurat
  • Pihak konferensi menyatakan akan memeriksa pelanggaran kebijakan penggunaan AI dengan alat otomatis, dan sedang menjalankan proses pemulihan kepercayaan
  • Insiden ini menunjukkan bahwa memastikan transparansi dan keandalan proses peninjauan ilmiah adalah hal yang mendesak

Kondisi penggunaan AI yang terungkap dalam peninjauan makalah ICLR 2026

  • Dari ulasan makalah untuk konferensi pembelajaran mesin internasional ICLR 2026, dianalisis bahwa sekitar 21% sepenuhnya ditulis oleh AI, dan lebih dari separuh dipengaruhi oleh AI
    • Analisis dilakukan oleh Pangram Labs, dengan cakupan total 19.490 makalah dan 75.800 ulasan
    • Pangram menggunakan alat pendeteksi teks buatan AI untuk mempublikasikan hasilnya
  • Konferensi menyatakan berencana meninjau dengan alat otomatis apakah penggunaan AI melanggar kebijakan peninjauan
    • Penanggung jawab program ICLR 2026 menyebut ini sebagai kasus pertama di mana masalah ulasan AI terungkap dalam skala besar

Sorotan peneliti dan proses investigasi

  • Sejumlah peneliti membagikan ulasan yang diduga ditulis AI di media sosial
    • Beberapa ulasan memuat ‘hallucinated citations’ atau umpan balik yang samar dan bertele-tele
  • Graham Neubig dari Carnegie Mellon University menerima ulasan yang tidak lazim dan meminta verifikasi apakah itu dibuat AI
    • Ia mengunggah pengumuman hadiah di X (dulu Twitter), dan Max Spero dari Pangram Labs merespons lalu melakukan pemeriksaan menyeluruh
    • Pangram menjelaskan bahwa mereka menulis kode untuk menganalisis teks semua kiriman hanya dalam 12 jam

Hasil analisis Pangram Labs

  • Alat Pangram bekerja dengan memprediksi teks yang dihasilkan atau diedit oleh LLM (large language model)
    • Hasil analisis menunjukkan 15.899 ulasan sepenuhnya dibuat AI, dan 199 makalah (1%) juga dinilai sepenuhnya ditulis AI
    • 61% makalah ditulis manusia, sementara 9% memuat teks buatan AI lebih dari separuh isi
  • Pangram mengirimkan modelnya sendiri ke ICLR 2026 dalam bentuk preprint, dan sebagian ulasan untuk makalah tersebut juga dinilai sebagai buatan AI

Reaksi para peneliti

  • Desmond Elliott dari University of Copenhagen menunjukkan bahwa salah satu ulasan untuk makalah yang ia kirim salah memahami inti makalah dan menyebut angka yang keliru
    • Mahasiswa doktoralnya menduga ulasan tersebut tampaknya ditulis oleh LLM
    • Menurut hasil analisis Pangram, ulasan itu memang sepenuhnya dibuat AI
    • Ulasan tersebut memberikan skor penilaian terendah pada makalah itu, sehingga menempatkannya di batas diterima atau tidak

Tanggapan konferensi dan tantangan ke depan

  • Pihak konferensi mengumumkan akan menerapkan alat otomatis untuk mendeteksi penggunaan AI, dengan tujuan memulihkan keandalan peninjauan
  • Penanggung jawab program mengatakan bahwa melalui proses ini, ada kebutuhan untuk mendefinisikan ulang konsep kepercayaan
  • Insiden ini menjadi contoh bahwa AI telah meresap jauh ke dalam proses peninjauan ilmiah, sehingga memastikan transparansi dalam evaluasi riset muncul sebagai tugas utama

2 komentar

 
yuntae 2025-12-01

Ada banyak contoh ulasan yang menarik
https://reddit.com/r/MachineLearning/…

 
GN⁺ 2025-12-01
Komentar Hacker News
  • Saya memang merasa ketergantungan pada AI dalam menulis makin besar, tetapi metodologi yang dipakai dalam artikel ini terlihat seperti promosi untuk Pangram
    Detektor AI pada umumnya tidak dapat diandalkan, dan justru merugikan orang-orang yang bahkan belum pernah memakai LLM
    Diskusi terkait bisa dilihat di tautan ini

    • Saya adalah salah satu pendiri Pangram. Kami telah membuat kemajuan nyata di area masalah ini
      Jika yang Anda bayangkan adalah detektor lawas seperti GPTZero, berarti Anda belum melihat peningkatan performa terbaru
      Menurut makalah para ekonom University of Chicago, dari 1.992 dokumen yang ditulis manusia, tercatat 0 false positive, dan tingkat deteksi dokumen AI di atas 99%
    • Detektor AI hanya berbahaya jika dipakai untuk menghukum orang
      Memakainya untuk analisis statistik seperti dalam riset ini tidak masalah
      Nyaris tidak ada makalah yang benar-benar ditulis AI, dan wajar jika yang banyak memakai AI justru review-nya
    • Sebagian orang tidak percaya pada LLM, tetapi akan dengan senang hati memakainya jika riset itu mengonfirmasi bias mereka
      Standar ganda seperti ini menarik
  • Entah angka 20% itu akurat atau tidak, semua orang bisa merasakan penurunan kualitas review di konferensi papan atas
    Di beberapa bidang, kolusi antar-reviewer benar-benar ada, dan dalam beberapa kasus bahkan melibatkan AC
    Sekarang sudah tidak ada yang meninjau makalah dengan sungguh-sungguh hanya karena itu adalah ‘hal yang benar secara prinsip’

    • Dulu, meski tanpa insentif yang eksplisit, orang tetap mereview dengan hati nurani, tetapi budaya itu kini benar-benar hilang
    • Dalam situasi ketika peneliti AI direkrut dengan gaji yang sangat besar, wajar jika sistem menjadi terdistorsi
    • Fenomena ini juga bisa dilihat sebagai semacam penyesuaian pasar
      Karena terlalu banyak makalah yang hanya untuk kebutuhan karier, reviewer jadi makin tidak peduli
  • Menurut analisis Pangram, 21% review ICLR sepenuhnya dihasilkan AI, dan lebih dari separuh mengandung jejak AI
    Namun pertanyaannya adalah apa yang dimaksud dengan “bukti”, dan bagaimana bisa dibuktikan bahwa sesuatu benar-benar dihasilkan AI

    • Istilah “bukti” memang kurang tepat. Tetapi analisis statistik bisa bersifat objektif
      Alat seperti ini cocok untuk tujuan tersebut
    • Mereka memang menulis makalah yang menjelaskan metodologinya
    • Mungkin saja detektor AI itu sendiri adalah AI
    • Saya juga menghadapi masalah serupa saat menilai tugas mahasiswa
      Saya sering ‘merasakan’ bahwa kebanyakan ditulis dengan AI, tetapi tidak bisa membuktikannya, jadi tidak bisa mengambil tindakan apa pun
    • Sebenarnya mustahil membedakannya hanya dari teks
      Tanpa informasi tambahan seperti metadata, menilai apakah suatu teks ditulis LLM atau bukan pada dasarnya tidak bermakna
  • Judulnya mungkin benar, tetapi keandalan detektor AI masih tetap rendah
    Tidak ada bukti bahwa alat Pangram sudah lepas dari reputasi buruk itu

    • Sebagai salah satu pendiri Pangram, saya bisa bilang bahwa tingkat false positive kami sekitar 1 per 10.000
      Sudah dijelaskan lebih rinci dalam posting blog
      Dari 10.202 review ICLR 2022, 10.190 ditulis manusia, dan hanya 12 yang memiliki jejak penyuntingan AI
    • Makalah konferensi pada dasarnya memang mengikuti gaya bahasa yang sangat terformat, sehingga sulit membedakan apakah ada AI atau tidak
    • Jika makalah hanya 1% tetapi review 20% memakai AI, kemungkinan besar itu hanya berarti reviewer lebih bergantung pada AI
      Kita tidak bisa menghakimi individu tertentu, tetapi hampir bisa dipastikan banyak review memang diserahkan ke AI
  • Saat melihat judul artikel “21% review dihasilkan AI”, kesan saya justru angka itu lebih rendah dari dugaan

    • Jika 21% benar-benar sepenuhnya dihasilkan AI, itu berarti kecurangan yang jelas
      Seperti situasi ‘lubang-lubang Swiss cheese sejajar’ dalam investigasi kecelakaan, ini adalah hasil akumulasi kelalaian tugas
  • Awalnya saya terkejut, tetapi 21% justru merupakan angka yang sangat rendah
    Lagi pula, angka ini berasal dari perusahaan yang menjual detektor AI, jadi tetap ada kemungkinan false positive

  • Yang penting bukan apakah review ditulis AI, melainkan akurasi review itu sendiri

    • Tidak, itu bukan intinya
      Konferensi mengklaim menjalankan ‘peer review’, dan AI secanggih apa pun tetap bukan peer
    • Jika risetnya benar-benar berguna dan akurat, itu lebih penting
      Pangram tampak seperti sedang memancing kemarahan lewat deteksi AI demi clickbait
    • Kenyataannya seperti ini
      1. Ilmuwan melakukan riset yang sarat bias
      2. Reviewer memakai AI untuk menghasilkan review yang tampak meyakinkan
      3. Pada akhirnya peneliti harus meninjau ulang review itu sendiri, menciptakan siklus yang absurd
  • Pada akhirnya, korban pertama dari monster buatan AI adalah para pekerja pengetahuan yang menciptakannya, seperti programmer, peneliti, dan universitas

  • Konferensi ini sebelumnya juga pernah mengalami bug OpenReview yang sempat membocorkan identitas semua reviewer
    Menurut artikel terkait, setelah itu skor direset dan keputusan dibuat ulang oleh AC yang baru

  • Ke depan, mungkin lebih baik jika semua makalah secara default mendapat review AI, lalu reviewer manusia melengkapi hasilnya
    Dengan begitu reviewer akan memeriksa hasil AI, dan penulis juga bisa menerima umpan balik yang lebih dapat diprediksi
    Tentu reviewer manusia pun bisa kembali memakai AI, tetapi hal yang sama juga berlaku bagi penulis