2 poin oleh GN⁺ 2026-02-02 | 1 komentar | Bagikan ke WhatsApp
  • Wiki Education secara sistematis meneliti dampak AI generatif (ChatGPT, dll.) terhadap penyuntingan Wikipedia sepanjang 2025
  • Dengan memanfaatkan alat deteksi AI Pangram untuk menganalisis 3.078 artikel yang ditulis sejak 2022, ditemukan 178 artikel yang dicurigai ditulis AI, dan lebih dari dua pertiganya dinyatakan gagal verifikasi
  • Menyusul temuan ini, organisasi tersebut memperkuat pelatihan peserta serta memperkenalkan pedoman penggunaan AI dan sistem deteksi real-time untuk mencegah salin-tempel langsung teks buatan AI
  • AI tidak cocok untuk menulis draf artikel, tetapi dapat berguna pada tahap riset seperti menjelajahi materi, mencari sumber, dan mengidentifikasi kekosongan konten
  • Wiki Education menekankan bahwa otomatisasi deteksi AI dan perluasan edukasi editor adalah kunci untuk menjaga keandalan Wikipedia

Hubungan antara AI generatif dan Wikipedia

  • Wiki Education menangani sekitar 19% editor aktif baru di Wikipedia bahasa Inggris, dan menganalisis dampak serta risiko AI generatif
    • Seiring chatbot seperti ChatGPT, Gemini, dan Claude menjadi hal yang umum, upaya pemanfaatannya dalam penyuntingan Wikipedia juga meningkat
    • Organisasi ini menilai pola penggunaan AI oleh peserta dan mempublikasikan hasilnya
  • Kesimpulannya, mereka menegaskan prinsip bahwa output AI tidak boleh disalin apa adanya lalu ditempel ke Wikipedia

Hasil deteksi AI dan verifikasi

  • Di antara artikel yang ditulis setelah peluncuran ChatGPT pada 2022, 178 artikel terdeteksi oleh Pangram sebagai tulisan AI
    • Sebelum 2022 tidak ada jejak penggunaan AI, lalu jumlahnya meningkat secara bertahap setelahnya
  • Hanya 7% yang menggunakan sumber palsu, sementara sisanya mengutip sumber nyata, tetapi lebih dari 2/3 tetap gagal diverifikasi
    • Informasi yang diklaim tidak ditemukan pada sumber yang dikutip, sehingga kebenaran faktanya tidak dapat dipastikan
  • Wiki Education mengerahkan sumber daya manusia yang cukup besar untuk membereskan artikel yang gagal verifikasi
    • Sebagian artikel dijadikan ‘stub’, sebagian diusulkan untuk dihapus (PROD), dan sebagian dinilai tidak dapat dipulihkan

Peningkatan program dan sistem deteksi AI

  • Dengan dukungan Pangram, mereka membangun sistem untuk menganalisis suntingan peserta secara real-time
    • Melalui platform Dashboard milik mereka, pelacakan suntingan dan fitur notifikasi otomatis dijalankan
  • Modul pelatihan baru “Using generative AI tools with Wikipedia” diperkenalkan
    • Area penggunaan AI yang diperbolehkan dan yang dilarang dibedakan dengan jelas
    • Pesan intinya menegaskan, “Jangan salin-tempel teks AI”
  • Pada paruh kedua 2025, dari 1.406 peringatan suntingan AI, hanya 22% yang benar-benar terjadi di ruang artikel
    • Sebagian besar terdeteksi pada tahap sandbox latihan
  • Pangram menunjukkan sebagian false positive pada teks nonkalimat seperti format dan daftar, tetapi tetap mempertahankan akurasi tinggi dalam analisis kalimat isi

Pola penggunaan AI dan dampak pendidikan

  • Pada semester musim gugur 2025, dari 6.357 peserta, hanya 5% yang terdeteksi menggunakan AI di artikel sungguhan, dan sebagian besar dibatalkan secara manual atau otomatis
    • Peserta, pengajar, dan pakar wiki bekerja sama untuk menghapus teks buatan AI
  • Para pengajar menilai pekerjaan mahasiswa dengan berfokus pada ‘verifiability’
    • Mereka menegaskan bahwa kalimat yang dihasilkan AI tidak cocok untuk Wikipedia karena tidak dapat diverifikasi secara faktual
  • Intervensi dini berbasis Pangram menurunkan tingkat penggunaan AI dari perkiraan 25% menjadi 5%

Potensi pemanfaatan positif AI

  • AI berguna pada tahap riset seperti mengidentifikasi kekosongan artikel, menelusuri sumber, dan menunjukkan jalur akses ke materi
    • Dalam 102 laporan penggunaan dari 7 kelas, 87% menyatakan AI bermanfaat
    • Alat yang paling banyak digunakan adalah ChatGPT, disusul Grammarly
  • Mahasiswa memanfaatkan AI untuk perbaikan kalimat, usulan kategori, dan evaluasi draf
    • Namun, tidak ada kasus penulisan isi utama artikel dengan AI
  • Ditekankan bahwa AI hanya membantu bila hasilnya ditinjau secara kritis, dan penilaian manusia tetap esensial

Kesimpulan Wiki Education dan rencana ke depan

  • Pada tingkat saat ini, AI generatif menghasilkan teks yang tidak dapat diverifikasi, sehingga tidak cocok untuk menulis isi utama artikel Wikipedia
    • Waktu yang dibutuhkan untuk memverifikasi kalimat buatan AI lebih banyak daripada menulis langsung
  • Namun, AI tetap dapat digunakan sebagai alat bantu untuk penelusuran materi dan penggalian ide
  • Sistem deteksi Pangram akan dipertahankan dan ditingkatkan pada 2026
  • Setelah menemukan bahwa peserta masih kurang memiliki literasi AI, mereka juga akan menambahkan modul edukasi tentang large language model (LLM)
  • Bersama Princeton University dan pihak lain, mereka tengah meneliti perubahan suntingan mahasiswa sebelum dan sesudah adopsi AI
    • Dikonfirmasi bahwa Pangram secara akurat mengidentifikasi suntingan 2015–2022 sebagai 100% ditulis manusia

Implikasi bagi Wikipedia secara keseluruhan

  • 10% orang dewasa di seluruh dunia menggunakan ChatGPT, dan banyak di antaranya memakainya untuk menulis teks
    • Ada risiko editor pemula menambahkan konten buatan AI tanpa verifikasi
  • Alat deteksi otomatis seperti Pangram sangat penting untuk menjaga kualitas Wikipedia
    • Saat ini baru memungkinkan penandaan banner manual, sehingga dibutuhkan sistem deteksi yang otomatis
  • Diusulkan penguatan peringatan penggunaan AI dan pelatihan penyuntingan berbasis sumber bagi editor baru
    • Perangkat lunak bantu penyuntingan milik Wikimedia Foundation juga perlu memprioritaskan pendekatan ringkasan yang berpusat pada manusia
  • Agar Wikipedia dapat beradaptasi dengan perubahan teknologi sambil menjaga keandalan, pengembangan kebijakan dan alat yang sesuai dengan era AI menjadi penting

1 komentar

 
GN⁺ 2026-02-02
Komentar Hacker News
  • Di Wikipedia sudah lama ada masalah gagal verifikasi sumber yang merajalela
    Sulit menemukan bukti bahwa frekuensinya benar-benar meningkat belakangan ini
    Kebanyakan penulis tampaknya menulis apa yang mereka tahu dulu, lalu belakangan menempelkan kutipan yang terdengar masuk akal seminimal mungkin
    Rasanya tingkat keandalannya berbeda-beda tergantung tingkat keahlian pada halaman tersebut dan seberapa nis topiknya

    • Ada contoh seperti ini secara langsung di episode podcast Changelog terbaru
      Para pembawa acara menemukan bahwa mereka salah ditandai sebagai “berasal dari GitHub”, lalu sang tamu memperbaiki kutipan Wikipedia saat rekaman berlangsung
    • Ada dua masalah yang pernah saya alami. Satu adalah kutipan palsu, dan satu lagi kutipannya asli tetapi sumbernya berasal dari orang yang tidak dapat dipercaya
      Ketika masalah seperti ini ditunjukkan, sebagian editor justru bersikeras bahwa “Wikipedia dapat dipercaya”
      Selama cara pandang itu tidak berubah, sepertinya akan sulit ada perbaikan
    • LLM dapat menambahkan kesimpulan tanpa dasar dengan frekuensi yang jauh lebih tinggi daripada manusia
    • Sebenarnya, verifikasi kutipan seperti ini juga tampaknya bisa dimanfaatkan agar AI mendeteksi secara otomatis lalu memberi tanda untuk ditinjau manusia
    • Banyak dokumen hampir tidak memiliki kutipan, atau memiliki kutipan yang salah sehingga kesimpulannya terdistorsi
      Misalnya seperti kasus salah menafsirkan perilaku molekul air
  • Artikel itu sampai tiga kali menekankan, “jangan copy-paste output AI generatif
    Saya juga punya pengalaman serupa. Awalnya terlihat sangat meyakinkan, tetapi segera terasa bahwa isinya penuh fatamorgana dan noise
    Meski begitu, tetap cukup berguna untuk memunculkan ide atau brainstorming

  • Saya memilih judul itu untuk menekankan inti artikelnya
    Kalimat “lebih dari dua pertiga dokumen yang ditandai gagal diverifikasi” terasa sangat menonjol

    • Pada dokumen terkait politik, masalah seperti ini memang sudah lama umum terjadi
      Kalau kutipannya diverifikasi langsung, banyak sumber kacau
      AI mungkin memperburuk masalahnya, tetapi penyuntingan manusia yang berniat buruk juga tetap ada
    • Judul yang awalnya diajukan adalah “sebagian besar dokumen yang ditandai gagal diverifikasi”
      Menurut saya, ungkapan itu menangkap inti masalah dengan baik
    • Manusia juga menulis hal tanpa dasar, tetapi LLM jauh lebih cepat dalam hal kecepatan dan skala
      Saya penasaran seperti apa data pembanding tingkat kesalahan kutipan sebelum era AI
  • Artikel ini tidak membahas Wikipedia secara keseluruhan, melainkan hanya editan melalui program Wiki Edu
    Artinya, ini tentang dokumen yang ditulis mahasiswa sebagai tugas kuliah

    • Jika mahasiswa dipaksa mengedit Wikipedia, wajar saja hasilnya menjadi berkualitas rendah dan ditulis tanpa antusiasme
      Pada akhirnya, masalah ini terasa lebih dekat ke kebiasaan penggunaan AI di kampus daripada ke Wikipedia itu sendiri
    • Ini juga mirip dengan kebiasaan mahasiswa saat menulis makalah, yaitu mencari kutipan yang sekadar terlihat meyakinkan lalu ditempelkan
      Bahkan melihat mahasiswa doktoral pun menulis seperti ini rasanya menyedihkan
    • Di antara dokumen editan Wiki Edu, ada juga yang terlihat seperti tugas menulis kreatif
      Saat sumbernya dibaca, sering terlihat mereka canggung dalam salah memahami atau salah merangkum makna
      LLM adalah alat yang sangat pas untuk “menulis demi nilai” seperti ini
  • Di luar masalah Wikipedia, yang lebih besar adalah fenomena jutaan orang di seluruh dunia membuat teks dengan LLM dan sebagian isinya dikonsumsi seolah-olah fakta
    LLM tidak punya kewajiban terhadap kebenaran, hanya setia pada konsistensi gramatikal

    • Sebenarnya LLM bahkan bukan soal konsistensi gramatikal, melainkan cenderung menyesuaikan diri pada gaya bahasa yang umum dipakai banyak orang
      Kadang itu kebetulan benar, tetapi selalu tidak stabil
  • Hanya dari melihat sebagian dokumen, bisa jadi proporsi tulisan bot yang terdeteksi lebih rendah daripada kenyataannya
    Artinya, mungkin hanya dokumen yang gagal diverifikasi saja yang terdeteksi

    • Model klasifikasi bernama Pangram adalah jaringan saraf klasifikasi teks yang dilatih dengan membandingkan teks tulisan manusia dan teks dari berbagai LLM
      Detailnya bisa dilihat di PDF makalah
  • Dari sudut pandang penyedia LLM, ini seperti tragedi pencemaran sumber daya bersama
    Wikipedia mengambil porsi besar dalam data pelatihan, jadi aneh mengapa mereka justru mencemarinya sendiri
    Akan menarik jika muncul kebijakan yang melarang penggunaan AI di Wikipedia

    • Pelaku masalahnya bukan penyedia AI, melainkan para pengguna
      Hal yang sama juga terjadi di GitHub
    • Tetapi kesalahan kutipan seperti ini sudah ada bahkan sebelum LLM
      Bukan hanya di Wikipedia, di tempat lain pun kutipan yang sumbernya tidak sesuai dengan klaim itu umum terjadi
    • Pada akhirnya, yang menimbulkan masalah seperti ini adalah pengguna individu
  • Fitur yang benar-benar berguna tampaknya adalah chatbot untuk menanyakan pedoman penyuntingan
    Saat ini, bahkan editor berpengalaman pun sering menafsirkan aturan sesuka hati di halaman diskusi
    Budaya “batalkan dulu lalu tambahkan alasan belakangan” menjadi hambatan besar bagi pemula
    Bagian seperti ini rasanya bisa langsung disanggah bot

  • Masalah lain adalah wiki berbasis AI seperti Grokipedia
    Dari luar memang tampak lebih rapi dan ramah seluler daripada Wikipedia, tetapi isinya memuat informasi yang sengaja dipelintir
    Mungkin ada tujuan dari sebagian perusahaan besar atau kekuatan politik untuk melemahkan sumber informasi yang demokratis
    Kita perlu berhati-hati agar Wikipedia tidak menjadi sasaran serangan seperti ini

  • Benar bahwa spam AI menurunkan kualitas, tetapi pada dasarnya ini adalah masalah kontrol kualitas Wikipedia
    Proses peninjauannya lambat, dan juga tidak ada jaminan bahwa informasi baru itu benar
    Sekalipun spam AI hilang, tidak akan banyak berarti jika kontrol kualitas tidak membaik
    Wikipedia perlu membangun ulang sistem kontrol kualitasnya agar menjelaskan sesuatu dengan jelas sesuai tingkat pemahaman pembaca rata-rata