Makalah palsu di Google Scholar yang dibuat dengan GPT: karakteristik utama, penyebaran, dan implikasi untuk mencegah manipulasi bukti
(misinforeview.hks.harvard.edu)- Banyak makalah mencurigakan di Google Scholar yang tampaknya dibuat dengan model GPT yang umum digunakan dapat ditemukan dengan mudah
- Makalah-makalah ini terutama dibuat menggunakan aplikasi AI serbaguna yang banyak dipakai, khususnya ChatGPT, dan meniru gaya penulisan ilmiah
- Google Scholar menampilkan makalah mencurigakan ini berdampingan dengan makalah penelitian yang bereputasi dan terjaga kualitasnya
- Hasil analisis terhadap sampel makalah ilmiah mencurigakan yang dibuat oleh GPT dan ditemukan di Google Scholar menunjukkan bahwa banyak makalah membahas bidang terapan yang rentan terhadap disinformasi digital, seperti lingkungan, kesehatan, dan komputasi
- Meningkatnya kemungkinan manipulasi bukti secara jahat di bidang yang sarat konflik politik menjadi masalah yang makin mengkhawatirkan
Temuan
Temuan 1: 139 makalah mencurigakan yang dibuat dengan GPT tercantum sebagai makalah biasa dalam hasil pencarian Google Scholar. Banyak yang berasal dari jurnal yang tidak terindeks
- Sebagian besar makalah mencurigakan berasal dari jurnal yang tidak terindeks atau working paper, tetapi sebagian juga ditemukan di jurnal, publikasi, konferensi, dan repositori yang mapan
- Ditemukan total 139 makalah yang diduga menggunakan ChatGPT atau aplikasi LLM serupa secara menipu
- Dari jumlah tersebut, 19 berasal dari jurnal terindeks, 89 dari jurnal tidak terindeks, 19 adalah karya mahasiswa di basis data universitas, dan 12 adalah working paper (sebagian besar di DB preprint)
- Makalah terkait lingkungan dan kesehatan mencakup sekitar 34% dari sampel, dan 66% di antaranya diterbitkan di jurnal yang tidak terindeks
Temuan 2: Makalah mencurigakan yang dibuat dengan GPT disebarkan secara online dan telah menyebar di seluruh infrastruktur komunikasi akademik, sering kali dalam beberapa salinan. Bidang terapan dengan implikasi praktis mendominasi
- 27 makalah tentang isu lingkungan ditemukan di 56 URL pada 26 domain unik
- 20 makalah tentang isu kesehatan ditemukan di 46 URL pada 20 domain unik
- Sebagian besar makalah yang diidentifikasi ada dalam beberapa salinan dan telah menyebar ke berbagai arsip, repositori, dan media sosial
- Menghapusnya dari catatan akademik akan sulit atau bahkan mustahil
Temuan 3: Google Scholar menyajikan hasil dari DB sitasi yang dikontrol kualitasnya dan yang tidak melalui antarmuka yang sama, sehingga akses ke makalah mencurigakan buatan GPT terbuka tanpa pembatasan
- Posisi sentral Google Scholar dalam infrastruktur komunikasi akademik yang terbuka untuk umum, serta ketiadaan standar, transparansi, dan akuntabilitas pada kriteria inklusinya, dapat berdampak serius pada kepercayaan publik terhadap sains
- Hal ini akan meningkatkan potensi penyalahgunaan Google Scholar untuk evidence hacking, dan memengaruhi upaya untuk menarik kembali atau menghapus makalah palsu dari sumber aslinya
- Solusi apa pun harus mempertimbangkan keseluruhan infrastruktur komunikasi akademik serta interaksi antara berbagai aktor, kepentingan, dan motivasi yang berbeda
Opini GN⁺
Masalah ini mengkhawatirkan karena alasan-alasan berikut:
-
Makalah yang dihasilkan GPT berpotensi membanjiri sistem komunikasi akademik dan mengancam integritas catatan ilmiah. Ini akan memperburuk masalah paper mill yang sudah ada.
-
Konten yang tampak meyakinkan secara ilmiah tetapi dibuat oleh AI mungkin sebenarnya dihasilkan secara menipu. Ini dapat melemahkan kepercayaan publik terhadap pengetahuan ilmiah dan menimbulkan risiko sosial yang serius.
-
Kriteria inklusi Google Scholar tidak transparan dan minim akuntabilitas. Ini terkait dengan masalah bahwa hasil pencarian menampilkan DB sitasi yang memenuhi standar dan yang tidak tanpa pembedaan.
-
Karena makalah palsu menyebar ke berbagai platform, meskipun versi aslinya ditarik, tetap sulit untuk melacak dan menghapusnya. Ini dapat menimbulkan dampak negatif jangka panjang pada bidang penelitian terkait.
-
Banyak makalah buatan GPT ditemukan pada topik yang sensitif dan penting secara sosial, seperti kesehatan dan lingkungan. Ini dapat menimbulkan kebingungan serius dalam pengambilan kebijakan dan berpotensi disalahgunakan secara politik.
Untuk menanggapi masalah ini, pendekatan teknis, edukatif, dan institusional perlu dipertimbangkan secara bersamaan. Misalnya
- Menyediakan opsi penyaringan di mesin pencari akademik berdasarkan status peer-review dan sejenisnya
- Mengintegrasikan alat evaluasi ke antarmuka dan crawler mesin pencari akademik
- Membangun mesin pencari akademik gratis yang dioperasikan demi kepentingan publik, bukan alasan komersial
- Inisiatif pendidikan bagi pembuat kebijakan, komunikator sains, jurnalis, dan pihak terkait lainnya
Pada dasarnya, masalah ini perlu didekati dalam konteks yang lebih besar, seperti persoalan dalam sistem penerbitan akademik, budaya "publish or perish", monopoli Google, dan konflik ideologis seputar kontrol informasi. Solusi teknis saja tidak akan cukup.
2 komentar
alphaXiv - Mendiskusikan makalah di arXiv secara terbuka
Melihat platform itu dan tulisan ini muncul bersamaan, rasanya seperti ada semacam keterkaitan
Komentar Hacker News
Pada APS March Meeting, editor jurnal sains lebih khawatir pada ulasan yang dihasilkan LLM daripada makalah yang dihasilkan LLM
Skrip Python milik penulis mungkin memiliki bug
GPT dapat membuat manipulasi makalah ilmiah menjadi lebih mudah, tetapi manusia juga sudah melakukannya dengan baik tanpa AI
Berharap metode pengumpulan data dalam makalah terkait LLM bisa lebih canggih
Para ahli di bidang terkait dapat dengan mudah membedakan hasil palsu
Dalam diskusi sebelumnya, makalah yang dicurigai menggunakan GPT ternyata ditulis sebelum OpenAI ada
ChatGPT tidak memahami kebenaran
Mengapresiasi bahwa gambar artikel bukan hasil generasi AI
Makalah yang dihasilkan GPT mungkin ditulis oleh orang yang bahasa Inggrisnya bukan bahasa ibu untuk memperbaiki bahasa Inggris mereka
Rasanya kita sedang memasuki zaman yang gelap