- LLM meningkatkan efisiensi dalam bantuan menulis, tetapi saat merevisi tulisan manusia, ia mengubah kesimpulan, posisi, dan jenis argumen, serta menciptakan pergeseran makna yang berbeda dari penyuntingan manusia
- Dalam studi pengguna, orang yang banyak menggunakan LLM menyatakan puas dengan hasilnya, tetapi juga menjawab bahwa suara dan kreativitas mereka berkurang secara signifikan secara statistik, menunjukkan paradoks preferensi
- Ketika 86 esai yang ditulis manusia dari ArgRewrite-v2 diedit oleh tiga LLM (gpt-5-mini, gemini-2.5-flash, claude-haiku), bahkan instruksi untuk melakukan revisi minimal atau hanya perbaikan tata bahasa pun menyebabkan perubahan kosakata dan makna yang besar
- Tulisan yang ditulis atau direvisi oleh LLM bergeser ke gaya yang lebih formal dan impersonal, dengan peningkatan kata benda, kata sifat, serta bahasa emosional, logis, dan statistik, sementara kata ganti dan argumen berbasis pengalaman pribadi berkurang
- Dalam analisis terhadap 18 ribu ulasan peer review ICLR 2026, ulasan yang dinilai dihasilkan AI mencakup 21% dari total dan memberi skor 10% lebih tinggi dibanding ulasan manusia, dengan fokus lebih besar pada reproduktibilitas dan skalabilitas
Ringkasan penelitian
- LLM digunakan oleh lebih dari 1 miliar orang di seluruh dunia, dan penggunaan paling umum adalah sebagai alat bantu menulis
- LLM dapat memberikan peningkatan efisiensi yang besar, tetapi muncul pertanyaan apakah ia benar-benar menulis sesuai yang diinginkan pengguna
- Banyak pengguna bisa mengenali “rasa” gaya tulisan LLM, tetapi kurang menyadari sejauh mana LLM mendistorsi makna tulisan
- Objek analisis terdiri dari tiga jenis data
- studi pengguna manusia
- dataset esai argumentatif yang ditulis manusia
- ulasan konferensi machine learning papan atas
- Materi penelitian tersedia sebagai Paper dan Code
Temuan utama
- LLM mengubah kesimpulan tulisan, sekaligus mengubah posisi dan jenis argumen
- Para pengguna menyatakan puas dengan hasilnya, tetapi juga menjawab bahwa suara dan kreativitas mereka berkurang secara signifikan secara statistik, menunjukkan paradoks preferensi
- Bahkan ketika hanya diminta melakukan koreksi tata bahasa sederhana, LLM menyebabkan pergeseran makna yang lebih besar daripada penyuntingan manusia
- Dampaknya juga terlihat pada ulasan International Conference of Learning Representations (ICLR) 2026
- Ulasan peer review yang dinilai dihasilkan AI mencapai 21% dari total
- Ulasan ini berfokus pada kriteria ilmiah yang secara signifikan berbeda dari ulasan manusia dalam alasan menerima atau menolak makalah
- Semakin terintegrasi LLM dalam masyarakat, pergeseran makna yang halus ini dapat mengubah politik, budaya, sains, hingga komunikasi antara teman dan keluarga
- Objek penelitian adalah penulisan argumentatif, tetapi hasilnya dapat digeneralisasi ke bentuk penulisan dan komunikasi lainnya
Penyuntingan LLM menggeser tulisan ke arah yang berbeda dari penyuntingan manusia
- Ketika LLM merevisi tulisan manusia, muncul perubahan yang dihomogenkan yang sangat berbeda dibanding saat esai yang sama diedit manusia
- Analisis kontrafaktual membandingkan hasil ketika satu teks diedit LLM dengan hasil jika diedit manusia
- Dalam kasus penyuntingan manusia
- draf pertama ditandai sebagai titik abu-abu terang
- draf kedua setelah menerima umpan balik ahli ditandai sebagai titik abu-abu gelap
- perubahan divisualisasikan dengan memproyeksikan ruang embedding semantik MiniLM-L6 menggunakan PCA
- Dalam kasus penyuntingan LLM
- esai asli yang ditulis manusia diberi umpan balik ahli dan berbagai prompt
- bahkan ketika hanya diminta revisi minimal, semua esai mengalami perubahan besar
- arah perubahannya bergerak konsisten menjauh dari cara manusia menulis
- Contoh dari dataset ArgRewrite-v2 menunjukkan bagaimana penulisan dengan LLM mengubah kesimpulan esai dan menghapus suara manusia
Metodologi dan dataset
-
Studi pengguna manusia
- Studi pengguna dilakukan untuk memahami dampak penggunaan LLM terhadap proses menulis
- 55 orang dapat menggunakan LLM, sedangkan 45 orang tidak memiliki akses ke LLM
- Karena banyak pengguna secara sukarela menghindari penggunaan LLM selama sesi, hasilnya dikondisikan berdasarkan pilihan penggunaan yang sebenarnya
- Mereka dibagi menjadi dua kelompok
- LLM-Influenced: orang yang tidak menggunakan LLM atau hanya menggunakannya untuk pencarian informasi
- LLM: orang yang menggunakan LLM secara luas
- Pemisahan kelompok dilakukan secara apriori sebelum evaluasi dan analisis
- Klasifikasi menggunakan log percakapan, esai akhir, dan skor penggunaan yang dilaporkan sendiri
-
ArgRewrite-v2
- Menggunakan 86 esai yang ditulis manusia dan dikumpulkan pada 2021
- Data ini ditulis sebelum LLM tersedia luas untuk publik
- Tiga LLM produksi digunakan untuk menyunting esai
- gpt-5-mini
- gemini-2.5-flash
- claude-haiku
- Lima jenis revisi diterapkan
- revisi umum
- revisi minimal
- koreksi tata bahasa
- penyelesaian
- perluasan
- Draf yang dihasilkan LLM dan revisi yang ditulis manusia dibandingkan pada berbagai dimensi
- makna
- penggunaan kosakata
- distribusi kelas kata
- nuansa emosional
- ciri gaya bahasa
-
Analisis ulasan ICLR 2026
- Menganalisis 18 ribu ulasan peer review dari ICLR 2026
- Dipilih makalah yang memiliki satu ulasan yang sepenuhnya ditulis manusia dan satu ulasan yang sepenuhnya dihasilkan LLM
- Pengklasifikasi LLM-as-a-Judge digunakan untuk mengidentifikasi kekuatan dan kelemahan yang dikutip dalam tiap ulasan
- Skor yang diberikan manusia dan LLM kemudian dibandingkan
Paradoks antara kepuasan pengguna dan hilangnya suara
- Pengguna yang banyak memakai LLM menjawab bahwa esai mereka tidak mencerminkan suara mereka sendiri
- Pada saat yang sama, mereka juga menyatakan puas dengan hasilnya, sehingga muncul paradoks preferensi
- Pengguna mengekspresikan kepuasan, tetapi juga melaporkan penurunan signifikan pada kreativitas dan suara mereka
- RLHF mengoptimalkan preferensi, tetapi tidak cukup untuk menjaga kreativitas dan makna
Pergeseran ke arah bersama dalam ruang makna
- Esai yang ditulis manusia dalam kelompok kontrol tersebar luas di seluruh ruang embedding
- Distribusi ini mencerminkan keragaman sudut pandang, gaya menulis, dan cara berargumen tiap individu
- Esai yang ditulis LLM berkumpul rapat di wilayah yang tidak ditempati esai tulisan manusia
- Revisi oleh LLM menghasilkan perubahan makna yang besar, dan arah perubahannya juga sangat seragam
- Hasil revisi LLM berpindah ke wilayah ruang yang sebelumnya tidak pernah ditempati esai tulisan manusia mana pun
- Ini menjadi bukti bahwa LLM menggeser makna dengan cara yang berbeda dari editor manusia
Perubahan kesimpulan dan posisi
- Pengguna LLM menulis esai yang lebih netral untuk pertanyaan “Apakah uang membawa kebahagiaan?”
- Esai-esai ini cenderung menghindari posisi yang jelas
- Ini muncul sebagai perubahan mendasar pada posisi argumen itu sendiri
Perubahan kosakata dan tata bahasa
- Penyuntingan LLM mengubah kata-kata yang digunakan jauh lebih besar daripada penyuntingan manusia
- Sidik leksikal unik masing-masing penulis tertimpa oleh kosakata yang disukai LLM
- LLM mengadopsi gaya yang lebih formal
- Perubahan juga muncul pada distribusi kelas kata
- penggunaan kata benda dan kata sifat meningkat
- penggunaan kata ganti menurun
- Penurunan kata ganti ditafsirkan sebagai sinyal berkurangnya orang pertama dan argumen berbasis pengalaman, serta pergeseran ke bahasa yang impersonal
Peningkatan bahasa emosional, analitis, logis, dan statistik
- Penulisan dengan LLM meningkatkan bahasa emosional
- Dibandingkan penyuntingan manusia, penyuntingan LLM menunjukkan peningkatan besar pada emosi positif maupun negatif
- Peningkatan ini terjadi bahkan saat instruksinya hanya revisi minimal dan umpan balik ahli
- Dalam analisis LIWC, hasil edit LLM pada ArgRewrite-v2 menunjukkan peningkatan bahasa yang lebih formal, logis, dan mencerminkan pola berpikir yang hierarkis
- Dalam studi pengguna, manusia lebih banyak menggunakan argumen yang terkait pengalaman pribadi
- Esai yang ditulis LLM lebih banyak menggunakan argumen statistik dan logis
- Esai yang dipengaruhi LLM juga mengutip pendapat ahli, sesuatu yang jarang terlihat pada esai yang ditulis manusia
Distorsi kriteria evaluasi dalam institusi ilmiah
- Ketika LLM digunakan dalam proses ulasan ilmiah, LLM memberikan skor 10% lebih tinggi daripada manusia
- Ulasan manusia dan LLM memiliki kriteria berbeda dalam menilai kekuatan dan kelemahan
- Ulasan manusia lebih sering membahas hal berikut
- 32% lebih mungkin memperlakukan kejelasan sebagai kekuatan
- 58% lebih mungkin memperlakukan kejelasan sebagai kelemahan
- 32% lebih mungkin membahas relevansi penelitian
- Ulasan LLM lebih sering membahas hal berikut
- 136% lebih mungkin membahas reproduktibilitas
- 84% lebih mungkin membahas skalabilitas
- Perbedaan kriteria evaluasi antara manusia dan LLM dapat memengaruhi jenis pekerjaan ilmiah apa yang diakui valid dan didorong
Kesimpulan
- Hasil ini menunjukkan pola bermasalah tentang bagaimana AI secara halus mendistorsi bahasa tulisan dan institusi budaya
- Konten yang dihasilkan AI telah merambah banyak ranah
- pidato parlemen
- lirik lagu
- naskah film
- bahasa lisan
- pesan kepada rekan kerja dan orang terkasih
- Orang yang sangat bergantung pada AI menyadari bahwa AI mengurangi suara dan kreativitas mereka, tetapi tetap sama-sama puas dengan hasilnya
- Kemudahan penggunaan dan kemungkinan mempercepat karier pribadi besar kemungkinan akan terus mendorong orang membuat teks hasil AI
- Seperti ditunjukkan data ICLR, dalam konteks profesional insentif untuk mengirimkan teks hasil AI seolah sebagai tulisan sendiri juga kemungkinan akan terus ada
1 komentar
Opini di Lobste.rs
Ini benar-benar mengganggu sampai terasa tidak nyaman. Terutama contoh ketika LLM mengubah argumentasi terkait mobil swakemudi itu cukup mengejutkan
Sama sekali tidak mengejutkan bahwa LLM mengambil sikap netral. Saya memahami tujuan inti produk LLM arus utama pada dasarnya adalah mengatakan kebenaran yang “diketahui” dan membantu pengguna, tetapi di luar itu mengambil posisi tengah yang samar
Saya sama sekali tidak bisa memahami kenapa orang mencari LLM untuk menulis atau menyunting tulisan yang bernilai
Ungkapan “tidak nyaman” memang sangat tepat
Saya tidak paham kenapa melatih LLM ke arah seperti itu dianggap buruk
Halamannya di lingkungan saya konsisten tidak dimuat dengan benar. Ada preprint
Grafik frekuensi itu bikin melongo, dan sejujurnya hampir persis seperti yang saya perkirakan
Anggap saja ini seperti hadiah. Yang di sebelah kiri sekarang menjadi kata-kata yang kuat, dan yang di sebelah kanan sekarang perlahan menjadi kata-kata yang tak bermakna
Saya sering melihat hal seperti ini saat mencoba memakai Claude sebagai copy editor. Saya harus berkali-kali memperbaiki prompt agar ia hanya fokus pada ejaan, tata bahasa, dan tanda baca
Kecenderungan makna berubah tampaknya berkaitan dengan cara embedding bekerja
Agensi dan tanggung jawab yang ada pada pengguna terasa anehnya hilang dari banyak diskusi seputar AI/LLM
Kalau kita menganggap pengguna adalah orang dewasa, memakai LLM adalah pilihan aktif. Mereka bisa memutuskan akan memakai outputnya atau tidak, dan akan memakainya dengan cara seperti apa
Jika AI “secara mendasar mengubah” politik, budaya, sains, bahkan cara berkomunikasi dengan teman dan keluarga, itu karena orang-orang memilih untuk melakukannya dan AI mempermudah pilihan itu
Fakta bahwa pengguna mungkin tidak punya opini atau preferensi tidak menghapus kenyataan bahwa pilihan tetap telah dibuat