Bagaimana LLM M mendistorsi bahasa tulisan kita

(sites.google.com)

8 poin oleh GN⁺ 2026-05-05 | 1 komentar | Bagikan ke WhatsApp

LLM meningkatkan efisiensi dalam bantuan menulis, tetapi saat merevisi tulisan manusia, ia mengubah kesimpulan, posisi, dan jenis argumen, serta menciptakan pergeseran makna yang berbeda dari penyuntingan manusia
Dalam studi pengguna, orang yang banyak menggunakan LLM menyatakan puas dengan hasilnya, tetapi juga menjawab bahwa suara dan kreativitas mereka berkurang secara signifikan secara statistik, menunjukkan paradoks preferensi
Ketika 86 esai yang ditulis manusia dari ArgRewrite-v2 diedit oleh tiga LLM (gpt-5-mini, gemini-2.5-flash, claude-haiku), bahkan instruksi untuk melakukan revisi minimal atau hanya perbaikan tata bahasa pun menyebabkan perubahan kosakata dan makna yang besar
Tulisan yang ditulis atau direvisi oleh LLM bergeser ke gaya yang lebih formal dan impersonal, dengan peningkatan kata benda, kata sifat, serta bahasa emosional, logis, dan statistik, sementara kata ganti dan argumen berbasis pengalaman pribadi berkurang
Dalam analisis terhadap 18 ribu ulasan peer review ICLR 2026, ulasan yang dinilai dihasilkan AI mencakup 21% dari total dan memberi skor 10% lebih tinggi dibanding ulasan manusia, dengan fokus lebih besar pada reproduktibilitas dan skalabilitas

Ringkasan penelitian

LLM digunakan oleh lebih dari 1 miliar orang di seluruh dunia, dan penggunaan paling umum adalah sebagai alat bantu menulis
LLM dapat memberikan peningkatan efisiensi yang besar, tetapi muncul pertanyaan apakah ia benar-benar menulis sesuai yang diinginkan pengguna
Banyak pengguna bisa mengenali “rasa” gaya tulisan LLM, tetapi kurang menyadari sejauh mana LLM mendistorsi makna tulisan
Objek analisis terdiri dari tiga jenis data
- studi pengguna manusia
- dataset esai argumentatif yang ditulis manusia
- ulasan konferensi machine learning papan atas
Materi penelitian tersedia sebagai Paper dan Code

Temuan utama

LLM mengubah kesimpulan tulisan, sekaligus mengubah posisi dan jenis argumen
Para pengguna menyatakan puas dengan hasilnya, tetapi juga menjawab bahwa suara dan kreativitas mereka berkurang secara signifikan secara statistik, menunjukkan paradoks preferensi
Bahkan ketika hanya diminta melakukan koreksi tata bahasa sederhana, LLM menyebabkan pergeseran makna yang lebih besar daripada penyuntingan manusia
Dampaknya juga terlihat pada ulasan International Conference of Learning Representations (ICLR) 2026
- Ulasan peer review yang dinilai dihasilkan AI mencapai 21% dari total
- Ulasan ini berfokus pada kriteria ilmiah yang secara signifikan berbeda dari ulasan manusia dalam alasan menerima atau menolak makalah
Semakin terintegrasi LLM dalam masyarakat, pergeseran makna yang halus ini dapat mengubah politik, budaya, sains, hingga komunikasi antara teman dan keluarga
Objek penelitian adalah penulisan argumentatif, tetapi hasilnya dapat digeneralisasi ke bentuk penulisan dan komunikasi lainnya

Penyuntingan LLM menggeser tulisan ke arah yang berbeda dari penyuntingan manusia

Ketika LLM merevisi tulisan manusia, muncul perubahan yang dihomogenkan yang sangat berbeda dibanding saat esai yang sama diedit manusia
Analisis kontrafaktual membandingkan hasil ketika satu teks diedit LLM dengan hasil jika diedit manusia
Dalam kasus penyuntingan manusia
- draf pertama ditandai sebagai titik abu-abu terang
- draf kedua setelah menerima umpan balik ahli ditandai sebagai titik abu-abu gelap
- perubahan divisualisasikan dengan memproyeksikan ruang embedding semantik MiniLM-L6 menggunakan PCA
Dalam kasus penyuntingan LLM
- esai asli yang ditulis manusia diberi umpan balik ahli dan berbagai prompt
- bahkan ketika hanya diminta revisi minimal, semua esai mengalami perubahan besar
- arah perubahannya bergerak konsisten menjauh dari cara manusia menulis
Contoh dari dataset ArgRewrite-v2 menunjukkan bagaimana penulisan dengan LLM mengubah kesimpulan esai dan menghapus suara manusia

Metodologi dan dataset

Studi pengguna manusia
- Studi pengguna dilakukan untuk memahami dampak penggunaan LLM terhadap proses menulis
- 55 orang dapat menggunakan LLM, sedangkan 45 orang tidak memiliki akses ke LLM
- Karena banyak pengguna secara sukarela menghindari penggunaan LLM selama sesi, hasilnya dikondisikan berdasarkan pilihan penggunaan yang sebenarnya
- Mereka dibagi menjadi dua kelompok
  - LLM-Influenced: orang yang tidak menggunakan LLM atau hanya menggunakannya untuk pencarian informasi
  - LLM: orang yang menggunakan LLM secara luas
- Pemisahan kelompok dilakukan secara apriori sebelum evaluasi dan analisis
- Klasifikasi menggunakan log percakapan, esai akhir, dan skor penggunaan yang dilaporkan sendiri
ArgRewrite-v2
- Menggunakan 86 esai yang ditulis manusia dan dikumpulkan pada 2021
- Data ini ditulis sebelum LLM tersedia luas untuk publik
- Tiga LLM produksi digunakan untuk menyunting esai
  - gpt-5-mini
  - gemini-2.5-flash
  - claude-haiku
- Lima jenis revisi diterapkan
  - revisi umum
  - revisi minimal
  - koreksi tata bahasa
  - penyelesaian
  - perluasan
- Draf yang dihasilkan LLM dan revisi yang ditulis manusia dibandingkan pada berbagai dimensi
  - makna
  - penggunaan kosakata
  - distribusi kelas kata
  - nuansa emosional
  - ciri gaya bahasa
Analisis ulasan ICLR 2026
- Menganalisis 18 ribu ulasan peer review dari ICLR 2026
- Dipilih makalah yang memiliki satu ulasan yang sepenuhnya ditulis manusia dan satu ulasan yang sepenuhnya dihasilkan LLM
- Pengklasifikasi LLM-as-a-Judge digunakan untuk mengidentifikasi kekuatan dan kelemahan yang dikutip dalam tiap ulasan
- Skor yang diberikan manusia dan LLM kemudian dibandingkan

Paradoks antara kepuasan pengguna dan hilangnya suara

Pengguna yang banyak memakai LLM menjawab bahwa esai mereka tidak mencerminkan suara mereka sendiri
Pada saat yang sama, mereka juga menyatakan puas dengan hasilnya, sehingga muncul paradoks preferensi
Pengguna mengekspresikan kepuasan, tetapi juga melaporkan penurunan signifikan pada kreativitas dan suara mereka
RLHF mengoptimalkan preferensi, tetapi tidak cukup untuk menjaga kreativitas dan makna

Pergeseran ke arah bersama dalam ruang makna

Esai yang ditulis manusia dalam kelompok kontrol tersebar luas di seluruh ruang embedding
Distribusi ini mencerminkan keragaman sudut pandang, gaya menulis, dan cara berargumen tiap individu
Esai yang ditulis LLM berkumpul rapat di wilayah yang tidak ditempati esai tulisan manusia
Revisi oleh LLM menghasilkan perubahan makna yang besar, dan arah perubahannya juga sangat seragam
Hasil revisi LLM berpindah ke wilayah ruang yang sebelumnya tidak pernah ditempati esai tulisan manusia mana pun
Ini menjadi bukti bahwa LLM menggeser makna dengan cara yang berbeda dari editor manusia

Perubahan kesimpulan dan posisi

Pengguna LLM menulis esai yang lebih netral untuk pertanyaan “Apakah uang membawa kebahagiaan?”
Esai-esai ini cenderung menghindari posisi yang jelas
Ini muncul sebagai perubahan mendasar pada posisi argumen itu sendiri

Perubahan kosakata dan tata bahasa

Penyuntingan LLM mengubah kata-kata yang digunakan jauh lebih besar daripada penyuntingan manusia
Sidik leksikal unik masing-masing penulis tertimpa oleh kosakata yang disukai LLM
LLM mengadopsi gaya yang lebih formal
Perubahan juga muncul pada distribusi kelas kata
- penggunaan kata benda dan kata sifat meningkat
- penggunaan kata ganti menurun
Penurunan kata ganti ditafsirkan sebagai sinyal berkurangnya orang pertama dan argumen berbasis pengalaman, serta pergeseran ke bahasa yang impersonal

Peningkatan bahasa emosional, analitis, logis, dan statistik

Penulisan dengan LLM meningkatkan bahasa emosional
Dibandingkan penyuntingan manusia, penyuntingan LLM menunjukkan peningkatan besar pada emosi positif maupun negatif
Peningkatan ini terjadi bahkan saat instruksinya hanya revisi minimal dan umpan balik ahli
Dalam analisis LIWC, hasil edit LLM pada ArgRewrite-v2 menunjukkan peningkatan bahasa yang lebih formal, logis, dan mencerminkan pola berpikir yang hierarkis
Dalam studi pengguna, manusia lebih banyak menggunakan argumen yang terkait pengalaman pribadi
Esai yang ditulis LLM lebih banyak menggunakan argumen statistik dan logis
Esai yang dipengaruhi LLM juga mengutip pendapat ahli, sesuatu yang jarang terlihat pada esai yang ditulis manusia

Distorsi kriteria evaluasi dalam institusi ilmiah

Ketika LLM digunakan dalam proses ulasan ilmiah, LLM memberikan skor 10% lebih tinggi daripada manusia
Ulasan manusia dan LLM memiliki kriteria berbeda dalam menilai kekuatan dan kelemahan
Ulasan manusia lebih sering membahas hal berikut
- 32% lebih mungkin memperlakukan kejelasan sebagai kekuatan
- 58% lebih mungkin memperlakukan kejelasan sebagai kelemahan
- 32% lebih mungkin membahas relevansi penelitian
Ulasan LLM lebih sering membahas hal berikut
- 136% lebih mungkin membahas reproduktibilitas
- 84% lebih mungkin membahas skalabilitas
Perbedaan kriteria evaluasi antara manusia dan LLM dapat memengaruhi jenis pekerjaan ilmiah apa yang diakui valid dan didorong

Kesimpulan

Hasil ini menunjukkan pola bermasalah tentang bagaimana AI secara halus mendistorsi bahasa tulisan dan institusi budaya
Konten yang dihasilkan AI telah merambah banyak ranah
- pidato parlemen
- lirik lagu
- naskah film
- bahasa lisan
- pesan kepada rekan kerja dan orang terkasih
Orang yang sangat bergantung pada AI menyadari bahwa AI mengurangi suara dan kreativitas mereka, tetapi tetap sama-sama puas dengan hasilnya
Kemudahan penggunaan dan kemungkinan mempercepat karier pribadi besar kemungkinan akan terus mendorong orang membuat teks hasil AI
Seperti ditunjukkan data ICLR, dalam konteks profesional insentif untuk mengirimkan teks hasil AI seolah sebagai tulisan sendiri juga kemungkinan akan terus ada

1 komentar

GN⁺ 2026-05-05

Opini di Lobste.rs

Ini benar-benar mengganggu sampai terasa tidak nyaman. Terutama contoh ketika LLM mengubah argumentasi terkait mobil swakemudi itu cukup mengejutkan
Sama sekali tidak mengejutkan bahwa LLM mengambil sikap netral. Saya memahami tujuan inti produk LLM arus utama pada dasarnya adalah mengatakan kebenaran yang “diketahui” dan membantu pengguna, tetapi di luar itu mengambil posisi tengah yang samar
Saya sama sekali tidak bisa memahami kenapa orang mencari LLM untuk menulis atau menyunting tulisan yang bernilai
- Bahkan dengan penafsiran paling baik bahwa seseorang menulis draf sepenuhnya sendiri lalu hanya meminta LLM untuk “memeriksa apakah ada masalah”, saya tidak mengerti bagaimana mereka bisa meninjau perubahan setelahnya tanpa menyadari bahwa hasilnya menjadi memiliki makna yang berbeda dari tulisan yang mereka ajukan
  Ungkapan “tidak nyaman” memang sangat tepat
- Sejauh yang saya pahami, Grok milik Musk tampaknya sengaja dibuat bias, atau pernah begitu
- Itu praktik profesional yang baik untuk asisten atau copy editor
  Saya tidak paham kenapa melatih LLM ke arah seperti itu dianggap buruk
Halamannya di lingkungan saya konsisten tidak dimuat dengan benar. Ada preprint
Grafik frekuensi itu bikin melongo, dan sejujurnya hampir persis seperti yang saya perkirakan
Anggap saja ini seperti hadiah. Yang di sebelah kiri sekarang menjadi kata-kata yang kuat, dan yang di sebelah kanan sekarang perlahan menjadi kata-kata yang tak bermakna
- Saya tidak tahu grafik yang mana yang dimaksud. Saya tidak melihat yang seperti itu di halaman
Saya sering melihat hal seperti ini saat mencoba memakai Claude sebagai copy editor. Saya harus berkali-kali memperbaiki prompt agar ia hanya fokus pada ejaan, tata bahasa, dan tanda baca
Kecenderungan makna berubah tampaknya berkaitan dengan cara embedding bekerja
Agensi dan tanggung jawab yang ada pada pengguna terasa anehnya hilang dari banyak diskusi seputar AI/LLM
Kalau kita menganggap pengguna adalah orang dewasa, memakai LLM adalah pilihan aktif. Mereka bisa memutuskan akan memakai outputnya atau tidak, dan akan memakainya dengan cara seperti apa
Jika AI “secara mendasar mengubah” politik, budaya, sains, bahkan cara berkomunikasi dengan teman dan keluarga, itu karena orang-orang memilih untuk melakukannya dan AI mempermudah pilihan itu
Fakta bahwa pengguna mungkin tidak punya opini atau preferensi tidak menghapus kenyataan bahwa pilihan tetap telah dibuat

Bagaimana LLM M mendistorsi bahasa tulisan kita

Ringkasan penelitian

Temuan utama

Penyuntingan LLM menggeser tulisan ke arah yang berbeda dari penyuntingan manusia

Metodologi dan dataset

Studi pengguna manusia

ArgRewrite-v2

Analisis ulasan ICLR 2026

Paradoks antara kepuasan pengguna dan hilangnya suara

Pergeseran ke arah bersama dalam ruang makna

Perubahan kesimpulan dan posisi

Perubahan kosakata dan tata bahasa

Peningkatan bahasa emosional, analitis, logis, dan statistik

Distorsi kriteria evaluasi dalam institusi ilmiah

Kesimpulan

Bacaan terkait

1 komentar

Opini di Lobste.rs