3 poin oleh GN⁺ 22 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Konstruksi "It's not X, it's Y" (paralelisme negatif) yang sering digunakan LLM pada dasarnya adalah teknik retoris yang berguna untuk membangun kontras dan menyusun ulang asumsi yang sudah ada
  • Karena terlalu sering dipakai model belakangan ini, konstruksi ini dicap sebagai tulisan buruk, tetapi nilai sebuah perangkat retoris berubah sesuai isi yang dibawanya
  • Detektor AI dan alat seperti Grammarly memburu pola seperti ini dan memicu paradoks: manusia menulis ulang agar mesin terdengar seperti manusia
  • Penyebaran konstruksi ini dituding berasal dari RLVR (reinforcement learning with verifiable rewards / pembelajaran penguatan dengan reward yang dapat diverifikasi), terkait dengan cara bahasa yang dipakai model saat mencapai jawaban diperkuat
  • Jika pola bahasa itu sendiri dijadikan objek penilaian, maka seperti Hukum Goodhart, bahasa berhenti menjadi bahasa yang baik; alih-alih bergantung pada penilaian mesin, kita perlu berpikir kritis

Paralelisme negatif dan reaksi balik terhadapnya

  • Konstruksi negative parallelism (paralelisme negatif) yang disukai LLM berfungsi membangun kontras, dan sangat berguna khususnya saat menyusun ulang asumsi seperti, "Anda mengira begini, padahal sebenarnya begitu"
  • Konstruksi ini merajalela di media sosial, khususnya LinkedIn, dan memicu reaksi balik di tengah perang terhadap produksi bahasa otomatis
    • penggunaan em-dash, kata seperti delve, quietly, genuinely, serta daftar tiga butir dicurigai sebagai penanda bot
  • Karena terlalu sering dipakai model baru-baru ini, banyak orang menganggapnya sebagai tulisan buruk, tetapi kalimat JFK, "Jangan tanyakan apa yang negara bisa lakukan untuk Anda, tanyakan apa yang bisa Anda lakukan untuk negara," memakai teknik yang sama dan tak seorang pun menyebutnya tulisan malas
    • Perangkat retoris hanya menjadi malas atau menginspirasi tergantung pada isi yang dibawanya

Paradoks produksi bahasa otomatis dan alat deteksi

  • Detektor AI mengklaim mencari pola-pola ini untuk melindungi orang dari perburuan penyihir, tetapi ketika tulisan sendiri dimasukkan ke Grammarly, alat itu menganalisis pola kata yang akan ditandai detektor AI lalu menawarkan revisi
    • Ini pada dasarnya memberi Grammarly wewenang untuk menulis sebagai pengganti kita, sekaligus menghilangkan ritme dan maksud tulisan
  • Grammarly menandai 27 ekspresi dalam satu bagian sebagai target revisi
    • "automated language production" ditandai sebagai 11 kali lebih mungkin AI, dan diganti dengan usulan "against mechanized language synthesis"
    • "align with" ditandai sebagai 43 kali lebih mungkin dihasilkan AI, dan disarankan bahwa manusia akan memakai "corresponds"
    • Saran-saran kecil menumpuk hingga hasil akhirnya menjadi tulisan yang tidak kita pilih sendiri; mesin yang berusaha terdengar manusia justru menggantikan suara manusia
  • Perusahaan deteksi AI lain, Pangram, dibayar $20 untuk memastikan sebuah makalah sebelum dikirim bukan hasil AI
    • Bukan karena penulis tidak tahu apakah ia menulisnya sendiri, melainkan untuk menerima pemberitahuan bahwa ia tidak akan ditandai; ini pada dasarnya disebut sebagai pemerasan (extortion)
    • Pangram mengategorikan keaslian dalam empat tingkat skor: high, very likely, somewhat likely, dan human

Budaya yang memusuhi penalaran dan post-training

  • Naluri untuk memahami mesin biasanya mengarah pada upaya melihat data latihnya, tetapi data itu bukan lagi "sekadar web"; web hanyalah bahan mentah yang telah diproses berat
  • Post-training mengoptimalkan model agar sesuai dengan tujuan desainnya
    • RLHF (reinforcement learning from human feedback / pembelajaran penguatan dari umpan balik manusia): manusia memberi peringkat pada respons, lalu sistem menekankan respons semacam itu
    • RLVR (reinforcement learning with verifiable rewards / pembelajaran penguatan dengan reward yang dapat diverifikasi): lebih ganjil, dan dicurigai sebagai penyebab sering munculnya konstruksi "It's not X, it's Y"
  • Jika bahasa ini begitu saja dismissed sebagai malas, kita justru gagal memahami mengapa ia muncul di mana-mana, dan bisa salah mengira kerangka bahasa yang kuat untuk berpikir sebagai kemampuan berpikir model itu sendiri
    • Seolah-olah kerja yang dilakukan bahasa dikreditkan kepada komputasi

Cara kerja RLVR

  • RLVR bukan struktur yang mengawasi kata demi kata untuk mengaktifkan subproses, melainkan setelah dilatih seperti model umum lainnya, ia memprediksi token
    • Prediksi token adalah proses menyusun daftar kandidat berdasarkan distribusi matematis data latih, lalu memberi peringkat menurut kemungkinan relatif terhadap kata-kata sebelumnya
  • RLVR membuat model menuliskan proses mencapai solusi saat menyelesaikan soal matematika, sehingga meniru bahasa yang kita gunakan ketika berpikir keras
    • Ketika model mencapai jawaban benar, bahasa yang paling sering dipakai dalam proses itu diperkuat di model final; inilah sebagian dari apa yang oleh industri disebut reasoning (penalaran)
  • Analogi "anjing aneh"

    • Dibayangkan situasi saat ponsel mati lalu seorang teman bertanya, "Hari apa kita melihat anjing aneh itu?"
      • "Hari Kamis." → teman: "Bukan, hari Kamis aku sedang dinas luar." → "Kalau begitu Rabu, kita melihatnya saat menuju pesta ulang tahun teman." → teman: "Benar, tapi pestanya hari Jumat, jadi kita melihatnya hari Jumat."
    • Keduanya mencapai jawaban benar yang bisa diverifikasi lewat foto melalui bahasa, dan intuisi pertama ("Kamis") setara dengan tebakan awal tempat model dulu berhenti
    • Tidak seperti dua manusia yang punya ingatan dan pengalaman nyata, model memperpanjang bahasa makin lama sambil meniru pola penalaran; ia bukan merenung melalui bahasa, melainkan merekonstruksi pertimbangan di dalam bahasa
  • Kata high-entropy (berentropi tinggi) seperti "suppose…", "because", "consider", "alternatively", dan "wait" memicu frasa spekulatif yang lebih panjang
    • Ini berlanjut ke bahasa yang menghadirkan kontras, pengecualian, dan abstraksi, lalu diperkuat agar lebih sering muncul jika membantu mencapai jawaban benar pada soal matematika

Mengapa kita bernalar

  • Inti percakapan seperti "anjing aneh" bukanlah mengidentifikasi tanggal di kalender, melainkan membuka kembali ingatan, menyusun ulang memori, menikmati konteks, dan memperdalam hubungan antarteman
  • Definisi penalaran yang dipakai pada LLM mengasumsikan bahwa inti pertanyaan adalah memperoleh jawaban, bahwa jawaban itu dapat diverifikasi, dan bahwa tidak ada yang hilang dari penutupan instan
    • Ini berdampak nyata pada penulisan; ketika kita memakai model bahasa untuk membuat prototipe pemikiran dengan cepat, kita kehilangan keterbukaan terhadap keraguan
    • Ambiguitas, keraguan, dan ketidakpastian dalam beberapa cara berpikir justru lebih penting daripada jawaban seketika
  • Muncul pertanyaan apakah detektor AI menandai teks sebagai hasil AI karena teks itu mengikuti pola struktural penalaran; baik Pangram maupun model penalaran sama-sama mendeteksi pola struktural yang digunakan manusia ketika menulis sambil bernalar
    • Model Pangram dilatih pada data sebelum 2021, lalu versi AI-generated dari teks yang sama disisipkan ke dalam pelatihan
  • Jika orang dipermalukan di depan umum karena tampak seperti mesin, mereka akan menghindari struktur yang telah diinternalisasi sebagai "tulisan AI" karena takut, dan ini mengirim sinyal bahwa bahasa untuk bernalar harus diawasi
    • Pada akhirnya, ini membuat kita menjauh dari struktur yang dipelajari model dari kita—yakni alat yang efektif untuk berargumen—sehingga justru menyingkirkan alat berpikir kritis saat kita paling membutuhkannya

Ketika pengukuran menjadi tujuan

  • Di Inggris, alat penilaian esai berbasis AI diuji dengan membandingkannya terhadap penilai manusia
    • Sistem ini memberi nilai tinggi berdasarkan panjang esai, rentang kosakata, dan kompleksitas kalimat, yang sering kali tidak berkaitan dengan standar akademik
    • Ciri-ciri ini menyerupai karakter penalaran AI ala RLVR, artinya LLM menilai manusia dengan kriteria yang dipakai insinyur LLM untuk menilai LLM
  • Hukum Goodhart dalam ekonomi: "Setiap keteraturan statistik yang diamati cenderung runtuh ketika diberi tekanan untuk tujuan kontrol"; dengan kata lain, saat pengukuran menjadi tujuan, ia berhenti menjadi ukuran yang baik
    • Jika diterapkan pada LLM: "Ketika pengukuran bahasa menjadi tujuan, bahasa berhenti menjadi bahasa yang baik"
  • Menilai pola bahasa alih-alih isi itu berbahaya, dan baik generasi maupun deteksi sama-sama mendorong hal ini; penilaian otomatis berada di tengah-tengahnya
    • Jika yang dihargai adalah bentuk penalaran, bukan tindakan bernalar, maka bentuk itu akan makin menggoda dan umum; jika bentuk itu dihukum, ada risiko bahwa penalaran itu sendiri ikut dihukum, jadi kita tidak boleh menyerahkannya pada penilaian mesin dan harus berpikir kritis dalam semua kasus

Menentang pemikiran yang diautomatisasi

  • Penulis tidak setuju dengan logika lama, "kalau tidak melakukan kesalahan, tak ada yang perlu dikhawatirkan"
    • Sejak 2018, angka 99.8% sering dikutip untuk akurasi sistem pengawasan otomatis, tetapi menurut Arvind Narayanan, angka ini terakumulasi setiap kali diterapkan pada skala makalah per makalah
    • Akibatnya, hingga 10% mahasiswa bisa dituduh secara keliru; jika semua teks diperiksa dengan AI, false positive akan terjadi dalam skala yang jauh lebih besar
  • Model-model ini memusatkan kekuasaan yang nyata, dan perusahaan menjanjikan akan bernalar atas nama kita
    • Ketika seseorang memasukkan frasa dua baris ke penerjemah AI, mengunggah hasilnya ke internet, lalu berkata, "Lihat, dia plagiator," hal yang berbahaya sedang dinormalisasi
  • Budaya penulisan ulang dan sensor diri karena tekanan deteksi AI adalah kebalikan dari perlindungan ekspresi manusia, dan kita perlu menolak normalisasi kepercayaan pada kemampuan mesin untuk menjatuhkan vonis bersalah
    • Jika menulis dengan AI, dalam skenario terburuk, adalah industrialisasi pikiran, maka deteksi AI, dalam skenario terburuk, menjadi sistem pengawasan atas pemikiran

1 komentar

 
GN⁺ 22 jam lalu
Komentar Lobste.rs
  • Jika sebuah makalah otomatis ditolak hanya karena ada sistem otomatis yang menilai tulisannya terlihat seperti AI, itu terasa seperti mimpi buruk, dan syukurlah pekerjaanku tidak punya masalah seperti ini
    Saya suka poin bahwa bahasa untuk penalaran bukan hanya membuat keluaran LLM terlihat lancar dan meyakinkan, tetapi juga membuatnya bisa bekerja sejak awal, atau setidaknya bekerja lebih baik. Teknik seperti ini juga efektif untuk manusia, dan itu sebabnya teknik seperti analisis 5 Whys berhasil
    Di sisi lain, saya tetap berpandangan bahwa tulisan malas dan berkualitas rendah masih perlu dikenali. Itu bisa dilakukan tanpa hanya berfokus pada struktur atau perangkat gaya. Dalam kasus saya, biasanya saya mulai membaca dengan niat baik, lalu jika setelah beberapa paragraf saya masih sulit menangkap inti penulisnya, barulah saya mulai mencari sinyal-sinyal yang umum, dan cukup sering menemukannya

  • Tulisan yang menarik, tetapi dalam praktiknya saya akan membedakan antara teks untuk penalaran yang dipakai untuk memikirkan sesuatu, dan teks final yang ditulis untuk menyampaikan hasil setelah penalaran itu selesai
    Dalam contoh itu, saat proses berpikir kita bisa mengatakan “itu hari Rabu, bukan Kamis”, tetapi ketika mengirim pesan kepada orang lain, kita biasanya hanya akan menulis “itu hari Kamis”
    Jadi laporan atau email yang menjadi keluaran nyata di akademia atau tempat kerja tidak akan memakai bahasa yang digunakan saat menalar topik tersebut, dan jika ditulis dengan benar seharusnya tidak terlihat seperti LLM. Draf atau catatan pribadi bisa saja seperti itu, tetapi bukan kiriman final

    • Tetapi bagaimana jika keluaran resmi itu sendiri adalah proses penalaran? Saya sudah beberapa kali menulis dokumen yang inti sebagian atau seluruhnya justru adalah proses penalaran itu
  • Saya termasuk pihak yang sangat kritis terhadap generative AI, tetapi saya melihatnya berguna dalam penulisan akademik untuk merapikan tulisan peneliti yang bahasa Inggrisnya bukan bahasa ibu
    Namun yang dibutuhkan adalah draf yang hampir selesai dan terstruktur dengan baik; jika hanya memasukkan butir-butir sederhana, hasilnya akan cenderung berhalusinasi atau menghasilkan ungkapan yang kaku dan tidak alami
    Dalam beberapa tahun terakhir saya banyak meninjau makalah berkualitas rendah dari negara-negara seperti Tiongkok atau India, sehingga saya merasa saya juga mulai memiliki sedikit bias terhadap ungkapan idiomatik bahasa Inggris non-penutur asli yang sering dipakai penulis dari negara-negara tersebut. Hal yang disayangkan adalah beberapa makalah terbaik yang pernah saya tinjau juga datang dari negara-negara itu
    Dalam arti itu, karena bahasa Inggris telah menjadi bahasa standar akademia, LLM juga bisa membantu menstandarkan tingkat kebahasaan yang tinggi dan mengurangi bias dalam proses review

    • Saya sama sekali tidak bisa menerima argumen bahwa pengguna bahasa Inggris non-penutur asli boleh memakai LLM untuk merapikan tulisan mereka. Makalah harus presisi dan harus secara akurat memuat maksud penulisnya
      Lembaga yang memiliki banyak staf dengan bahasa Inggris non-ibu biasanya punya penasihat penulisan, yang bukan hanya membantu membuat kalimat yang baik tetapi, yang lebih penting, memastikan bahwa isi yang ditulis sesuai dengan maksud penulis. Jika ini diserahkan ke LLM, maknanya bisa berubah secara halus, dan karena kesalahan fakta atau perumusan klaim yang tidak akurat, pada akhirnya justru bisa memberi hasil yang lebih buruk bagi penulis
      Lembaga yang tidak menyediakan dukungan bahasa pada dasarnya menciptakan lingkungan yang merugikan stafnya, dan peneliti independen sering kali sudah berada dalam posisi yang lebih dirugikan karena alasan lain juga
      Bias bawah sadar terhadap ekspresi khas non-penutur asli sampai taraf tertentu memang sulit dihindari, tetapi dalam review makalah saya biasanya berusaha memberi cukup banyak ruang niat baik jika masalah bahasanya jelas, dan meninggalkan instruksi revisi untuk bagian yang saya anggap tidak jelas karena persoalan bahasa. Ini harus dikelola dengan terus memeriksa diri sendiri
      Penggunaan bahasa yang kurang mahir memang bisa sampai taraf tertentu mengaburkan ide, metodologi, dan hasil, tetapi LLM justru bisa merusaknya menjadi isi yang tidak sesuai fakta, seperti yang benar-benar saya lihat dalam makalah yang saya tinjau, dan pada akhirnya itu bisa memerlukan sanggahan dan revisi atau bahkan membuat makalah langsung ditolak. Ada cara yang lebih baik untuk menangani masalah ini, jadi penggunaan LLM tidak seharusnya dianjurkan
      Selain itu, apakah ini termasuk plagiarisme atau bukan masih merupakan pertanyaan terbuka. Ini perdebatan yang jauh lebih besar, dan bahkan fakta-fakta dasarnya pun sering belum disepakati. Beberapa konferensi atau jurnal melarang bantuan LLM karena alasan ini, jadi aturan itu juga harus dihormati
    • Masalah yang lebih besar sekarang adalah orang-orang pada praktiknya dipaksa menghindari gaya bahasa yang natural karena histeria soal apakah sebuah teks ditulis oleh LLM atau tidak
      Ironisnya, perusahaan-perusahaan tidak butuh waktu lama untuk memonetisasi histeria ini; mereka menghasilkan uang dengan memakai LLM untuk menilai apakah sebuah tulisan benar-benar ditulis manusia, lalu menjadi semacam wasit yang menentukan seperti apa tulisan yang dapat diterima
      Penulis benar ketika menunjukkan bahwa seluruh masalah ini akan hilang jika orang berhenti malas menilai hanya dari gaya dan mulai benar-benar terlibat dengan isinya