Mengapa Rantai Markov Lebih Lucu daripada LLM

(emnudge.dev)

5 poin oleh GN⁺ 2024-08-19 | 1 komentar | Bagikan ke WhatsApp

Rantai Markov adalah model statistik sederhana yang memilih kata berikutnya, tetapi karena distorsi yang tidak sepenuhnya menangkap makna, ia bisa menghasilkan keluaran yang lebih lucu daripada LLM
Humor muncul dari kejutan ringan yang tak terduga, dan “snap” yang membangun pola familier lalu mematahkan ekspektasi membuat lelucon menjadi kuat
Karena LLM mencari token berikutnya yang paling masuk akal melalui banyak konteks dan perhitungan probabilitas, semakin baik performanya, semakin ia mendekati kalimat yang rata-rata dan dapat diprediksi
Dalam perbandingan antara ChatGPT 3.5 dan rantai Markov yang dilatih dengan King James Bible serta buku ajar ilmu komputer, rantai Markov hampir masuk akal tetapi di bagian akhir memicu peralihan makna yang nyeleneh
LLM saat ini tidak cocok untuk penulisan kreatif atau pembuatan lelucon, dan model bahasa untuk tugas semacam ini harus memiliki bentuk yang secara kategoris berbeda dari LLM saat ini

Mengapa Rantai Markov Terlihat Lebih Lucu

Contoh rantai Markov yang dilatih dengan dataset King James Bible dan buku ajar ilmu komputer mencampur gaya Alkitab dengan istilah pemrograman, menghasilkan kalimat yang “hampir masuk akal tetapi runtuh di akhir”
ChatGPT 3.5 diminta membuat keluaran serupa, tetapi hasilnya lebih tertata dan lebih dekat ke kalimat dengan makna yang stabil
Kedua contoh memang kasus yang dipilih, tetapi perbandingannya memilih kandidat yang baik dari kedua sisi
Kalimat dari rantai Markov mengandung makna yang aneh, dan semakin mendekati akhir kalimat, ia memicu peralihan arah yang tidak bermakna

Rantai Markov Mirip “LLM yang Sangat Bodoh”

Saat LLM pertama kali dijelaskan secara luas, ia kadang dianalogikan sebagai “rantai Markov yang sangat pintar”, tetapi kini rantai Markov bisa dilihat seperti “LLM yang sangat bodoh”
ChatGPT adalah salah satu jenis LLM, yaitu Large Language Model
- Ada model yang sangat besar, lebih dari 300GB, dan ada juga model yang lebih kecil dari 10GB
- Meski kecil, biasanya tetap disebut LLM kecil, bukan “small language model”
Rantai Markov juga memprediksi kata berikutnya berdasarkan konteks saat ini, tetapi merupakan model statistik sederhana yang tidak mempertimbangkan semantik, dimensionalitas, atau matematika vektor khusus
Fitur rekomendasi kata berikutnya di bagian atas keyboard ponsel umumnya dibuat dengan rantai Markov, biayanya rendah untuk dijalankan, dan mudah diperbarui agar sesuai dengan gaya mengetik pengguna
Jika perlu membuat kalimat dengan tujuan tertentu, LLM sering kali bekerja lebih baik, tetapi akurasi tidak otomatis berarti lucu

Humor adalah “Kejutan Ringan yang Tak Terduga”

Humor dapat diringkas sebagai unserious surprise, yaitu kejutan yang tidak serius
Lelucon yang baik memiliki “snap” yang menyenangkan dan jelas
- “Snap” adalah istilah yang dipakai untuk menghindari beban makna dari kata punchline
- Semakin sedikit kejutannya, semakin kurang lucu
Alasan lelucon yang sama menjadi kurang lucu setelah didengar berkali-kali adalah karena kejutannya berkurang
Humor “acak” bisa terasa tidak lucu karena meski katanya sendiri tidak dapat diprediksi, ekspektasi bahwa ia akan tidak dapat diprediksi sudah dapat diprediksi
Jika menggunakan ulang pola yang familier lalu melanggar ekspektasi, snap menjadi lebih kuat
- “banana, apple, orange, vehicular manslaughter” membangun pola daftar buah satu kata, lalu mematahkan ekspektasi dengan ungkapan kriminal
Menulis lelucon pada dasarnya lebih mirip pelanggaran pola

Semakin Jelas Adegannya, Semakin Kuat Snap-nya

Menggunakan bahasa yang lebih orisinal atau deskriptif membuat adegan terasa lebih nyata, dan snap juga bisa menjadi lebih kuat
Daripada sekadar menulis “he was shot”, menulis “he was pierced by a 35mm” membuat adegan lebih konkret
Daripada “he fell”, ungkapan seperti “his face met the ground” membuat adegan lebih jelas
Cara memulai dari tengah adegan juga efektif
- “a urinal cake? I’m not falling for that one again” membuat pembaca membayangkan apa yang terjadi sebelumnya, dan meningkatkan rasa nyata pada adegan
Menulis lelucon yang baik dan menulis dengan baik memiliki sebagian tujuan yang sama
- Klise membuang kata karena membuat adegan tetap dalam keadaan belum terwujud

Syarat agar Humor Bekerja

Apa yang termasuk “kejutan ringan yang tak terduga” tidak universal, sehingga humor bersifat subjektif
Humor vulgar bisa tidak lucu karena dianggap terlalu serius, atau sebaliknya gagal karena terlalu mudah diprediksi
Anti-joke hanya bisa lucu ketika struktur lelucon itu sendiri sudah dapat diprediksi
Absurdism bekerja jika audiens siap menerimanya
Norma budaya bisa dilanggar, tetapi pelanggaran itu harus dipahami sebagai sesuatu yang tidak serius
Penulis, seorang warga Amerika yang hanya berbahasa Inggris, juga pernah berhasil membuat lelucon dengan menggunakan “no” dalam cara yang secara budaya tak terduga di lingkungan non-Inggris

LLM Dioptimalkan Menuju Prediktabilitas

Untuk memprediksi kalimat dengan berhasil, diperlukan banyak konteks, dan LLM memanfaatkan konteks tersebut
Cara kerja dasar LLM adalah menemukan token berikutnya yang paling mungkin melalui perhitungan yang kompleks
Jika korpus terdiri dari ujaran yang masuk akal, semakin baik LLM, semakin ia menghasilkan keluaran yang dapat diprediksi
Karena sifat ini, LLM bisa menjadi pilihan yang buruk untuk penulisan kreatif
- Paragraf yang dibuat tanpa banyak prompt engineering bisa mudah terlihat seperti tulisan LLM
- Hasilnya terasa seperti kalimat paling rata-rata yang mungkin dalam konteks tersebut
Meminta “pemikiran orisinal” dari LLM nyaris merupakan kontradiksi, karena LLM adalah alat yang dibuat agar tidak melakukan hal semacam itu

LLM Saat Ini Tidak Cocok untuk Membuat Lelucon

Untuk membuat lelucon, ungkapan umum perlu dipelintir dengan cara tak terduga agar maknanya berubah
LLM yang baik justru dioptimalkan untuk menghindari penyimpangan seperti itu
Penulis tidak setuju dengan klaim bahwa komedi tidak bisa dihasilkan oleh algoritme
- Komedi bisa dianalisis dan diukur
- Dengan dukungan yang cukup besar, pembuatan komedi sesuai permintaan mungkin saja memungkinkan
- Fakta bahwa sesuatu mungkin dilakukan tidak berarti harus dilakukan
LLM saat ini bukan alat yang tepat untuk tugas ini
LLM tahap awal lebih lucu, dan pembuatan gambar juga lebih lucu pada tahap awal
- Ada contoh seperti gambar “trail cam” dari Dall-e mini
- Semakin baik sistemnya, humornya menghilang

Ketegangan antara Mesin Prediksi yang Lebih Baik dan Ekspresi Artistik

Mesin prediksi yang sangat hebat mungkin tidak banyak membantu ekspresi artistik
LLM masih memiliki banyak kegunaan, tetapi bukan alat sempurna untuk pekerjaan kreatif
LLM terkadang melewatkan konsep menarik yang dapat dengan mudah dikemukakan oleh anak kecil
Dengan kerangka ini, jenis model bahasa lain bisa saja dibuat
- Model itu harus berbeda secara kategoris dari LLM saat ini
- Mungkin cukup berbeda sehingga tidak akan disebut LLM

Kebocoran Abstraksi yang Terlihat dalam Keluaran LLM

Argumen ini bukan perdebatan “manusia spiritual versus mesin”
Meski LLM terus berkembang, ada cacat yang berulang kali terlihat; ini lebih mirip abstraksi yang bocor, ketika struktur internalnya tampak dalam proses mencoba terlihat seperti manusia
Alasan semua pesan ChatGPT terbaca seperti esai sekolah menengah adalah karena ia mereproduksi keluaran yang paling rata-rata
Keluaran LLM bisa tampak seperti gaya korporat yang hambar, yang kepribadiannya dihapus dan dipadatkan dengan ketelitian akademis
Ulasan Amazon palsu mudah dikenali jika kita berpikir, “apakah saya akan menulis seperti ini?”
- Muncul pertanyaan apakah pengalaman memakai Oxiclean dish wipes perlu diberi pendahuluan dan kesimpulan
- Kalimat yang berterima kasih kepada produsen dan mengakui dedikasi layanan pelanggan mungkin tidak terlihat seperti pengalaman pengguna sungguhan
Model pendeteksi LLM mungkin, seperti CAPTCHA layar, segera perlu menilai kepribadian

Tautan Referensi

famous tumblr blog: sumber contoh rantai Markov yang mencampur King James Bible dengan gaya pemrograman, dan baru-baru ini aktif kembali

1 komentar

GN⁺ 2024-08-19

Komentar Hacker News

Beberapa tahun lalu, saat mengerjakan proyek sampingan, saya sampai pada kesimpulan yang sama.
Sebelum LLM muncul, saya membuat situs https://totes-not-amazon.com/ yang menghasilkan AWS Blog Posts palsu. Saya melatih generator rantai Markov dengan seluruh posting pengumuman AWS hingga saat itu, lalu menyalin HTML/CSS blog AWS dan menempelkannya dengan Python+JS.
Hasilnya cukup lucu sampai-sampai orang yang akrab dengan blog AWS pun baru sadar setelah membaca beberapa kalimat bahwa itu cuma sup kata.
Ketika GPT baru muncul, saya mencoba meng-upgrade-nya dengan gpt-2-simple dari Minimaxir untuk menghasilkan posting blog berbasis konten AWS, tetapi hasilnya terlalu masuk akal sehingga jauh kurang lucu. Tulisannya terbaca seperti posting blog sungguhan, hanya saja faktanya salah.
Pada akhirnya, humor dari keluaran Markov awal ada pada keabsurdan saat kita menyadari setelah beberapa kata atau beberapa kalimat bahwa semuanya sama sekali tidak masuk akal, dan LLM sekarang terlalu bagus untuk level itu. Mereka memang kadang salah, tetapi jarang salah dengan cara yang lucu dan tidak masuk akal.
Konten rantai Markov salah seperti “anak-anak mengatakan hal ngawur”, sementara LLM modern salah seperti “paman yang bahkan tidak paham geografi dasar”.
- https://cemulate.github.io/the-mlab/#y3Bt-co-extensional+limit
  https://github.com/cemulate/the-mlab
  Ini adalah parodi nLab, wiki kolaboratif tentang teori kategori dan teori kategori tingkat tinggi. Orang yang pernah melihat nLab pasti tahu, bagi pemula jargon teknisnya hampir tidak bisa diuraikan, dan dari situlah ide proyek ini muncul.
  Proyek ini menggunakan paket nearley-generator, yang mengubah tata bahasa Nearley menjadi generator teks palsu yang efisien dan dapat dikendalikan; berkas tata bahasanya ada di /src/grammar/nlab.ne.
- Saya sampai pada kesimpulan yang sama dengan cara serupa. Dulu saya membuat rantai Markov dari catatan patch game dan mengirimkannya ke komunitas; patch Dota palsu khususnya sangat populer karena patch aslinya memang sangat panjang.
  Sebagian besar tidak masuk akal atau hanya hiperbola yang tidak lucu (“hero ini sekarang punya 500 armor”), tetapi biasanya setidaknya 5–6 baris sangat lucu, dan kadang ada yang terasa seperti ramalan yang benar-benar terjadi. Misalnya “Fiend's Grip menghasilkan 1/2/3 ilusi tambahan”.
  Namun LLM merusak situasinya. Subreddit besar melarang semua konten AI, karena ada terlalu banyak konten Midjourney membosankan yang diunggah pengguna polos dan bot. Begitu jangkauannya hilang, minatnya juga hilang, jadi saya tidak lagi membuat rantai Markov.
- “Paman yang tidak tahu apa-apa tetapi berpura-pura ahli dan menyampaikan pendapatnya” rasanya analogi terbaik untuk menjelaskan LLM. Tidak tahu apa-apa, tetapi berbicara tentang apa pun dengan percaya diri.
- Saya sulit setuju dengan pernyataan bahwa LLM modern salah seperti “paman yang bahkan tidak paham geografi dasar”.
  Minggu ini saya banyak memakai chatbot LLM, dan kalau paman itu bukan hanya percaya diri mengatakan kebohongan, tetapi juga tidak punya kemampuan menilai diri sendiri, dia pasti sudah dibunuh.
- Situs itu sangat lucu. Dan analogi anak vs paman tepat dengan pengalaman saya, sekaligus menunjukkan seberapa jauh model bahasa ini sudah berkembang.
Saya memberi prompt ke Claude 3.5 Sonnet: “berdasarkan esai terbaru dan diskusi Hacker News, tuliskan 10 lelucon pendek yang lucu dengan gaya yang dimaksud penulis esai.”
Claude menjawab bahwa ia akan membuat lelucon bertema rantai Markov lebih lucu daripada LLM, dengan menargetkan “kejutan yang tidak serius” dan pelanggaran pola yang diharapkan.
Contohnya seperti: “LLM dan rantai Markov masuk ke bar. LLM memesan minuman yang secara statistik masuk akal, sementara rantai Markov memesan kap lampu yang terbuat dari keju”; “Berapa banyak LLM yang dibutuhkan untuk mengganti bola lampu? Satu saja, tetapi terlebih dahulu ia menjelaskan proses penggantian bola lampu yang optimal selama 20 menit”; “Mengapa rantai Markov tidak bisa menjadi konselor yang baik? Karena nasihatnya selalu ‘lalu setelah itu pisangkan perasaanmu sampai menjadi topi’.”
- “LLM, rantai Markov, dan GPT-4 masuk ke bar. Bartender berkata, ‘Kami tidak melayani jenis kalian.’ GPT-4 pergi, LLM tetap tinggal untuk membahas etika, dan rantai Markov memesan sepeda yang terbuat dari spageti” itu cukup bagus.
- Yang lumayan bisa jadi lebih lucu kalau omong kosong acak di bagian inti diganti dengan punchline ala rantai Markov sungguhan: “secara kalimat benar, tetapi masuk lewat asosiasi yang melenceng”.
  Ini bukan sekadar menempelkan hal acak apa saja. Rantai Markov lebih mungkin menciptakan semacam makna, tetapi jenis maknanya salah.
  Misalnya, “LLM, rantai Markov, dan GPT-4 masuk ke bar. Bartender berkata, ‘Kami tidak melayani jenis kalian.’ GPT-4 pergi, LLM tetap tinggal untuk membahas etika, dan rantai Markov memesan kudeta” lebih tepat.
- “LLM dan rantai Markov masuk ke bar. LLM memesan minuman yang secara statistik masuk akal, sementara rantai Markov memesan kap lampu yang terbuat dari keju” cukup bagus.
- “Berapa banyak LLM yang dibutuhkan untuk mengganti bola lampu? Satu saja, tetapi terlebih dahulu ia menjelaskan proses penggantian bola lampu yang optimal selama 20 menit” itu bukan lucu, melainkan akurat secara menyakitkan.
- Claude 3.5 Sonnet adalah model modern pertama yang pernah saya pakai yang benar-benar cukup bagus dalam membuat lelucon kreatif. Semua LLM keluarga GPT terlalu banyak RLHF sehingga tidak bisa melenceng secara aneh.
Saat kuliah, teman-teman saya menjalankan generator rantai Markov pada bagian “laporan polisi” di koran kampus.
Dari hasil generator 3-token itu, 10% teratas termasuk teks buatan mesin paling lucu yang pernah saya lihat, dengan jenis absurditas yang dihindari LLM modern ketika mencoba membuat koherensi makna tingkat tinggi.
Fakta bahwa saat itu ada orang yang melakukan tindakan eksibisionis di perpustakaan mungkin juga menjadi bahan mentah yang bagus.
Korannya adalah The Daily Utah Chronicle, dan seingat saya teman-teman juga menjalankan generator rantai Markov pada bagian iklan pribadi dan mendapatkan hasil yang cukup bagus.
- LLM “mencoba melucu”, tetapi tidak cukup pintar untuk benar-benar lucu, dan kesalahannya pun membosankan.
  Sebaliknya, rantai Markov terseret secara acak di setiap kalimat karena koneksi semacam salah ucap berbasis homonim, sehingga tanpa sengaja menyentuh komedi absurd.
Jika ingin bukti empiris, /r/SubredditSimulator adalah parodi Reddit berbasis Markov, sedangkan /r/SubSimulatorGPT2 adalah semacam sepupunya yang berbasis LLM
Versi Markov mendapat jauh lebih banyak upvote dan memang lebih lucu
1. https://www.reddit.com/r/SubredditSimulator/top/?t=all
2. https://www.reddit.com/r/SubSimulatorGPT2/top/?t=all
- Menurutku itu hanya karena yang pertama jauh lebih lama dan lebih terkenal. Secara pribadi, aku selalu jauh lebih suka yang kedua
Selama beberapa tahun, aku beberapa kali memposting “XYZ palsu yang ditulis AI” di Reddit, dan model yang responsnya paling bagus adalah GPT-2
Markov chain kurang mampu mempertahankan hal menarik lebih dari satu-dua kalimat, sementara setelah GPT-3 hasilnya terlalu rapi dan membosankan
GPT-2 adalah titik tengah yang sempurna: tata bahasanya umumnya benar dan bisa mempertahankan ide yang koheren, tetapi belum cukup tahu detail berbagai topik sehingga tidak mampu menghasilkan keluaran yang masuk akal secara kontekstual
- Aku pernah mencoba fine-tuning model GPT-2 dengan log IRC yang terkumpul selama lebih dari 15 tahun agar bisa meniruku
  Rencananya adalah men-deploy bot ke kanal IRC biasa dan melihat berapa lama orang-orang menyadari itu bot. Caranya, ketika seseorang mengirim pesan, 10 pesan terakhir dikirim ke LLM, lalu jika hasilnya diawali prefiks tertentu, pesan itu dikirim ke kanal
  Sayangnya GPT-2 belum cukup bagus, dan menghasilkan isi yang agak konsisten dan sesuai topik, tetapi tidak masuk akal
  Setelah sistemnya kuperbaiki, aku berencana mencoba fine-tuning model 7B
- Bisa berbagi contoh terbaiknya?
Perubahan selama beberapa tahun terakhir di blog AI Weirdness (https://www.aiweirdness.com/) cukup mendukung gagasan ini
Namun penulisnya juga mendapatkan banyak hasil lucu dengan LLM, terutama dari model awal hingga GPT-3 dan varian GPT-3 yang lebih kecil
Misalnya, nama sereal yang dibuat versi Ada dari GPT jauh lebih lucu daripada versi Da Vinci: https://www.aiweirdness.com/new-breakfast-cereals-from-ai/
Bukankah tinggal menaikkan temperature?
Markov chain punya pemahaman bahasa yang lebih kasar. Jika temperature LLM, yaitu tingkat keacakannya, dinaikkan, kita bisa mencapai aproksimasi kasar yang mirip
Selain itu, penulis memakai ChatGPT-3.5. ChatGPT diberi RLHF agar terdengar seumum mungkin, dan 3.5 juga lebih lemah memahami humor dibanding 4
Argumen tulisan ini tidak meyakinkanku
- Untuk orang yang tidak tahu berbagai singkatan machine learning, RLHF adalah reinforcement learning berbasis umpan balik manusia (Reinforcement Learning from Human Feedback)
- Aku berharap ada versi ChatGPT yang tetap untuk peneliti
Sayangnya akunnya sudah tidak ada, tetapi sekitar 10 tahun lalu saat masih sekolah aku membuat bot Twitter Markov yang dilatih dengan dua sumber berikut
Yang pertama adalah semua email Linus Torvalds ke LKML selama satu tahun sebelumnya, dan yang kedua adalah kutipan langsung Yesus dalam King James Bible
Hasilnya benar-benar lucu. Karena kedua set pelatihan hampir tidak saling tumpang tindih, aku harus menambahkan heuristik yang memberi bobot lebih besar pada pilihan dari set lain semakin lama chain “terjebak” di salah satu set
- Bot yang sangat mirip dengan ini masih ada, dan beberapa kali dikutip juga di Unsong
  https://www.tumblr.com/kingjamesprogramming
- Kedengarannya hebat. Ada contoh yang sempat kamu simpan?
Aku sudah menjalankan bot IRC Markov chain selama sekitar 20 tahun
Dalam beberapa tahun terakhir aku juga menjalankan LLM lokal bersamanya. Masih ada orang yang lebih suka bot Markov chain, tetapi mayoritas memanggil LLM
Namun itu mungkin karena aku memilih model yang banyak berhalusinasi, sedikit menolak, dan lucu, seperti fine-tuning Mistral-7B, alih-alih model yang pintar, terkunci, dan temperature-nya rendah seperti LLM berbasis layanan semacam ChatGPT
Melihat LLM dan bot Markov berdampingan membuatku makin merasa bahwa banyak “humor” bot Markov adalah hasil manusia yang menambahkan makna pada keluaran yang kebetulan. Meski begitu, kemampuan “belajar” Markov masih jauh lebih unggul
- Menjalankan bot IRC Markov chain selama 20 tahun itu heroik
  Bot-botku tidak pernah bertahan selama itu. Pernah suatu kali aku mengambil isi LiveJournal para pengguna dan menghasilkan teks acak: https://hewgill.com/journal/entries/68-new-lj-toy.html
- Aku penasaran prompt seperti apa yang kamu pakai untuk LLM
  Aku menjalankan bot Markov chain di chat Twitch dan kadang muncul momen yang keren. Aku juga pernah memakai LLM untuk sementara dan memasukkan chat terbaru ke prompt, tetapi jarang sekali hasilnya terasa lucu
  Aku juga mencoba prompt engineering yang secara spesifik menginstruksikan lelucon seperti apa yang harus dibuat, tetapi LLM cenderung selalu mengikuti format yang sama
- Kenapa melakukan itu? Aku penasaran apakah hanya demi hiburan, atau ada alasan lain yang kulewatkan
Di server Discord privat ada dua bot
Yang satu adalah bot Markov chain dasar yang dilatih dengan seluruh riwayat chat, dan yang satu lagi adalah LLM sungguhan yang hanya dilatih dengan sejumlah token terakhir di belakang. Keduanya sesekali ikut nimbrung secara acak di chat
Bot Markov chain selalu jauh lebih lucu
- Aku penasaran context window apa yang dipakai. Setahuku, window pendek seperti 1–2 kata menghasilkan ocehan, sementara window panjang cenderung mengulang pesan lama apa adanya
  Aku juga penasaran, saat memutuskan untuk ikut nimbrung, apakah itu dilakukan dengan probabilitas sederhana setelah pesan lain (misalnya 25%), atau memakai timer

Mengapa Rantai Markov Lebih Lucu daripada LLM

Mengapa Rantai Markov Terlihat Lebih Lucu

Rantai Markov Mirip “LLM yang Sangat Bodoh”

Humor adalah “Kejutan Ringan yang Tak Terduga”

Semakin Jelas Adegannya, Semakin Kuat Snap-nya

Syarat agar Humor Bekerja

LLM Dioptimalkan Menuju Prediktabilitas

LLM Saat Ini Tidak Cocok untuk Membuat Lelucon

Ketegangan antara Mesin Prediksi yang Lebih Baik dan Ekspresi Artistik

Kebocoran Abstraksi yang Terlihat dalam Keluaran LLM

Tautan Referensi

Bacaan terkait

1 komentar

Komentar Hacker News