5 poin oleh GN⁺ 2024-08-19 | 1 komentar | Bagikan ke WhatsApp

Apa itu rantai Markov

  • Saat LLMs (large language models) pertama kali muncul, orang-orang menjelaskannya sebagai rantai Markov yang sangat cerdas
  • Belakangan ini, orang lebih akrab dengan LLMs daripada rantai Markov
  • Rantai Markov bisa disebut sebagai LLM yang sangat kecil, sangat sederhana, dan sangat naif
  • Rantai Markov memprediksi kata berikutnya berdasarkan konteks saat ini, tetapi tidak mempertimbangkan semantik, dimensionalitas, atau matematika vektor kompleks lainnya
  • Rantai Markov adalah model statistik yang primitif
  • Fitur "saran kata berikutnya" pada keyboard ponsel umumnya menggunakan rantai Markov
  • Rantai Markov murah untuk dijalankan dan mudah diperbarui agar sesuai dengan gaya teks pengguna
  • Cara kerja LLMs dan rantai Markov bisa dijelaskan secara mendalam, tetapi di sini cukup pahami bahwa rantai Markov kurang mampu menyelesaikan tugas dibandingkan LLMs

Apa itu kelucuan

  • Humor berkaitan dengan kejutan yang tidak serius
  • Lelucon terbaik mengandung "snap" yang menyenangkan dan penting
  • "Snap" berarti hentakan yang datang dari kejutan
  • Semakin sedikit kejutan, semakin tidak lucu
  • Inilah alasan lelucon menjadi kurang lucu ketika terlalu sering didengar
  • Humor "random" tidak lucu karena ketidakpastiannya justru bisa diprediksi
  • Menulis lelucon berkaitan dengan melanggar pola
  • "Realisasi adegan" bisa memperkuat snap
  • Jika menggunakan bahasa yang lebih orisinal atau deskriptif, adegan akan terlihat lebih nyata
  • Lelucon sangat beragam dan humor itu subjektif

Prediktabilitas LLMs

  • Untuk berhasil memprediksi kalimat, dibutuhkan banyak konteks
  • LLMs memiliki banyak konteks
  • LLMs mencari token berikutnya yang paling mungkin melalui banyak perhitungan matematis
  • LLM yang "lebih baik" lebih dapat diprediksi
  • LLMs tidak cocok untuk penulisan kreatif
  • LLMs menghasilkan keluaran yang rata-rata
  • Untuk menghasilkan lelucon, LLM perlu memberi kejutan
  • LLM yang bagus tidak pandai melakukan itu
  • LLMs tidak cocok untuk ekspresi artistik
  • LLMs bisa melewatkan konsep yang menarik
  • Melalui kerangka ini, mungkin bisa dibuat model bahasa baru

Mengapa ini menarik

  • Ini menunjukkan sesuatu yang lebih dalam
  • Ini bukan perdebatan jiwa versus mesin
  • Ini menunjukkan cacat bawaan pada model
  • Pesan ChatGPT terlihat seperti esai anak SMA
  • Ini adalah reproduksi dari keluaran rata-rata
  • Kepribadian dihilangkan dan digantikan dengan ketelitian akademis
  • Nadanya hambar dan korporat
  • Ulasan Amazon palsu bisa dengan mudah dikenali
  • Model pendeteksi LLM sebentar lagi harus memeriksa kepribadian

Ringkasan GN⁺

  • Artikel ini menjelaskan perbedaan antara rantai Markov dan LLMs, serta mengeksplorasi hakikat humor
  • Rantai Markov adalah model statistik sederhana yang kemampuan prediksinya lebih rendah daripada LLMs
  • Humor didasarkan pada kejutan yang tidak serius, dan menulis lelucon berkaitan dengan melanggar pola
  • Karena sangat dapat diprediksi, LLMs tidak cocok untuk penulisan kreatif
  • Artikel ini menunjukkan keterbatasan LLMs dan mengisyaratkan kemungkinan model bahasa baru

1 komentar

 
GN⁺ 2024-08-19
Komentar Hacker News
  • Beberapa tahun lalu saat mengerjakan proyek sampingan, saya sampai pada kesimpulan yang sama

    • Saya membuat situs yang menghasilkan postingan blog AWS
    • Saya melatih postingan pengumuman AWS menggunakan generator rantai Markov
    • Saya menyalin HTML dan CSS lalu menggabungkannya dengan Python dan JS
    • Hasilnya cukup lucu
    • Saya mencoba meng-upgrade-nya dengan GPT, tetapi malah jadi kurang lucu
    • LLM modern terlalu realistis sehingga jadi kurang menghibur
    • Humor generator Markov awal muncul dari absurditasnya
    • LLM modern kadang salah, tetapi tidak absurd
  • Saya meminta Claude 3.5 Sonnet menulis 10 lelucon pendek dengan tema bahwa rantai Markov lebih lucu daripada LLM

    • Alasan rantai Markov menyeberang jalan adalah untuk pergi ke sisi lain dari ketidakpastian
    • Saat LLM dan rantai Markov masuk ke bar, LLM memesan minuman yang secara statistik mungkin, sementara rantai Markov memesan kap lampu yang terbuat dari keju
    • Jika rantai Markov membuat lelucon bapak-bapak, itu disebut "Mark-ov Twain"
    • LLM menghabiskan 20 menit menjelaskan cara optimal mengganti bola lampu
    • Rantai Markov berkata "Markov chain reaction of nonsensical hilarity"
    • Saat LLM, rantai Markov, dan GPT-4 masuk ke bar, GPT-4 pergi, LLM mendiskusikan persoalan etika, dan rantai Markov memesan sepeda yang terbuat dari spageti
    • Film favorit LLM adalah "Predictable and Furious 17: The Safest Driving Yet"
    • Rantai Markov bercerita tentang "seorang putri yang tinggal di kastel dari pisang dan kerajaan pemanggang roti yang punya emosi"
    • Rantai Markov berkata kepada LLM, "ibumu adalah abakus dan ayahmu berbau silikon"
    • Alasan rantai Markov bukan konselor yang baik adalah karena ia menyarankan, "ubah emosimu menjadi pisang lalu jadikan topi"
  • Ini bukan berarti rantai Markov lebih baik

    • Model yang dilatih untuk prediksi seharusnya tidak terlalu berbeda dari mesin prediksi internal kita
    • Masalahnya adalah saat mendekati uncanny valley pada teks
  • Saat kuliah, teman-teman saya menggunakan generator rantai Markov untuk bagian "laporan polisi" di koran kampus

    • 10% hasilnya adalah yang paling lucu
    • LLM modern menghindari absurditas seperti ini karena berusaha mempertahankan makna tingkat tinggi
  • Saya merasa tidak nyaman menggunakan Alkitab untuk eksperimen seperti ini

    • Rasanya seperti memakai gambar penyaliban Yesus pada model penyuntingan gambar AI
  • Sebagai bukti empiris, /r/subreddit simulator adalah parodi Reddit berbasis Markov

    • /r/SubSimulatorGPT2 adalah versi berbasis LLM
    • Versi Markov mendapat lebih banyak upvote dan lebih lucu
  • Saya pernah beberapa kali memposting "XYZ palsu yang ditulis AI" di Reddit

    • Model yang mendapat respons terbaik adalah GPT-2
    • Rantai Markov tidak terlalu menarik lebih dari satu atau dua kalimat
    • Model setelah GPT-3 terlalu rapi dan membosankan
    • GPT-2 sebagian besar benar secara tata bahasa dan tetap mempertahankan ide yang konsisten, tetapi kurang pengetahuan tentang topik tertentu sehingga lebih lucu
  • Sekitar 10 tahun lalu saat masih sekolah, saya membuat bot Twitter Markov

    • Saya melatihnya dengan email LKML dari Linus Torvalds dan kutipan Alkitab King James dari Yesus
    • Karena kedua set pelatihan hampir tidak bertumpang tindih, saya harus menambahkan histeresis
  • Evolusi blog AI weirdness mendukung ide ini

    • LLM awal, terutama versi sebelum GPT-3, lebih lucu
    • Misalnya, nama sereal yang dihasilkan GPT versi Ada lebih lucu daripada versi Da Vinci
  • Saya punya dua bot di server Discord pribadi

    • Salah satunya adalah bot rantai Markov dasar yang dilatih dengan seluruh riwayat chat
    • Yang lainnya adalah bot LLM yang proper
    • Bot rantai Markov selalu lebih lucu