43 poin oleh GN⁺ 2025-09-05 | 1 komentar | Bagikan ke WhatsApp
  • Model bahasa besar berbasis GPT: penjelasan singkat tentang cara kerja nano-gpt
  • Model ini bertujuan menerima urutan 6 karakter dan mengurutkannya menurut urutan alfabet
  • Setiap karakter dianggap sebagai token, dan semua token memiliki indeks token yang unik
  • Setiap indeks token diubah menjadi vektor embedding 48 dimensi lalu melewati serangkaian layer transformer
  • Model memprediksi token berikutnya, dan hasilnya dapat diulang untuk mengembangkan urutan input

Pengenalan model bahasa GPT

  • Dokumen ini merupakan materi yang menjelaskan secara visual cara kerja model bahasa besar GPT
  • Di sini digunakan model yang sangat kecil bernama nano-gpt (sekitar 85.000 parameter)
  • Tujuan model adalah menerima urutan yang terdiri dari 6 karakter lalu mengurutkannya menurut alfabet (misalnya: "ABBBCC")

Token dan kosakata

  • Setiap karakter didefinisikan sebagai token, dan kumpulan semua token yang dikenali model disebut kosakata (vocabulary)
  • Pada tabel, setiap token diberi nomor unik (indeks token)
  • Urutan angka dari indeks token ini digunakan sebagai input model

Transformasi input dan embedding

  • Dalam visualisasi 3D, sel hijau menunjukkan angka yang sedang diproses, sedangkan sel biru menunjukkan bobot (weight) model
  • Setiap angka input diubah menjadi vektor embedding 48 dimensi
  • Embedding ini kemudian melewati beberapa layer transformer secara berurutan di dalam struktur model

Output dan proses prediksi

  • Output model ditampilkan sebagai probabilitas token berikutnya yang diprediksi untuk urutan tersebut
  • Pada posisi input ke-6, model memprediksi distribusi probabilitas bahwa token berikutnya adalah 'A', 'B', atau 'C'
  • Dalam contoh, model memprediksi bahwa probabilitas 'A' adalah yang tertinggi
  • Hasil prediksi ini dimasukkan kembali sebagai input dan proses diulangi untuk membentuk seluruh urutan

1 komentar

 
GN⁺ 2025-09-05
Komentar Hacker News
  • Sangat kompleks sekaligus mengagumkan, cara memvisualisasikan prosesnya benar-benar keren
  • Ada materi terkait, jika penasaran dengan yang lain bisa dijadikan referensi
    LLM Visualization - Desember 2023, 131 komentar
  • Ada materi visualisasi transformer lain yang dibuat para peneliti Georgia Tech
    https://poloclub.github.io/transformer-explainer/
    Dan juga direkomendasikan materi visualisasi terkenal berjudul 'The Illustrated Transformer'
    https://jalammar.github.io/illustrated-transformer/
    Ada juga tulisan Sebastian Raschka, PhD tentang arsitektur
    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    Di komentar Hacker News ini, berbagai resource bisa dilihat sekaligus
    https://news.ycombinator.com/item?id=35712334
  • Visualisasinya sangat menarik; kita bisa melihat keseluruhan proses secara visual, tetapi ironisnya kita tetap belum sepenuhnya memahami dasar pengambilan keputusan internal model, dan saat saya mencarinya sekitar setahun lalu, masih belum ada kemajuan di bagian ini
  • Konten visualisasi ini benar-benar luar biasa, saya berencana menunjukkannya kepada anak-anak di klub komputer tempat anak saya yang berusia 5 tahun ikut
    • Dengan cara itu, sepertinya paling ampuh untuk membuat anak-anak tidur siang
  • Benar-benar terasa seperti karya seni yang luar biasa dan mengagumkan, terima kasih sudah membuatnya
  • Sudah lama sekali saya sangat menyukai materi visualisasi ini
    https://alphacode.deepmind.com/
    (Jika di ponsel, tekan play lalu zoom out sampai mentok, kemudian scroll ke bawah)
  • Akan sangat keren jika visualisasi LLM seperti ini bisa menjadi alat pembelajaran; misalnya bisa menunjukkan bagaimana attention bergerak selama proses generasi atau bagaimana prompt memengaruhi output, dan visualisasi interaktif seperti ini tampaknya akan sangat membantu untuk memahami apa yang sebenarnya terjadi di balik layar
  • Menurut saya ini benar-benar luar biasa; kalau ada waktu saya ingin mendalaminya, dan jika digabungkan dengan alat observasi, saya rasa materi ini bisa membantu para ilmuwan membedah bagian dalam model yang dikenal sebagai "kotak hitam"
  • Sekarang saya akhirnya paham, materi ini benar-benar resource yang luar biasa, terima kasih atas waktu dan usahanya