Visualisasi LLM

(bbycroft.net)

43 poin oleh GN⁺ 2025-09-05 | 1 komentar | Bagikan ke WhatsApp

Model bahasa besar berbasis GPT: penjelasan singkat tentang cara kerja nano-gpt
Model ini bertujuan menerima urutan 6 karakter dan mengurutkannya menurut urutan alfabet
Setiap karakter dianggap sebagai token, dan semua token memiliki indeks token yang unik
Setiap indeks token diubah menjadi vektor embedding 48 dimensi lalu melewati serangkaian layer transformer
Model memprediksi token berikutnya, dan hasilnya dapat diulang untuk mengembangkan urutan input

Pengenalan model bahasa GPT

Dokumen ini merupakan materi yang menjelaskan secara visual cara kerja model bahasa besar GPT
Di sini digunakan model yang sangat kecil bernama nano-gpt (sekitar 85.000 parameter)
Tujuan model adalah menerima urutan yang terdiri dari 6 karakter lalu mengurutkannya menurut alfabet (misalnya: "ABBBCC")

Token dan kosakata

Setiap karakter didefinisikan sebagai token, dan kumpulan semua token yang dikenali model disebut kosakata (vocabulary)
Pada tabel, setiap token diberi nomor unik (indeks token)
Urutan angka dari indeks token ini digunakan sebagai input model

Transformasi input dan embedding

Dalam visualisasi 3D, sel hijau menunjukkan angka yang sedang diproses, sedangkan sel biru menunjukkan bobot (weight) model
Setiap angka input diubah menjadi vektor embedding 48 dimensi
Embedding ini kemudian melewati beberapa layer transformer secara berurutan di dalam struktur model

Output dan proses prediksi

Output model ditampilkan sebagai probabilitas token berikutnya yang diprediksi untuk urutan tersebut
Pada posisi input ke-6, model memprediksi distribusi probabilitas bahwa token berikutnya adalah 'A', 'B', atau 'C'
Dalam contoh, model memprediksi bahwa probabilitas 'A' adalah yang tertinggi
Hasil prediksi ini dimasukkan kembali sebagai input dan proses diulangi untuk membentuk seluruh urutan

1 komentar

GN⁺ 2025-09-05

Komentar Hacker News

Sangat kompleks sekaligus mengagumkan, cara memvisualisasikan prosesnya benar-benar keren
Ada materi terkait, jika penasaran dengan yang lain bisa dijadikan referensi
LLM Visualization - Desember 2023, 131 komentar
Ada materi visualisasi transformer lain yang dibuat para peneliti Georgia Tech
https://poloclub.github.io/transformer-explainer/
Dan juga direkomendasikan materi visualisasi terkenal berjudul 'The Illustrated Transformer'
https://jalammar.github.io/illustrated-transformer/
Ada juga tulisan Sebastian Raschka, PhD tentang arsitektur
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Di komentar Hacker News ini, berbagai resource bisa dilihat sekaligus
https://news.ycombinator.com/item?id=35712334
Visualisasinya sangat menarik; kita bisa melihat keseluruhan proses secara visual, tetapi ironisnya kita tetap belum sepenuhnya memahami dasar pengambilan keputusan internal model, dan saat saya mencarinya sekitar setahun lalu, masih belum ada kemajuan di bagian ini
Konten visualisasi ini benar-benar luar biasa, saya berencana menunjukkannya kepada anak-anak di klub komputer tempat anak saya yang berusia 5 tahun ikut
- Dengan cara itu, sepertinya paling ampuh untuk membuat anak-anak tidur siang
Benar-benar terasa seperti karya seni yang luar biasa dan mengagumkan, terima kasih sudah membuatnya
Sudah lama sekali saya sangat menyukai materi visualisasi ini
https://alphacode.deepmind.com/
(Jika di ponsel, tekan play lalu zoom out sampai mentok, kemudian scroll ke bawah)
Akan sangat keren jika visualisasi LLM seperti ini bisa menjadi alat pembelajaran; misalnya bisa menunjukkan bagaimana attention bergerak selama proses generasi atau bagaimana prompt memengaruhi output, dan visualisasi interaktif seperti ini tampaknya akan sangat membantu untuk memahami apa yang sebenarnya terjadi di balik layar
Menurut saya ini benar-benar luar biasa; kalau ada waktu saya ingin mendalaminya, dan jika digabungkan dengan alat observasi, saya rasa materi ini bisa membantu para ilmuwan membedah bagian dalam model yang dikenal sebagai "kotak hitam"
Sekarang saya akhirnya paham, materi ini benar-benar resource yang luar biasa, terima kasih atas waktu dan usahanya

Visualisasi LLM

Pengenalan model bahasa GPT

Token dan kosakata

Transformasi input dan embedding

Output dan proses prediksi

Bacaan terkait

1 komentar

Komentar Hacker News