- Model bahasa besar berbasis GPT: penjelasan singkat tentang cara kerja nano-gpt
- Model ini bertujuan menerima urutan 6 karakter dan mengurutkannya menurut urutan alfabet
- Setiap karakter dianggap sebagai token, dan semua token memiliki indeks token yang unik
- Setiap indeks token diubah menjadi vektor embedding 48 dimensi lalu melewati serangkaian layer transformer
- Model memprediksi token berikutnya, dan hasilnya dapat diulang untuk mengembangkan urutan input
Pengenalan model bahasa GPT
- Dokumen ini merupakan materi yang menjelaskan secara visual cara kerja model bahasa besar GPT
- Di sini digunakan model yang sangat kecil bernama nano-gpt (sekitar 85.000 parameter)
- Tujuan model adalah menerima urutan yang terdiri dari 6 karakter lalu mengurutkannya menurut alfabet (misalnya: "ABBBCC")
Token dan kosakata
- Setiap karakter didefinisikan sebagai token, dan kumpulan semua token yang dikenali model disebut kosakata (vocabulary)
- Pada tabel, setiap token diberi nomor unik (indeks token)
- Urutan angka dari indeks token ini digunakan sebagai input model
Transformasi input dan embedding
- Dalam visualisasi 3D, sel hijau menunjukkan angka yang sedang diproses, sedangkan sel biru menunjukkan bobot (weight) model
- Setiap angka input diubah menjadi vektor embedding 48 dimensi
- Embedding ini kemudian melewati beberapa layer transformer secara berurutan di dalam struktur model
Output dan proses prediksi
- Output model ditampilkan sebagai probabilitas token berikutnya yang diprediksi untuk urutan tersebut
- Pada posisi input ke-6, model memprediksi distribusi probabilitas bahwa token berikutnya adalah 'A', 'B', atau 'C'
- Dalam contoh, model memprediksi bahwa probabilitas 'A' adalah yang tertinggi
- Hasil prediksi ini dimasukkan kembali sebagai input dan proses diulangi untuk membentuk seluruh urutan
1 komentar
Komentar Hacker News
LLM Visualization - Desember 2023, 131 komentar
https://poloclub.github.io/transformer-explainer/
Dan juga direkomendasikan materi visualisasi terkenal berjudul 'The Illustrated Transformer'
https://jalammar.github.io/illustrated-transformer/
Ada juga tulisan Sebastian Raschka, PhD tentang arsitektur
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Di komentar Hacker News ini, berbagai resource bisa dilihat sekaligus
https://news.ycombinator.com/item?id=35712334
https://alphacode.deepmind.com/
(Jika di ponsel, tekan play lalu zoom out sampai mentok, kemudian scroll ke bawah)