- Panduan yang menjelaskan secara visual cara kerja model bahasa besar seperti GPT-2, nano-gpt, dan GPT-3
- Daftar isi: pengantar dan pengetahuan dasar, embedding, normalisasi layer, self-attention, proyeksi, MLP, transformer, Softmax, output
Ringkasan bagian pengantar keseluruhan
- Dalam kasus
nano-gpt, model ini memiliki 85.000 parameter
- Tujuannya adalah mengurutkan string enam huruf yang diberikan berdasarkan urutan alfabet
- Sebagai contoh, proses menerima string
C B A B B C lalu mengurutkannya menjadi ABBBCC
- Setiap huruf dalam string disebut
token, dan kosakata model terdiri dari berbagai token
- Setiap token diberi indeks numerik, lalu dimasukkan ke dalam model
- Setiap angka diubah menjadi vektor dengan 48 elemen, yang disebut
embedding
- Embedding melewati serangkaian layer yang disebut
transformer
- Pada akhirnya, model memprediksi probabilitas token berikutnya untuk urutan yang diberikan
- Token yang diprediksi kemudian dimasukkan kembali ke bagian atas model, dan seluruh proses diulang
1 komentar
Opini Hacker News
Ini adalah alat yang sangat berguna untuk memahami LLM secara mendasar
model.pymilik minGPT.Terkejut melihat kompleksitas algoritme diekspresikan dengan jelas dalam ruang 3D
Visualisasi ini benar-benar menakjubkan.
Ini adalah metode visualisasi yang dicari selama berbulan-bulan
Bahkan layak diberi judul 'membedah sihir menjadi perkalian matriks dan dot product'.
Model 3D ini luar biasa dari sisi edukasi
Semakin takjub dengan bagaimana LLM bisa bekerja dengan baik
Penjelasan tentang kekuatan self-attention sering kali terlewat
Membagikan konteks tambahan tentang karya ini lewat thread Twitter penulis
Jika ingin versi berdimensi rendah untuk model sendiri, merekomendasikan library Netron
Ini bukan sekadar model 3D sederhana, melainkan karya yang mendalam
Visualisasi ini benar-benar menakjubkan.
Inilah alasan menyukai Hacker News