Pendahuluan
- Artikel ini membahas eksplorasi tentang bagaimana model bahasa berukuran kecil memprediksi token berikutnya.
- Alih-alih berfokus pada mekanisme self-attention pada model transformer, artikel ini memberikan penjelasan tentang bagaimana hasil perhitungan perhatian diubah menjadi prediksi token berikutnya yang akurat.
- Penulis meninjau keadaan internal melalui transformer kecil yang berfungsi, dan membagikan hasil berharga dari penelusuran mendalam selama 6 bulan.
Struktur blok transformer
- Blok transformer terdiri dari lapisan self-attention multi-head dan jaringan feedforward.
- Keluaran jaringan feedforward adalah faktor utama yang menentukan bagaimana blok mengubah masukan menjadi keluaran.
Usulan: cara kerja transformer
- Setiap blok transformer mempelajari bobot yang mengaitkan prompt tertentu dengan kelas string dalam data pelatihan.
- Distribusi token yang mengikuti kelas string ini kira-kira sesuai dengan apa yang dikeluarkan blok sebagai prediksi untuk token berikutnya.
Implementasi: pendekatan keluaran transformer menggunakan keluaran jaringan feedforward
- Penulis menyajikan prosedur konkret untuk mendekati keluaran transformer dengan menggunakan keluaran jaringan feedforward.
- Prosedur ini dimulai dengan menjalankan prompt melalui model dan menyimpan keluaran jaringan feedforward untuk setiap blok.
- Lalu dicari string dalam data pelatihan yang menghasilkan keluaran jaringan feedforward serupa, dan dibangun distribusi frekuensi token yang muncul setelah string tersebut.
- Distribusi-distribusi ini dijumlahkan dengan menerapkan bobot lalu dinormalisasi untuk memperoleh distribusi probabilitas akhir.
Opini GN⁺
- Riset ini memberikan pemahaman mendalam tentang prinsip kerja internal model transformer. Khususnya, wawasan tentang proses setelah self-attention penting untuk memahami mekanisme prediksi model transformer.
- Pendekatan penulis memberikan penjelasan yang jelas tentang bagaimana transformer mengenali pola dalam data pelatihan dan, berdasarkan itu, memprediksi token berikutnya.
- Artikel ini dapat menjadi bahan yang berguna bagi orang yang meneliti atau mengembangkan model transformer, serta berkontribusi pada pendalaman pemahaman di bidang pemrosesan bahasa AI.
1 komentar
Komentar Hacker News
Jangan terkejut dengan fenomena baru. Jika tidak membaca teori yang sudah mapan, orang bisa bingung terhadap fenomena yang muncul secara alami.
Respons positif terhadap fakta bahwa, setelah Google menunjukkan bahwa ChatGPT akan memuntahkan data pelatihan apa adanya jika dipaksa mengulang kata yang sama, ada orang yang benar-benar mengimplementasikan hal itu.
Menyatakan keterkejutan terhadap fenomena ketika jaringan Attention dan FF (Feed Forward) menunjuk ke arah yang sama.
Saat melatih model kecil dengan mengikuti tutorial NanoGPT dari Andrej Karpathy, model itu tampak memahami tata bahasa Rusia yang kompleks sampai taraf tertentu.
Pertanyaan apakah LLM adalah generator teks rantai Markov.
Model yang diteliti sebenarnya hanyalah model mainan sederhana, dan dapat didekati dengan model yang lebih sederhana lagi.
Sulit memahami secara tepat apa yang ingin diklaim penulis.
Visualisasi 3D dari sistem LLM bermanfaat, dan sebaiknya dibaca bersamaan untuk efek maksimal.
Postingan yang aneh tentang apa yang sebenarnya dilakukan transformer.