- Rumus perhatian dalam AI modern memiliki kesalahan off-by-one yang menimbulkan kesulitan dalam kompresi dan deployment model Transformer.
- Kesalahan ini terkait dengan bobot outlier di dalam model, dan outlier ini jauh lebih besar daripada rekan-rekannya sehingga menyebabkan penurunan performa dan kesulitan dalam kuantisasi.
- Bug ini berkaitan dengan fungsi softmax yang digunakan dalam mekanisme attention, dan fungsi ini tidak cocok untuk tugas ini.
- Solusi yang diusulkan adalah membuat modifikasi kecil pada fungsi softmax dengan menambahkan 1 ke penyebut, sehingga head attention dapat "diam saja" ketika tidak bisa menambahkan informasi.
- Modifikasi ini, Softmax Super-Mod atau QuietAttention, diharapkan dapat menyelesaikan loop umpan balik outlier dan meningkatkan kuantisasi.
- Melalui eksperimen, efektivitas solusi ini dapat diuji dengan menambahkan vektor 0 sebagai prefiks pada konteks input dan mengamati kurtosis bobot serta norma tak hingga aktivasi.
- Penulis mengundang kolaborasi dan eksperimen untuk mengeksplorasi serta memverifikasi solusi ini lebih lanjut.
1 komentar
Pendapat Hacker News