1 poin oleh GN⁺ 2023-07-25 | 1 komentar | Bagikan ke WhatsApp
  • Rumus perhatian dalam AI modern memiliki kesalahan off-by-one yang menimbulkan kesulitan dalam kompresi dan deployment model Transformer.
  • Kesalahan ini terkait dengan bobot outlier di dalam model, dan outlier ini jauh lebih besar daripada rekan-rekannya sehingga menyebabkan penurunan performa dan kesulitan dalam kuantisasi.
  • Bug ini berkaitan dengan fungsi softmax yang digunakan dalam mekanisme attention, dan fungsi ini tidak cocok untuk tugas ini.
  • Solusi yang diusulkan adalah membuat modifikasi kecil pada fungsi softmax dengan menambahkan 1 ke penyebut, sehingga head attention dapat "diam saja" ketika tidak bisa menambahkan informasi.
  • Modifikasi ini, Softmax Super-Mod atau QuietAttention, diharapkan dapat menyelesaikan loop umpan balik outlier dan meningkatkan kuantisasi.
  • Melalui eksperimen, efektivitas solusi ini dapat diuji dengan menambahkan vektor 0 sebagai prefiks pada konteks input dan mengamati kurtosis bobot serta norma tak hingga aktivasi.
  • Penulis mengundang kolaborasi dan eksperimen untuk mengeksplorasi serta memverifikasi solusi ini lebih lanjut.

1 komentar

 
GN⁺ 2023-07-25
Pendapat Hacker News
  • Penulis mengusulkan untuk menambahkan 1 ke penyebut softmax.
  • Perubahan ini memungkinkan jaringan untuk tidak memilih keyakinan tinggi terhadap sesuatu dengan memberikan bobot tinggi atau rendah.
  • Beberapa komentator meragukan pentingnya perubahan ini dan menyatakan bahwa trik serupa pernah digunakan sebelumnya.
  • Yang lain memuji nada artikel yang non-akademis dan kemauannya untuk mengeksplorasi ide baru.
  • Seorang komentator membagikan pengalaman pribadi menemukan kesalahan dalam algoritme populer yang pada awalnya diabaikan orang lain.
  • Komentator lain memuji penulis karena berhasil mengidentifikasi masalah nyata dan mengusulkan solusi sederhana.
  • Namun, mereka meminta penulis untuk memberikan lebih banyak bukti dan penjelasan atas klaim bahwa solusi ini akan menyelesaikan loop umpan balik outlier.
  • Beberapa komentator menyarankan bahwa eksperimen tambahan dan penyesuaian lebih lanjut diperlukan untuk memvalidasi solusi yang diusulkan.
  • Seorang komentator menyebut makalah tahun 2020 dan mengusulkan formula attention lain yang dapat mengatasi masalah kuantisasi.
  • Disebutkan bahwa metode menambahkan 1 ke penyebut ini sering digunakan sebelum penggunaan token dummy menjadi umum.
  • Beberapa komentator mengkritik nada penulis dan mengungkapkan keterkejutan atas kurangnya kesadaran terhadap teknik ini di komunitas riset.