Abstrak
- Dalam jaringan saraf modern, lapisan normalisasi telah lama dianggap esensial.
- Studi ini menunjukkan bahwa performa yang sama atau lebih baik dapat dicapai bahkan tanpa normalisasi.
- Diperkenalkan teknik sederhana bernama Dynamic Tanh (DyT), yang dapat menggantikan lapisan normalisasi.
- DyT umumnya memberikan performa yang setara atau lebih baik dibanding model yang dinormalisasi, bahkan tanpa penyetelan hiperparameter.
- Efektivitas DyT divalidasi dalam berbagai pengaturan, sehingga mendorong peninjauan ulang atas anggapan bahwa lapisan normalisasi itu esensial.
Implementasi
- Modul DyT dapat diimplementasikan hanya dengan beberapa baris kode PyTorch.
Temuan utama
- Normalisasi lapisan bekerja seperti fungsi tanh yang diskalakan.
- Pada lapisan awal, perilakunya terutama linear, tetapi pada lapisan yang dalam, ia menunjukkan kurva berbentuk S khas fungsi tanh.
Evaluasi
- Efek dan generalitas DyT dievaluasi pada berbagai arsitektur dan tugas.
- Dalam semua kasus, Transformers yang menggunakan DyT menunjukkan performa yang serupa atau lebih baik dibanding model yang dinormalisasi.
Materi
- Detail lebih lanjut tentang penelitian ini dapat dilihat dengan mengunduh makalah.
- Detail implementasi dapat dilihat di repositori GitHub.
Belum ada komentar.