1 poin oleh GN⁺ 2025-03-16 | Belum ada komentar. | Bagikan ke WhatsApp

Abstrak

  • Dalam jaringan saraf modern, lapisan normalisasi telah lama dianggap esensial.
  • Studi ini menunjukkan bahwa performa yang sama atau lebih baik dapat dicapai bahkan tanpa normalisasi.
  • Diperkenalkan teknik sederhana bernama Dynamic Tanh (DyT), yang dapat menggantikan lapisan normalisasi.
  • DyT umumnya memberikan performa yang setara atau lebih baik dibanding model yang dinormalisasi, bahkan tanpa penyetelan hiperparameter.
  • Efektivitas DyT divalidasi dalam berbagai pengaturan, sehingga mendorong peninjauan ulang atas anggapan bahwa lapisan normalisasi itu esensial.

Implementasi

  • Modul DyT dapat diimplementasikan hanya dengan beberapa baris kode PyTorch.

Temuan utama

  • Normalisasi lapisan bekerja seperti fungsi tanh yang diskalakan.
  • Pada lapisan awal, perilakunya terutama linear, tetapi pada lapisan yang dalam, ia menunjukkan kurva berbentuk S khas fungsi tanh.

Evaluasi

  • Efek dan generalitas DyT dievaluasi pada berbagai arsitektur dan tugas.
  • Dalam semua kasus, Transformers yang menggunakan DyT menunjukkan performa yang serupa atau lebih baik dibanding model yang dinormalisasi.

Materi

  • Detail lebih lanjut tentang penelitian ini dapat dilihat dengan mengunduh makalah.
  • Detail implementasi dapat dilihat di repositori GitHub.

Belum ada komentar.

Belum ada komentar.