Apakah RNN Pernah Menjadi Segalanya?
(arxiv.org)Ilmu Komputer > Machine Learning
- Judul: Apakah RNN Pernah Menjadi Segalanya?
- Penulis: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh
- Tanggal pengajuan: 2 Oktober 2024
Ringkasan
-
Latar belakang: Karena keterbatasan skalabilitas Transformer terhadap panjang sekuens, minat terhadap model sekuens rekuren yang dapat diparalelkan kembali meningkat. Seiring itu, struktur rekuren baru seperti S4, Mamba, dan Aaren diusulkan dan mencapai kinerja yang serupa.
-
Isi penelitian: Meninjau kembali jaringan saraf rekuren (RNN) tradisional, yaitu LSTM (1997) dan GRU (2014). Model-model ini sebelumnya lambat karena memerlukan backpropagation through time (BPTT), tetapi dengan menghilangkan ketergantungan hidden state pada gerbang input, forget, dan update, BPTT tidak lagi diperlukan sehingga pelatihan dapat dilakukan secara efisien dan paralel.
-
Hasil: Memperkenalkan versi yang diminimalkan (minLSTMs, minGRUs) yang (1) menggunakan parameter jauh lebih sedikit daripada model tradisional, dan (2) memungkinkan paralelisasi penuh saat pelatihan (175 kali lebih cepat pada sekuens sepanjang 512). Versi RNN yang disederhanakan ini menunjukkan kinerja empiris yang sejalan dengan model sekuens terkini.
Ringkasan GN⁺
- Riset ini menarik karena memperbaiki bottleneck pada model RNN tradisional sehingga memungkinkan pelatihan paralel.
- Riset ini kembali menyoroti potensi RNN sebagai alternatif untuk mengatasi keterbatasan Transformer.
- Riset ini dapat berkontribusi pada peningkatan efisiensi sequence modeling di bidang machine learning dan kecerdasan buatan.
- Proyek dengan fungsi serupa mencakup model berbasis Transformer terbaru.
Belum ada komentar.