- Menggunakan Hyena, arsitektur baru pengganti Transformer, untuk mendukung konteks yang sangat panjang (Ultra Long)
- Hyena berbasis model sekuens yang terinspirasi dari pemrosesan sinyal
- Model alternatif pertama yang mampu bersaing dengan Transformer pada evaluasi konteks pendek/panjang
- Menunjukkan performa yang sebanding dengan Llama-2, Yi, dan Mistral 7B pada tugas leaderboard OpenLLM, serta unggul dalam peringkasan konteks panjang
- StripedHyena lebih cepat dan lebih efisien memori untuk pelatihan, fine-tuning, dan generasi sekuens panjang
- Dioptimalkan menggunakan teknik baru Model Grafting, yang memungkinkan arsitektur model diubah selama pelatihan
- StripedHyena diperoleh dengan mencangkok komponen arsitektur transformer dan Hyena, lalu dilatih pada campuran set data RedPajama yang diperkuat dengan data konteks yang lebih panjang
Belum ada komentar.