9 poin oleh xguru 2023-12-13 | Belum ada komentar. | Bagikan ke WhatsApp
  • Menggunakan Hyena, arsitektur baru pengganti Transformer, untuk mendukung konteks yang sangat panjang (Ultra Long)
    • Hyena berbasis model sekuens yang terinspirasi dari pemrosesan sinyal
  • Model alternatif pertama yang mampu bersaing dengan Transformer pada evaluasi konteks pendek/panjang
  • Menunjukkan performa yang sebanding dengan Llama-2, Yi, dan Mistral 7B pada tugas leaderboard OpenLLM, serta unggul dalam peringkasan konteks panjang
  • StripedHyena lebih cepat dan lebih efisien memori untuk pelatihan, fine-tuning, dan generasi sekuens panjang
  • Dioptimalkan menggunakan teknik baru Model Grafting, yang memungkinkan arsitektur model diubah selama pelatihan
    • StripedHyena diperoleh dengan mencangkok komponen arsitektur transformer dan Hyena, lalu dilatih pada campuran set data RedPajama yang diperkuat dengan data konteks yang lebih panjang

Belum ada komentar.

Belum ada komentar.