- Model 7.52B parameter yang berbasis arsitektur RWKV-v5
- Model 7B paling ramah lingkungan di dunia, dengan biaya per token yang rendah
- Dilatih dengan 1,1 triliun token dalam lebih dari 100 bahasa
- Mengungguli semua model kelas 7B pada benchmark multibahasa
- Dalam evaluasi bahasa Inggris, performanya mendekati Falcon (1.5T), LLaMA2 (2T), dan Mistral (>2T?)
- Foundation model yang hanya menjalani instruction tuning yang sangat kecil, sehingga perlu fine-tuning untuk berbagai use case
- Transformer tanpa memerlukan Attention
- Berlisensi Apache 2.0, dapat digunakan tanpa batasan untuk keperluan pribadi maupun komersial
Rincian performa multibahasa
- Performa multibahasa dievaluasi pada 23 bahasa melalui xLAMBDA, xStoryCloze, xWinograd, xCopa, dan lainnya.
- Benchmark ini menangani penalaran akal sehat di masing-masing bahasa.
- Peralihan dari arsitektur RWKV v4 ke v5 secara signifikan meningkatkan performa multibahasa.
- Karena benchmark multibahasa masih kurang, sulit untuk mengevaluasi secara langsung performa bahasa model pada 75+ bahasa lainnya dari total 100+ bahasa yang dilatih.
Rincian performa bahasa Inggris
- Performa bahasa Inggris diukur melalui 12 benchmark terpisah yang mencakup penalaran akal sehat dan pengetahuan dunia.
- Peralihan dari arsitektur RWKV v4 ke v5 secara signifikan meningkatkan performa bahasa Inggris.
- Model v5 sesuai dengan tingkat performa transformer yang diharapkan untuk jumlah token pelatihan yang diberikan.
- Dengan tambahan pelatihan 1 triliun token, model ini diharapkan mencapai tingkat LLaMA2 dan mendekati tingkat Mistral.
Dataset yang baik + arsitektur yang dapat diskalakan: apakah keduanya benar-benar diperlukan?
- Checkpoint pada titik 300 miliar token menunjukkan performa yang mirip dengan pythia-6.9b.
- Konsisten dengan eksperimen sebelumnya pada arsitektur RWKV-v4, linear transformer seperti RWKV dapat diskalakan ke tingkat performa yang mirip dengan transformer ketika jumlah token pelatihannya sama.
- Pertanyaan tentang apakah data lebih penting daripada arsitektur yang tepat dalam performa evaluasi model terus berulang.
- Saat membandingkan biaya komputasi CUDA antara arsitektur berbasis RWKV dan model transformer, skalabilitas linear dibanding kuadratik menjadi penting.
Membangun AI yang inklusif untuk semua - bukan hanya untuk bahasa Inggris
- Umpan balik umum terhadap pendekatan multibahasa RWKV adalah bahwa hal ini memengaruhi skor evaluasi bahasa Inggris dan memperlambat perkembangan linear transformer.
- Namun, tim RWKV tidak berencana mengubah pendekatan ini, dan ingin membangun AI untuk seluruh dunia, bukan dunia yang hanya menggunakan bahasa Inggris.
- Pada 2023, hanya 17% populasi dunia yang berbicara bahasa Inggris.
- Dengan mendukung 25 bahasa teratas dan lebih banyak lagi, mereka dapat mencakup sekitar 4 miliar orang, yaitu 50% populasi dunia.
- Tim RWKV ingin memperluas dataset multibahasa dan menambah bahasa yang didukung untuk mencakup 100% dunia.
Rencana masa depan
- Rilis ini menandai linear transformer terkuat hingga saat ini.
- Meski belum melampaui LLaMA2 dan Mistral, model arsitektur RWKV-v5 menunjukkan bahwa ia dapat diskalakan ke performa setara transformer dengan jumlah token yang serupa.
- Pada Februari 2024, mereka berencana menerbitkan makalah terbaru tentang RWKV v5, dan pada Maret meluncurkan model MoE berbasis v5 Eagle 2T serta model dunia RWKV-v6 "Finch" 1.5B dan 3B.
Ucapan terima kasih
- Terima kasih kepada StabilityAI yang menyediakan sebagian besar komputasi untuk melatih foundation model ini.
- Terima kasih kepada EleutherAI yang memberikan dukungan penuh selama proses penulisan makalah.
- Terima kasih kepada Linux Foundation AI & Data group yang mendukung dan meng-host proyek RWKV.
Pendapat GN⁺:
- Eagle 7B adalah model linear transformer yang mendukung berbagai bahasa dan menawarkan performa tinggi dengan biaya yang efisien.
- Model ini dapat berkontribusi dalam meningkatkan aksesibilitas AI dan mengurangi dampaknya terhadap lingkungan.
- Tim RWKV memiliki visi yang jelas untuk mengembangkan teknologi ke arah AI yang mendukung semua orang di seluruh dunia dan mencakup semua bahasa.
2 komentar
Tadi malam saya sempat mencoba demonya sebentar, ternyata cukup cepat dan hasilnya juga bagus. Model ini juga mengenali bahasa Korea dan Jepang secara alami serta menjawab dengan baik.
Komentar Hacker News
Menarik melihat adanya kemajuan pada arsitektur LLM (model bahasa besar) alternatif, tetapi disayangkan artikel tersebut hanya membahas kualitas model
Arsitektur model seperti Transformer, Mamba, SSM, dan RWKV tidak terlalu penting; pengaruh set data pelatihan jauh lebih penting
RWKV-v5 Eagle 7B dirilis dengan lisensi Apache 2.0 sehingga dapat digunakan secara pribadi maupun komersial tanpa batasan
Saat ini fokus utamanya ada pada model prediksi token berikutnya yang khusus decoder
Ada permintaan penjelasan tentang bagaimana model RWKV dibandingkan dengan model Transformer pada umumnya, dan bagaimana benchmark-nya harus ditafsirkan
Informasi tentang jumlah RAM yang dibutuhkan dan kecepatan pemrosesan token saat hanya menggunakan CPU masih belum jelas
Disarankan untuk merujuk ke anggota proyek yang menjawab pertanyaan di Reddit
Jika ingin mencoba model RWKV tetapi tidak ingin menunggu, disarankan menggunakan rwkv-demo-api.recursal.ai
Mengungkapkan antusiasme terhadap model MoE v5 Eagle 2T yang ditargetkan untuk Maret 2024
Dalam eksperimen RWKV-4, inferensi terasa cepat tetapi kecepatan tokenisasi sangat lambat