Eagle 7B - Model yang Melampaui Transformer

Model 7.52B parameter yang berbasis arsitektur RWKV-v5
Model 7B paling ramah lingkungan di dunia, dengan biaya per token yang rendah
Dilatih dengan 1,1 triliun token dalam lebih dari 100 bahasa
Mengungguli semua model kelas 7B pada benchmark multibahasa
Dalam evaluasi bahasa Inggris, performanya mendekati Falcon (1.5T), LLaMA2 (2T), dan Mistral (>2T?)
Foundation model yang hanya menjalani instruction tuning yang sangat kecil, sehingga perlu fine-tuning untuk berbagai use case
Transformer tanpa memerlukan Attention
Berlisensi Apache 2.0, dapat digunakan tanpa batasan untuk keperluan pribadi maupun komersial

Rincian performa multibahasa

Performa multibahasa dievaluasi pada 23 bahasa melalui xLAMBDA, xStoryCloze, xWinograd, xCopa, dan lainnya.
Benchmark ini menangani penalaran akal sehat di masing-masing bahasa.
Peralihan dari arsitektur RWKV v4 ke v5 secara signifikan meningkatkan performa multibahasa.
Karena benchmark multibahasa masih kurang, sulit untuk mengevaluasi secara langsung performa bahasa model pada 75+ bahasa lainnya dari total 100+ bahasa yang dilatih.

Performa bahasa Inggris diukur melalui 12 benchmark terpisah yang mencakup penalaran akal sehat dan pengetahuan dunia.
Peralihan dari arsitektur RWKV v4 ke v5 secara signifikan meningkatkan performa bahasa Inggris.
Model v5 sesuai dengan tingkat performa transformer yang diharapkan untuk jumlah token pelatihan yang diberikan.
Dengan tambahan pelatihan 1 triliun token, model ini diharapkan mencapai tingkat LLaMA2 dan mendekati tingkat Mistral.

Checkpoint pada titik 300 miliar token menunjukkan performa yang mirip dengan pythia-6.9b.
Konsisten dengan eksperimen sebelumnya pada arsitektur RWKV-v4, linear transformer seperti RWKV dapat diskalakan ke tingkat performa yang mirip dengan transformer ketika jumlah token pelatihannya sama.
Pertanyaan tentang apakah data lebih penting daripada arsitektur yang tepat dalam performa evaluasi model terus berulang.
Saat membandingkan biaya komputasi CUDA antara arsitektur berbasis RWKV dan model transformer, skalabilitas linear dibanding kuadratik menjadi penting.

Umpan balik umum terhadap pendekatan multibahasa RWKV adalah bahwa hal ini memengaruhi skor evaluasi bahasa Inggris dan memperlambat perkembangan linear transformer.
Namun, tim RWKV tidak berencana mengubah pendekatan ini, dan ingin membangun AI untuk seluruh dunia, bukan dunia yang hanya menggunakan bahasa Inggris.
Pada 2023, hanya 17% populasi dunia yang berbicara bahasa Inggris.
Dengan mendukung 25 bahasa teratas dan lebih banyak lagi, mereka dapat mencakup sekitar 4 miliar orang, yaitu 50% populasi dunia.
Tim RWKV ingin memperluas dataset multibahasa dan menambah bahasa yang didukung untuk mencakup 100% dunia.

Rilis ini menandai linear transformer terkuat hingga saat ini.
Meski belum melampaui LLaMA2 dan Mistral, model arsitektur RWKV-v5 menunjukkan bahwa ia dapat diskalakan ke performa setara transformer dengan jumlah token yang serupa.
Pada Februari 2024, mereka berencana menerbitkan makalah terbaru tentang RWKV v5, dan pada Maret meluncurkan model MoE berbasis v5 Eagle 2T serta model dunia RWKV-v6 "Finch" 1.5B dan 3B.

Terima kasih kepada StabilityAI yang menyediakan sebagian besar komputasi untuk melatih foundation model ini.
Terima kasih kepada EleutherAI yang memberikan dukungan penuh selama proses penulisan makalah.
Terima kasih kepada Linux Foundation AI & Data group yang mendukung dan meng-host proyek RWKV.

Eagle 7B adalah model linear transformer yang mendukung berbagai bahasa dan menawarkan performa tinggi dengan biaya yang efisien.
Model ini dapat berkontribusi dalam meningkatkan aksesibilitas AI dan mengurangi dampaknya terhadap lingkungan.
Tim RWKV memiliki visi yang jelas untuk mengembangkan teknologi ke arah AI yang mendukung semua orang di seluruh dunia dan mencakup semua bahasa.