6 poin oleh GN⁺ 2024-01-30 | 2 komentar | Bagikan ke WhatsApp
  • Model 7.52B parameter yang berbasis arsitektur RWKV-v5
  • Model 7B paling ramah lingkungan di dunia, dengan biaya per token yang rendah
  • Dilatih dengan 1,1 triliun token dalam lebih dari 100 bahasa
  • Mengungguli semua model kelas 7B pada benchmark multibahasa
  • Dalam evaluasi bahasa Inggris, performanya mendekati Falcon (1.5T), LLaMA2 (2T), dan Mistral (>2T?)
  • Foundation model yang hanya menjalani instruction tuning yang sangat kecil, sehingga perlu fine-tuning untuk berbagai use case
  • Transformer tanpa memerlukan Attention
  • Berlisensi Apache 2.0, dapat digunakan tanpa batasan untuk keperluan pribadi maupun komersial

Rincian performa multibahasa

  • Performa multibahasa dievaluasi pada 23 bahasa melalui xLAMBDA, xStoryCloze, xWinograd, xCopa, dan lainnya.
  • Benchmark ini menangani penalaran akal sehat di masing-masing bahasa.
  • Peralihan dari arsitektur RWKV v4 ke v5 secara signifikan meningkatkan performa multibahasa.
  • Karena benchmark multibahasa masih kurang, sulit untuk mengevaluasi secara langsung performa bahasa model pada 75+ bahasa lainnya dari total 100+ bahasa yang dilatih.

Rincian performa bahasa Inggris

  • Performa bahasa Inggris diukur melalui 12 benchmark terpisah yang mencakup penalaran akal sehat dan pengetahuan dunia.
  • Peralihan dari arsitektur RWKV v4 ke v5 secara signifikan meningkatkan performa bahasa Inggris.
  • Model v5 sesuai dengan tingkat performa transformer yang diharapkan untuk jumlah token pelatihan yang diberikan.
  • Dengan tambahan pelatihan 1 triliun token, model ini diharapkan mencapai tingkat LLaMA2 dan mendekati tingkat Mistral.

Dataset yang baik + arsitektur yang dapat diskalakan: apakah keduanya benar-benar diperlukan?

  • Checkpoint pada titik 300 miliar token menunjukkan performa yang mirip dengan pythia-6.9b.
  • Konsisten dengan eksperimen sebelumnya pada arsitektur RWKV-v4, linear transformer seperti RWKV dapat diskalakan ke tingkat performa yang mirip dengan transformer ketika jumlah token pelatihannya sama.
  • Pertanyaan tentang apakah data lebih penting daripada arsitektur yang tepat dalam performa evaluasi model terus berulang.
  • Saat membandingkan biaya komputasi CUDA antara arsitektur berbasis RWKV dan model transformer, skalabilitas linear dibanding kuadratik menjadi penting.

Membangun AI yang inklusif untuk semua - bukan hanya untuk bahasa Inggris

  • Umpan balik umum terhadap pendekatan multibahasa RWKV adalah bahwa hal ini memengaruhi skor evaluasi bahasa Inggris dan memperlambat perkembangan linear transformer.
  • Namun, tim RWKV tidak berencana mengubah pendekatan ini, dan ingin membangun AI untuk seluruh dunia, bukan dunia yang hanya menggunakan bahasa Inggris.
  • Pada 2023, hanya 17% populasi dunia yang berbicara bahasa Inggris.
  • Dengan mendukung 25 bahasa teratas dan lebih banyak lagi, mereka dapat mencakup sekitar 4 miliar orang, yaitu 50% populasi dunia.
  • Tim RWKV ingin memperluas dataset multibahasa dan menambah bahasa yang didukung untuk mencakup 100% dunia.

Rencana masa depan

  • Rilis ini menandai linear transformer terkuat hingga saat ini.
  • Meski belum melampaui LLaMA2 dan Mistral, model arsitektur RWKV-v5 menunjukkan bahwa ia dapat diskalakan ke performa setara transformer dengan jumlah token yang serupa.
  • Pada Februari 2024, mereka berencana menerbitkan makalah terbaru tentang RWKV v5, dan pada Maret meluncurkan model MoE berbasis v5 Eagle 2T serta model dunia RWKV-v6 "Finch" 1.5B dan 3B.

Ucapan terima kasih

  • Terima kasih kepada StabilityAI yang menyediakan sebagian besar komputasi untuk melatih foundation model ini.
  • Terima kasih kepada EleutherAI yang memberikan dukungan penuh selama proses penulisan makalah.
  • Terima kasih kepada Linux Foundation AI & Data group yang mendukung dan meng-host proyek RWKV.

Pendapat GN⁺:

  • Eagle 7B adalah model linear transformer yang mendukung berbagai bahasa dan menawarkan performa tinggi dengan biaya yang efisien.
  • Model ini dapat berkontribusi dalam meningkatkan aksesibilitas AI dan mengurangi dampaknya terhadap lingkungan.
  • Tim RWKV memiliki visi yang jelas untuk mengembangkan teknologi ke arah AI yang mendukung semua orang di seluruh dunia dan mencakup semua bahasa.

2 komentar

 
cosine20 2024-01-31

Tadi malam saya sempat mencoba demonya sebentar, ternyata cukup cepat dan hasilnya juga bagus. Model ini juga mengenali bahasa Korea dan Jepang secara alami serta menjawab dengan baik.

 
GN⁺ 2024-01-30
Komentar Hacker News
  • Menarik melihat adanya kemajuan pada arsitektur LLM (model bahasa besar) alternatif, tetapi disayangkan artikel tersebut hanya membahas kualitas model

    • Artikel berakhir begitu saja, sehingga kurang memberikan motivasi untuk mengadopsi arsitektur baru
    • Perlu ada pembahasan tentang performa dan ukuran konteks
    • Mengecewakan karena artikel tidak menyebut konteks sama sekali
    • Grafik RWKV-4 digunakan ulang, tetapi tidak jelas apa yang sebenarnya ditunjukkan oleh grafik itu
  • Arsitektur model seperti Transformer, Mamba, SSM, dan RWKV tidak terlalu penting; pengaruh set data pelatihan jauh lebih penting

    • Data bahasa adalah gudang pengalaman manusia, dan fakta bahwa AI dapat memperoleh berbagai kemampuan darinya menunjukkan bahwa kecerdasan tidak terbatas hanya pada otak
  • RWKV-v5 Eagle 7B dirilis dengan lisensi Apache 2.0 sehingga dapat digunakan secara pribadi maupun komersial tanpa batasan

    • Positif bahwa tim telah menetapkan insentif yang tepat untuk pengujian dan adopsi
  • Saat ini fokus utamanya ada pada model prediksi token berikutnya yang khusus decoder

    • Encoder pada BERT dan T5 masih berguna untuk menghasilkan embedding bagi tugas pencarian atau klasifikasi
    • Masih diperlukan lebih banyak riset tentang arsitektur pra-pelatihan yang lebih baik untuk use case embedding
  • Ada permintaan penjelasan tentang bagaimana model RWKV dibandingkan dengan model Transformer pada umumnya, dan bagaimana benchmark-nya harus ditafsirkan

    • Tampaknya performanya mirip dengan Mistral 7B/mistral-tiny
  • Informasi tentang jumlah RAM yang dibutuhkan dan kecepatan pemrosesan token saat hanya menggunakan CPU masih belum jelas

  • Disarankan untuk merujuk ke anggota proyek yang menjawab pertanyaan di Reddit

    • Tautan ke pengguna Reddit tersebut disediakan
  • Jika ingin mencoba model RWKV tetapi tidak ingin menunggu, disarankan menggunakan rwkv-demo-api.recursal.ai

  • Mengungkapkan antusiasme terhadap model MoE v5 Eagle 2T yang ditargetkan untuk Maret 2024

    • Diharapkan ada keseimbangan antara performa dan biaya lingkungan/token
    • Juga ada harapan akan peningkatan untuk bahasa-bahasa Skandinavia, tetapi hasilnya masih perlu dilihat
    • Kesadaran akan nilai data pelatihan serta struktur dan keseimbangan konten untuk pelatihan yang optimal akan membawa revolusi yang sesungguhnya
  • Dalam eksperimen RWKV-4, inferensi terasa cepat tetapi kecepatan tokenisasi sangat lambat

    • Diperlukan panduan yang lebih spesifik untuk RWKV-5