Jamba - Model AI berbasis Mamba tingkat produksi

xguru · 2024-03-30T09:46:02+09:00

AI21 Labs meluncurkan Jamba, model AI tingkat produksi pertama di dunia yang berbasis arsitektur Mamba Jamba menggabungkan kekuatan Mamba SSM (Structured State Space Model) dan arsitektur transformer tradisional untuk menghadirkan peningkatan performa dan efisiensi yang mengesankan Memiliki context window luas hingga 256K token. Dapat memproses hingga 140K token pada satu GPU 80GB Arsitektur hibrida dan performa Jamba Jamba memanfaatkan layer Mixture of Experts (MoE) melalui arsitektur hibrida SSM-transformer, dengan hanya 12B dari total 52B parameter yang digunakan saat inferensi Dapat menangani konteks yang jauh lebih panjang dibanding model pesaing seperti Llama 2 dari Meta, sambil mempertahankan throughput dan efisiensi yang tinggi Memberikan throughput 3x lebih tinggi pada konteks panjang, sehingga lebih efisien dibanding model berbasis transformer dengan ukuran serupa Mengusung pendekatan blok dan layer, di mana setiap blok Jamba berisi layer attention atau Mamba yang kemudian diikuti multilayer perceptron (MLP) Dalam struktur ini, satu layer transformer digunakan untuk setiap total delapan layer Menunjukkan hasil yang unggul di berbagai benchmark, serta melampaui atau menyamai performa model-model mutakhir dengan ukuran serupa pada beragam tugas Lisensi Jamba dirilis sebagai open weights di bawah lisensi Apache 2.0, dan tersedia di Hugging Face Saat ini Jamba dirilis sebagai model riset tanpa pengaman yang diperlukan untuk penggunaan komersial, tetapi AI21 Labs berencana merilis versi yang lebih aman dalam beberapa minggu ke depan

(maginative.com)

11 poin oleh xguru 2024-03-30 | 1 komentar | Bagikan ke WhatsApp

AI21 Labs meluncurkan Jamba, model AI tingkat produksi pertama di dunia yang berbasis arsitektur Mamba
Jamba menggabungkan kekuatan Mamba SSM (Structured State Space Model) dan arsitektur transformer tradisional untuk menghadirkan peningkatan performa dan efisiensi yang mengesankan
Memiliki context window luas hingga 256K token. Dapat memproses hingga 140K token pada satu GPU 80GB

Arsitektur hibrida dan performa Jamba

Jamba memanfaatkan layer Mixture of Experts (MoE) melalui arsitektur hibrida SSM-transformer, dengan hanya 12B dari total 52B parameter yang digunakan saat inferensi
Dapat menangani konteks yang jauh lebih panjang dibanding model pesaing seperti Llama 2 dari Meta, sambil mempertahankan throughput dan efisiensi yang tinggi
Memberikan throughput 3x lebih tinggi pada konteks panjang, sehingga lebih efisien dibanding model berbasis transformer dengan ukuran serupa
Mengusung pendekatan blok dan layer, di mana setiap blok Jamba berisi layer attention atau Mamba yang kemudian diikuti multilayer perceptron (MLP)
Dalam struktur ini, satu layer transformer digunakan untuk setiap total delapan layer
Menunjukkan hasil yang unggul di berbagai benchmark, serta melampaui atau menyamai performa model-model mutakhir dengan ukuran serupa pada beragam tugas

Lisensi

Jamba dirilis sebagai open weights di bawah lisensi Apache 2.0, dan tersedia di Hugging Face
Saat ini Jamba dirilis sebagai model riset tanpa pengaman yang diperlukan untuk penggunaan komersial, tetapi AI21 Labs berencana merilis versi yang lebih aman dalam beberapa minggu ke depan

1 komentar

xguru 2024-03-30

Opini Hacker News

Membagikan tautan ke thread terbaru yang berisi penjelasan tentang Mamba
- Memberikan dua tautan ke thread penjelasan Mamba dan thread yang lebih baik.
Merekomendasikan video Sasha Rush bagi mereka yang penasaran dengan trade-off antara layer transformer dan model state space
- Video Sasha Rush membantu memahami perbedaan antara layer transformer dan model state space.
Membagikan masalah terkait upaya menjalankannya di Linux dengan 1 atau 2 GPU 4090
- Mengalami masalah saat memuat checkpoint menggunakan GPU 4090 di Linux; VRAM tampaknya cukup, tetapi tetap gagal. Menyatakan ketertarikan pada percobaan tersebut.
Menyambut hadirnya model tingkat produksi penuh yang menggunakan Mamba, sambil menyatakan minat pada performa dan throughput dalam benchmark jendela konteks panjang
- Kesan yang didapat adalah throughput meningkat besar saat Mamba menggunakan konteks panjang, tetapi akurasi sedikit menurun.
Menunjukkan inefisiensi LLM (Large Language Models)
- Menyebut inefisiensi LLM yang membutuhkan memori GPU 80GB, sambil berharap masih banyak ruang untuk perbaikan algoritma.
Mempertanyakan perlunya layer self-attention
- Mengajukan pertanyaan mengapa menyertakan layer self-attention alih-alih hanya memakai pergiliran layer SSM dan MLP.
Menjelaskan peningkatan performa model Jamba-v0.1-hybrid-MoE
- Berpendapat bahwa model Jamba-v0.1-hybrid-MoE menawarkan konteks yang lebih panjang, kecepatan lebih tinggi, dan biaya lebih murah dibanding model sebelumnya, serta akan mengakhiri gagasan bahwa 'satu model menguasai segalanya'.
Menunjukkan masalah duplikasi nama Mamba
- Menekankan pentingnya pemilihan nama karena Mamba sudah digunakan sebagai nama paket Python yang populer.
Menyebut nama Sparabo dan menyinggung betapa menariknya nama lama dipakai untuk hal baru
- Menanyakan apakah nama Sparabo memang ada dan menyatakan ketertarikan pada penggunaan nama lama untuk hal baru.
Menyebut bahwa pekerjaan konteks panjang berkaitan dengan MemGPT, serta menyarankan bahwa konsep serupa bisa diterapkan pada model arsitektur Mamba
- Menyebut pekerjaan konteks panjang terkait MemGPT dan berpendapat bahwa hal itu mungkin juga dapat diterapkan pada model arsitektur Mamba.