11 poin oleh xguru 2024-03-30 | 1 komentar | Bagikan ke WhatsApp
  • AI21 Labs meluncurkan Jamba, model AI tingkat produksi pertama di dunia yang berbasis arsitektur Mamba
  • Jamba menggabungkan kekuatan Mamba SSM (Structured State Space Model) dan arsitektur transformer tradisional untuk menghadirkan peningkatan performa dan efisiensi yang mengesankan
  • Memiliki context window luas hingga 256K token. Dapat memproses hingga 140K token pada satu GPU 80GB

Arsitektur hibrida dan performa Jamba

  • Jamba memanfaatkan layer Mixture of Experts (MoE) melalui arsitektur hibrida SSM-transformer, dengan hanya 12B dari total 52B parameter yang digunakan saat inferensi
  • Dapat menangani konteks yang jauh lebih panjang dibanding model pesaing seperti Llama 2 dari Meta, sambil mempertahankan throughput dan efisiensi yang tinggi
  • Memberikan throughput 3x lebih tinggi pada konteks panjang, sehingga lebih efisien dibanding model berbasis transformer dengan ukuran serupa
  • Mengusung pendekatan blok dan layer, di mana setiap blok Jamba berisi layer attention atau Mamba yang kemudian diikuti multilayer perceptron (MLP)
  • Dalam struktur ini, satu layer transformer digunakan untuk setiap total delapan layer
  • Menunjukkan hasil yang unggul di berbagai benchmark, serta melampaui atau menyamai performa model-model mutakhir dengan ukuran serupa pada beragam tugas

Lisensi

  • Jamba dirilis sebagai open weights di bawah lisensi Apache 2.0, dan tersedia di Hugging Face
  • Saat ini Jamba dirilis sebagai model riset tanpa pengaman yang diperlukan untuk penggunaan komersial, tetapi AI21 Labs berencana merilis versi yang lebih aman dalam beberapa minggu ke depan

1 komentar

 
xguru 2024-03-30

Opini Hacker News

  • Membagikan tautan ke thread terbaru yang berisi penjelasan tentang Mamba
  • Merekomendasikan video Sasha Rush bagi mereka yang penasaran dengan trade-off antara layer transformer dan model state space
    • Video Sasha Rush membantu memahami perbedaan antara layer transformer dan model state space.
  • Membagikan masalah terkait upaya menjalankannya di Linux dengan 1 atau 2 GPU 4090
    • Mengalami masalah saat memuat checkpoint menggunakan GPU 4090 di Linux; VRAM tampaknya cukup, tetapi tetap gagal. Menyatakan ketertarikan pada percobaan tersebut.
  • Menyambut hadirnya model tingkat produksi penuh yang menggunakan Mamba, sambil menyatakan minat pada performa dan throughput dalam benchmark jendela konteks panjang
    • Kesan yang didapat adalah throughput meningkat besar saat Mamba menggunakan konteks panjang, tetapi akurasi sedikit menurun.
  • Menunjukkan inefisiensi LLM (Large Language Models)
    • Menyebut inefisiensi LLM yang membutuhkan memori GPU 80GB, sambil berharap masih banyak ruang untuk perbaikan algoritma.
  • Mempertanyakan perlunya layer self-attention
    • Mengajukan pertanyaan mengapa menyertakan layer self-attention alih-alih hanya memakai pergiliran layer SSM dan MLP.
  • Menjelaskan peningkatan performa model Jamba-v0.1-hybrid-MoE
    • Berpendapat bahwa model Jamba-v0.1-hybrid-MoE menawarkan konteks yang lebih panjang, kecepatan lebih tinggi, dan biaya lebih murah dibanding model sebelumnya, serta akan mengakhiri gagasan bahwa 'satu model menguasai segalanya'.
  • Menunjukkan masalah duplikasi nama Mamba
    • Menekankan pentingnya pemilihan nama karena Mamba sudah digunakan sebagai nama paket Python yang populer.
  • Menyebut nama Sparabo dan menyinggung betapa menariknya nama lama dipakai untuk hal baru
    • Menanyakan apakah nama Sparabo memang ada dan menyatakan ketertarikan pada penggunaan nama lama untuk hal baru.
  • Menyebut bahwa pekerjaan konteks panjang berkaitan dengan MemGPT, serta menyarankan bahwa konsep serupa bisa diterapkan pada model arsitektur Mamba
    • Menyebut pekerjaan konteks panjang terkait MemGPT dan berpendapat bahwa hal itu mungkin juga dapat diterapkan pada model arsitektur Mamba.