Mamba: Model Ruang Status yang Menantang Transformer

(kolaayonrinde.com)

11 poin oleh GN⁺ 2024-02-27 | Belum ada komentar. | Bagikan ke WhatsApp

Mamba adalah Model Ruang Status (State Space Model) yang menantang Transformer

AI saat ini mendominasi dunia, dan di pusatnya ada Transformer
Mamba termasuk dalam kelas model alternatif yang disebut model ruang status (SSM)
Mamba memiliki performa dan skalabilitas yang mirip dengan Transformer, sambil tetap dapat dijalankan pada panjang sekuens yang besar
Poin pentingnya adalah Mamba menghilangkan "hambatan kuadratik" dari "mekanisme attention", sehingga memungkinkan konteks yang panjang
Mamba berjalan hingga 5 kali lebih cepat daripada Transformer

Masalah Transformer - attention saja mungkin tidak cukup

Transformer memungkinkan semua token merujuk ke token sebelumnya, sehingga model menjadi lebih lambat saat konteks membesar
Penyimpanan KV cache ini juga memerlukan kompleksitas ruang O(n)
Ada teknik untuk mengurangi bottleneck Transformer yang ada saat ini, tetapi untuk solusi mendasar dibutuhkan pendekatan yang berbeda

Backbone model dasar

Dua komponen penting dari backbone arsitektur ML yang baik
- Komunikasi (Communication) antar token
- Komputasi (Computation) di dalam token
Blok Transformer terdiri dari attention dan MLP
Mamba menggunakan SSM yang terinspirasi dari teori kontrol untuk komunikasi, dan mempertahankan proyeksi bergaya MLP untuk komputasi

Motivasi Mamba - kembali ke Temple Run

State mengacu pada variabel yang diperlukan untuk menentukan perilaku masa depan suatu sistem
State adalah kompresi dari semua hal yang perlu diketahui tentang masa lalu, dan diubah menjadi proses keputusan Markov

Diskretisasi - hidup di dunia yang terkuantisasi

Proses mengubah persamaan diferensial waktu kontinu menjadi persamaan beda waktu diskret disebut diskretisasi (discretisation)
Mamba menggunakan diskretisasi zero-order hold (ZOH)

Memahami matriks SSM

Matriks A, B, C, D berperan dalam transisi state, memetakan input baru ke state, memetakan state ke output SSM, dan meneruskan input baru ke output

Efisiensi vs efektivitas: Attention adalah fokus, Selectivity adalah prioritisasi

Transformer sangat efektif, tetapi tidak terlalu efisien
Arsitektur Mamba menawarkan solusi yang mendorong frontier Pareto antara efisiensi dan efektivitas

Mekanisme seleksi

Selectivity memungkinkan setiap token diubah menjadi state sesuai kebutuhannya
Mamba menjadikan matriks A, B, C sebagai fungsi dari x, sehingga tidak statis melainkan bergantung pada konteks

Masalah selectivity

Penerapan mekanisme seleksi dapat membuat komputasi lebih lambat dibanding SSM non-selektif
Melalui optimasi perangkat keras, Mamba dapat berjalan lebih cepat daripada Transformer dengan ukuran serupa

Machine learning dan ekonomi politik - seberapa besar ukuran state seharusnya?

Trade-off efisiensi vs efektivitas pada model sekuens ditandai oleh seberapa baik model mengompresi state
Representasi state itu penting, dan kuncinya adalah mengompresi state secara selektif dan dinamis

Aliran informasi pada Transformer vs Mamba

Transformer belajar melalui data pelatihan dan data konteks
Pada Mamba, data pelatihan dan data konteks dikompresi/disaring agar dapat diakses

Penggantian state sebagai paradigma prompting baru

Dengan menggunakan model seperti Mamba, kita dapat berbagi pustaka state yang dihasilkan melalui data spesialis
State memungkinkan pembelajaran konteks tak terbatas pada waktu inferensi tanpa backprop

Mamba dan interpretabilitas mekanistik

Interpretabilitas Mamba berfokus pada pemahaman perpindahan informasi antar token

Apa berikutnya untuk Mamba dan SSM

Model seperti Mamba kemungkinan akan unggul dalam skenario yang membutuhkan konteks sangat panjang dan memori jangka panjang

Agen dan keamanan AI

Model bahasa pada dasarnya aman, tetapi kemungkinan penalaran sekuens jangka panjang kembali menegaskan pentingnya keamanan AI berbasis agen

Kolaborasi terbaik antara Transformer dan Mamba

Menggabungkan konteks panjang Mamba dengan resolusi tinggi Transformer untuk sekuens pendek adalah hal yang bernilai

Opini GN⁺

Mamba menawarkan alternatif yang efektif untuk menangani sekuens panjang dengan mengatasi bottleneck Transformer
Teknologi ini dapat berguna khususnya di bidang seperti medis, genetika, dan pemrosesan bahasa alami, tempat sekuens data yang panjang sangat penting
Diperlukan penelitian lebih lanjut untuk memastikan apakah mekanisme seleksi Mamba benar-benar efektif
Selectivity pada Mamba dapat membantu menemukan keseimbangan antara akurasi tinggi dan efisiensi yang ditawarkan Transformer

Mamba: Model Ruang Status yang Menantang Transformer

Mamba adalah Model Ruang Status (State Space Model) yang menantang Transformer

Masalah Transformer - attention saja mungkin tidak cukup

Backbone model dasar

Motivasi Mamba - kembali ke Temple Run

Diskretisasi - hidup di dunia yang terkuantisasi

Memahami matriks SSM

Efisiensi vs efektivitas: Attention adalah fokus, Selectivity adalah prioritisasi

Mekanisme seleksi

Masalah selectivity

Machine learning dan ekonomi politik - seberapa besar ukuran state seharusnya?

Aliran informasi pada Transformer vs Mamba

Penggantian state sebagai paradigma prompting baru

Mamba dan interpretabilitas mekanistik

Apa berikutnya untuk Mamba dan SSM

Agen dan keamanan AI

Kolaborasi terbaik antara Transformer dan Mamba

Opini GN⁺

Bacaan terkait

Belum ada komentar.