Mamba adalah Model Ruang Status (State Space Model) yang menantang Transformer
- AI saat ini mendominasi dunia, dan di pusatnya ada Transformer
- Mamba termasuk dalam kelas model alternatif yang disebut model ruang status (SSM)
- Mamba memiliki performa dan skalabilitas yang mirip dengan Transformer, sambil tetap dapat dijalankan pada panjang sekuens yang besar
- Poin pentingnya adalah Mamba menghilangkan "hambatan kuadratik" dari "mekanisme attention", sehingga memungkinkan konteks yang panjang
- Mamba berjalan hingga 5 kali lebih cepat daripada Transformer
Masalah Transformer - attention saja mungkin tidak cukup
- Transformer memungkinkan semua token merujuk ke token sebelumnya, sehingga model menjadi lebih lambat saat konteks membesar
- Penyimpanan KV cache ini juga memerlukan kompleksitas ruang O(n)
- Ada teknik untuk mengurangi bottleneck Transformer yang ada saat ini, tetapi untuk solusi mendasar dibutuhkan pendekatan yang berbeda
Backbone model dasar
- Dua komponen penting dari backbone arsitektur ML yang baik
- Komunikasi (Communication) antar token
- Komputasi (Computation) di dalam token
- Blok Transformer terdiri dari attention dan MLP
- Mamba menggunakan SSM yang terinspirasi dari teori kontrol untuk komunikasi, dan mempertahankan proyeksi bergaya MLP untuk komputasi
Motivasi Mamba - kembali ke Temple Run
- State mengacu pada variabel yang diperlukan untuk menentukan perilaku masa depan suatu sistem
- State adalah kompresi dari semua hal yang perlu diketahui tentang masa lalu, dan diubah menjadi proses keputusan Markov
Diskretisasi - hidup di dunia yang terkuantisasi
- Proses mengubah persamaan diferensial waktu kontinu menjadi persamaan beda waktu diskret disebut diskretisasi (discretisation)
- Mamba menggunakan diskretisasi zero-order hold (ZOH)
Memahami matriks SSM
- Matriks A, B, C, D berperan dalam transisi state, memetakan input baru ke state, memetakan state ke output SSM, dan meneruskan input baru ke output
Efisiensi vs efektivitas: Attention adalah fokus, Selectivity adalah prioritisasi
- Transformer sangat efektif, tetapi tidak terlalu efisien
- Arsitektur Mamba menawarkan solusi yang mendorong frontier Pareto antara efisiensi dan efektivitas
Mekanisme seleksi
- Selectivity memungkinkan setiap token diubah menjadi state sesuai kebutuhannya
- Mamba menjadikan matriks A, B, C sebagai fungsi dari x, sehingga tidak statis melainkan bergantung pada konteks
Masalah selectivity
- Penerapan mekanisme seleksi dapat membuat komputasi lebih lambat dibanding SSM non-selektif
- Melalui optimasi perangkat keras, Mamba dapat berjalan lebih cepat daripada Transformer dengan ukuran serupa
Machine learning dan ekonomi politik - seberapa besar ukuran state seharusnya?
- Trade-off efisiensi vs efektivitas pada model sekuens ditandai oleh seberapa baik model mengompresi state
- Representasi state itu penting, dan kuncinya adalah mengompresi state secara selektif dan dinamis
Aliran informasi pada Transformer vs Mamba
- Transformer belajar melalui data pelatihan dan data konteks
- Pada Mamba, data pelatihan dan data konteks dikompresi/disaring agar dapat diakses
Penggantian state sebagai paradigma prompting baru
- Dengan menggunakan model seperti Mamba, kita dapat berbagi pustaka state yang dihasilkan melalui data spesialis
- State memungkinkan pembelajaran konteks tak terbatas pada waktu inferensi tanpa backprop
Mamba dan interpretabilitas mekanistik
- Interpretabilitas Mamba berfokus pada pemahaman perpindahan informasi antar token
Apa berikutnya untuk Mamba dan SSM
- Model seperti Mamba kemungkinan akan unggul dalam skenario yang membutuhkan konteks sangat panjang dan memori jangka panjang
Agen dan keamanan AI
- Model bahasa pada dasarnya aman, tetapi kemungkinan penalaran sekuens jangka panjang kembali menegaskan pentingnya keamanan AI berbasis agen
Kolaborasi terbaik antara Transformer dan Mamba
- Menggabungkan konteks panjang Mamba dengan resolusi tinggi Transformer untuk sekuens pendek adalah hal yang bernilai
Opini GN⁺
- Mamba menawarkan alternatif yang efektif untuk menangani sekuens panjang dengan mengatasi bottleneck Transformer
- Teknologi ini dapat berguna khususnya di bidang seperti medis, genetika, dan pemrosesan bahasa alami, tempat sekuens data yang panjang sangat penting
- Diperlukan penelitian lebih lanjut untuk memastikan apakah mekanisme seleksi Mamba benar-benar efektif
- Selectivity pada Mamba dapat membantu menemukan keseimbangan antara akurasi tinggi dan efisiensi yang ditawarkan Transformer
Belum ada komentar.