11 poin oleh GN⁺ 2024-02-27 | Belum ada komentar. | Bagikan ke WhatsApp

Mamba adalah Model Ruang Status (State Space Model) yang menantang Transformer

  • AI saat ini mendominasi dunia, dan di pusatnya ada Transformer
  • Mamba termasuk dalam kelas model alternatif yang disebut model ruang status (SSM)
  • Mamba memiliki performa dan skalabilitas yang mirip dengan Transformer, sambil tetap dapat dijalankan pada panjang sekuens yang besar
  • Poin pentingnya adalah Mamba menghilangkan "hambatan kuadratik" dari "mekanisme attention", sehingga memungkinkan konteks yang panjang
  • Mamba berjalan hingga 5 kali lebih cepat daripada Transformer

Masalah Transformer - attention saja mungkin tidak cukup

  • Transformer memungkinkan semua token merujuk ke token sebelumnya, sehingga model menjadi lebih lambat saat konteks membesar
  • Penyimpanan KV cache ini juga memerlukan kompleksitas ruang O(n)
  • Ada teknik untuk mengurangi bottleneck Transformer yang ada saat ini, tetapi untuk solusi mendasar dibutuhkan pendekatan yang berbeda

Backbone model dasar

  • Dua komponen penting dari backbone arsitektur ML yang baik
    • Komunikasi (Communication) antar token
    • Komputasi (Computation) di dalam token
  • Blok Transformer terdiri dari attention dan MLP
  • Mamba menggunakan SSM yang terinspirasi dari teori kontrol untuk komunikasi, dan mempertahankan proyeksi bergaya MLP untuk komputasi

Motivasi Mamba - kembali ke Temple Run

  • State mengacu pada variabel yang diperlukan untuk menentukan perilaku masa depan suatu sistem
  • State adalah kompresi dari semua hal yang perlu diketahui tentang masa lalu, dan diubah menjadi proses keputusan Markov

Diskretisasi - hidup di dunia yang terkuantisasi

  • Proses mengubah persamaan diferensial waktu kontinu menjadi persamaan beda waktu diskret disebut diskretisasi (discretisation)
  • Mamba menggunakan diskretisasi zero-order hold (ZOH)

Memahami matriks SSM

  • Matriks A, B, C, D berperan dalam transisi state, memetakan input baru ke state, memetakan state ke output SSM, dan meneruskan input baru ke output

Efisiensi vs efektivitas: Attention adalah fokus, Selectivity adalah prioritisasi

  • Transformer sangat efektif, tetapi tidak terlalu efisien
  • Arsitektur Mamba menawarkan solusi yang mendorong frontier Pareto antara efisiensi dan efektivitas

Mekanisme seleksi

  • Selectivity memungkinkan setiap token diubah menjadi state sesuai kebutuhannya
  • Mamba menjadikan matriks A, B, C sebagai fungsi dari x, sehingga tidak statis melainkan bergantung pada konteks

Masalah selectivity

  • Penerapan mekanisme seleksi dapat membuat komputasi lebih lambat dibanding SSM non-selektif
  • Melalui optimasi perangkat keras, Mamba dapat berjalan lebih cepat daripada Transformer dengan ukuran serupa

Machine learning dan ekonomi politik - seberapa besar ukuran state seharusnya?

  • Trade-off efisiensi vs efektivitas pada model sekuens ditandai oleh seberapa baik model mengompresi state
  • Representasi state itu penting, dan kuncinya adalah mengompresi state secara selektif dan dinamis

Aliran informasi pada Transformer vs Mamba

  • Transformer belajar melalui data pelatihan dan data konteks
  • Pada Mamba, data pelatihan dan data konteks dikompresi/disaring agar dapat diakses

Penggantian state sebagai paradigma prompting baru

  • Dengan menggunakan model seperti Mamba, kita dapat berbagi pustaka state yang dihasilkan melalui data spesialis
  • State memungkinkan pembelajaran konteks tak terbatas pada waktu inferensi tanpa backprop

Mamba dan interpretabilitas mekanistik

  • Interpretabilitas Mamba berfokus pada pemahaman perpindahan informasi antar token

Apa berikutnya untuk Mamba dan SSM

  • Model seperti Mamba kemungkinan akan unggul dalam skenario yang membutuhkan konteks sangat panjang dan memori jangka panjang

Agen dan keamanan AI

  • Model bahasa pada dasarnya aman, tetapi kemungkinan penalaran sekuens jangka panjang kembali menegaskan pentingnya keamanan AI berbasis agen

Kolaborasi terbaik antara Transformer dan Mamba

  • Menggabungkan konteks panjang Mamba dengan resolusi tinggi Transformer untuk sekuens pendek adalah hal yang bernilai

Opini GN⁺

  • Mamba menawarkan alternatif yang efektif untuk menangani sekuens panjang dengan mengatasi bottleneck Transformer
  • Teknologi ini dapat berguna khususnya di bidang seperti medis, genetika, dan pemrosesan bahasa alami, tempat sekuens data yang panjang sangat penting
  • Diperlukan penelitian lebih lanjut untuk memastikan apakah mekanisme seleksi Mamba benar-benar efektif
  • Selectivity pada Mamba dapat membantu menemukan keseimbangan antara akurasi tinggi dan efisiensi yang ditawarkan Transformer

Belum ada komentar.

Belum ada komentar.