- Dapat diskalakan agar memproses secara lebih efisien/paralel, melampaui arsitektur transformer yang digunakan model seperti GTP-4
- Transformer cocok untuk sekuens pendek, tetapi sulit diperluas ke token panjang lebih dari 1 juta seperti gambar beresolusi tinggi, podcast, kode, dan buku
- Megabyte adalah arsitektur decoder multi-skala yang mampu memodelkan sekuens lebih dari 1 juta
- Membagi sekuens input dan output menjadi "Patch", bukan token individual
- Model AI lokal menghasilkan hasil untuk setiap patch, dan model global mengelola serta mengoordinasikan patch-patch ini
- Hasil pengujian menunjukkan model Megabyte yang menggunakan 1,5 miliar (1.5B) parameter menyusun sekuens 40% lebih cepat daripada model transformer yang berjalan dengan 350 juta (350M) parameter
- Hasil pengujian menunjukkan kemampuan hingga 1,2M token, jauh melampaui 32.000 token GPT-4 dan 100 ribu token Claude
2 komentar
Tulisan pengantar tentang Megabyte yang ditulis oleh ENCORD, startup pengembang infrastruktur dan alat AI, telah diterjemahkan seperti di bawah ini dengan izin. :)
https://discuss.pytorch.kr/t/…
Ini juga ada di isi artikel, tetapi berikut tautan makalahnya: https://arxiv.org/abs/2305.07185