Meta mengungkap Megabyte, arsitektur model AI inovatif

xguru · 2023-05-26T10:02:01+09:00

Dapat diskalakan agar memproses secara lebih efisien/paralel, melampaui arsitektur transformer yang digunakan model seperti GTP-4 Transformer cocok untuk sekuens pendek, tetapi sulit diperluas ke token panjang lebih dari 1 juta seperti gambar beresolusi tinggi, podcast, kode, dan buku Megabyte adalah arsitektur decoder multi-skala yang mampu memodelkan sekuens lebih dari 1 juta Membagi sekuens input dan output menjadi "Patch", bukan token individual Model AI lokal menghasilkan hasil untuk setiap patch, dan model global mengelola serta mengoordinasikan patch-patch ini Hasil pengujian menunjukkan model Megabyte yang menggunakan 1,5 miliar (1.5B) parameter menyusun sekuens 40% lebih cepat daripada model transformer yang berjalan dengan 350 juta (350M) parameter Hasil pengujian menunjukkan kemampuan hingga 1,2M token, jauh melampaui 32.000 token GPT-4 dan 100 ribu token Claude

(artisana.ai)

14 poin oleh xguru 2023-05-26 | 2 komentar | Bagikan ke WhatsApp

Dapat diskalakan agar memproses secara lebih efisien/paralel, melampaui arsitektur transformer yang digunakan model seperti GTP-4
Transformer cocok untuk sekuens pendek, tetapi sulit diperluas ke token panjang lebih dari 1 juta seperti gambar beresolusi tinggi, podcast, kode, dan buku
Megabyte adalah arsitektur decoder multi-skala yang mampu memodelkan sekuens lebih dari 1 juta
- Membagi sekuens input dan output menjadi "Patch", bukan token individual
- Model AI lokal menghasilkan hasil untuk setiap patch, dan model global mengelola serta mengoordinasikan patch-patch ini
Hasil pengujian menunjukkan model Megabyte yang menggunakan 1,5 miliar (1.5B) parameter menyusun sekuens 40% lebih cepat daripada model transformer yang berjalan dengan 350 juta (350M) parameter
Hasil pengujian menunjukkan kemampuan hingga 1,2M token, jauh melampaui 32.000 token GPT-4 dan 100 ribu token Claude

2 komentar

ninebow 2023-05-27

Tulisan pengantar tentang Megabyte yang ditulis oleh ENCORD, startup pengembang infrastruktur dan alat AI, telah diterjemahkan seperti di bawah ini dengan izin. :)

https://discuss.pytorch.kr/t/…

cosine20 2023-05-27

Ini juga ada di isi artikel, tetapi berikut tautan makalahnya: https://arxiv.org/abs/2305.07185

Meta mengungkap Megabyte, arsitektur model AI inovatif

Bacaan terkait

2 komentar