14 poin oleh xguru 2023-05-26 | 2 komentar | Bagikan ke WhatsApp
  • Dapat diskalakan agar memproses secara lebih efisien/paralel, melampaui arsitektur transformer yang digunakan model seperti GTP-4
  • Transformer cocok untuk sekuens pendek, tetapi sulit diperluas ke token panjang lebih dari 1 juta seperti gambar beresolusi tinggi, podcast, kode, dan buku
  • Megabyte adalah arsitektur decoder multi-skala yang mampu memodelkan sekuens lebih dari 1 juta
    • Membagi sekuens input dan output menjadi "Patch", bukan token individual
    • Model AI lokal menghasilkan hasil untuk setiap patch, dan model global mengelola serta mengoordinasikan patch-patch ini
  • Hasil pengujian menunjukkan model Megabyte yang menggunakan 1,5 miliar (1.5B) parameter menyusun sekuens 40% lebih cepat daripada model transformer yang berjalan dengan 350 juta (350M) parameter
  • Hasil pengujian menunjukkan kemampuan hingga 1,2M token, jauh melampaui 32.000 token GPT-4 dan 100 ribu token Claude

2 komentar

 
ninebow 2023-05-27

Tulisan pengantar tentang Megabyte yang ditulis oleh ENCORD, startup pengembang infrastruktur dan alat AI, telah diterjemahkan seperti di bawah ini dengan izin. :)

https://discuss.pytorch.kr/t/…

 
cosine20 2023-05-27

Ini juga ada di isi artikel, tetapi berikut tautan makalahnya: https://arxiv.org/abs/2305.07185