- Byte Latent Transformer (BLT) adalah arsitektur baru untuk large language model (LLM) tingkat byte, yang mencapai performa setara dengan model berbasis tokenisasi sambil secara signifikan meningkatkan efisiensi inferensi dan ketahanan
- Byte dienkode menjadi patch berukuran dinamis, dengan patch berfungsi sebagai unit operasi utama
- Pembagian patch dinamis: mengalokasikan lebih banyak sumber daya komputasi pada data yang lebih kompleks berdasarkan entropi byte berikutnya
- Studi penskalaan pertama berbasis kontrol FLOP untuk model berbasis byte:
- Diskalakan hingga 8B (8 miliar) parameter dan 4 triliun (4T) byte pelatihan
- Mengonfirmasi kemungkinan melatih model pada byte mentah tanpa memerlukan vocabulary tetap
Hasil utama
- Pelatihan dan inferensi yang efisien:
- Memilih patch yang panjang saat data mudah diprediksi untuk mengurangi jumlah komputasi
- Model menyesuaikan patch secara dinamis sesuai kompleksitas untuk mengoptimalkan sumber daya
- Peningkatan penskalaan:
- Pada biaya inferensi tetap, memberikan performa lebih baik dibanding model berbasis tokenisasi
- Mencapai efisiensi penskalaan dengan meningkatkan ukuran patch dan ukuran model secara bersamaan
- Peningkatan performa kualitatif:
- Peningkatan kemampuan penalaran dan generalisasi: perbaikan kualitatif dalam penalaran berbasis alasan dan penanganan data langka (long-tail)
- Mengatasi keterbatasan pendekatan berbasis vocabulary tetap
Signifikansi
- BLT memproses byte mentah tanpa tokenisasi sekaligus membuktikan efisiensi pelatihan data dan model skala besar
- Menawarkan performa yang lebih unggul dibanding biaya inferensi, serta mengisyaratkan potensi generasi berikutnya dari LLM tingkat byte
- Khususnya saat menangani data kompleks, pendekatan patch dinamis menunjukkan kemungkinan menjadi standar baru untuk pemodelan adaptif
1 komentar
Komentar Hacker News
Saat BERT dirilis pada musim panas itu, saya bekerja di sebuah startup yang mengerjakan tugas klasifikasi dengan model CNN berbasis karakter. Rekan-rekan tim tertarik pada word vector, tetapi saya pikir itu bisa berujung gagal karena terlalu banyak kata di luar kosakata
Struktur hierarkisnya menarik, tetapi sayang hanya ada dua tingkat. Menambahkan lebih banyak tingkat bisa menjadi arah riset berikutnya
Model kecil digunakan untuk menghasilkan patch dengan memprediksi kemungkinan karakter berikutnya dalam string input
Sampling adalah bagian sulit dari LLM, tetapi juga membuka penggunaan menarik seperti memaksa model selalu mengeluarkan JSON yang valid atau menyesuaikan temperatur untuk mendapatkan distribusi yang beragam
Ada pertanyaan apakah AI bisa dipra-latih dengan file biner
Ada pertanyaan apakah tokenisasi bisa dibuat implisit sehingga model hanya diberi byte (atau karakter)
Kutipan terkait dari Karpathy: tokenisasi adalah pusat dari banyak keanehan pada LLM
Ini adalah model yang terdiri dari 3 komponen
Cara mengelompokkan byte
Ada keunggulan dibanding tokenisasi byte pair pada LLM saat ini
Saya pikir kita seharusnya memasuki masa stagnasi