1 poin oleh GN⁺ 2024-12-15 | 1 komentar | Bagikan ke WhatsApp
  • Byte Latent Transformer (BLT) adalah arsitektur baru untuk large language model (LLM) tingkat byte, yang mencapai performa setara dengan model berbasis tokenisasi sambil secara signifikan meningkatkan efisiensi inferensi dan ketahanan
  • Byte dienkode menjadi patch berukuran dinamis, dengan patch berfungsi sebagai unit operasi utama
    • Pembagian patch dinamis: mengalokasikan lebih banyak sumber daya komputasi pada data yang lebih kompleks berdasarkan entropi byte berikutnya
  • Studi penskalaan pertama berbasis kontrol FLOP untuk model berbasis byte:
    • Diskalakan hingga 8B (8 miliar) parameter dan 4 triliun (4T) byte pelatihan
    • Mengonfirmasi kemungkinan melatih model pada byte mentah tanpa memerlukan vocabulary tetap

Hasil utama

  1. Pelatihan dan inferensi yang efisien:
    • Memilih patch yang panjang saat data mudah diprediksi untuk mengurangi jumlah komputasi
    • Model menyesuaikan patch secara dinamis sesuai kompleksitas untuk mengoptimalkan sumber daya
  2. Peningkatan penskalaan:
    • Pada biaya inferensi tetap, memberikan performa lebih baik dibanding model berbasis tokenisasi
    • Mencapai efisiensi penskalaan dengan meningkatkan ukuran patch dan ukuran model secara bersamaan
  3. Peningkatan performa kualitatif:
    • Peningkatan kemampuan penalaran dan generalisasi: perbaikan kualitatif dalam penalaran berbasis alasan dan penanganan data langka (long-tail)
    • Mengatasi keterbatasan pendekatan berbasis vocabulary tetap

Signifikansi

  • BLT memproses byte mentah tanpa tokenisasi sekaligus membuktikan efisiensi pelatihan data dan model skala besar
  • Menawarkan performa yang lebih unggul dibanding biaya inferensi, serta mengisyaratkan potensi generasi berikutnya dari LLM tingkat byte
  • Khususnya saat menangani data kompleks, pendekatan patch dinamis menunjukkan kemungkinan menjadi standar baru untuk pemodelan adaptif

1 komentar

 
GN⁺ 2024-12-15
Komentar Hacker News
  • Saat BERT dirilis pada musim panas itu, saya bekerja di sebuah startup yang mengerjakan tugas klasifikasi dengan model CNN berbasis karakter. Rekan-rekan tim tertarik pada word vector, tetapi saya pikir itu bisa berujung gagal karena terlalu banyak kata di luar kosakata

    • Bahkan pada "model dasar", kata di luar kosakata juga menjadi masalah
    • Kami mendapatkan hasil yang lumayan dengan model berbasis karakter, tetapi ada pendapat bahwa menyimpan "kamus" di dalam jaringan saraf itu tidak efisien
    • Saya begitu yakin pendekatan seperti Word2Vec akan gagal sehingga saya meninggalkan proyek sebelumnya
    • Ketika byte pair encoding diperkenalkan, saya mengatakan bahwa itu adalah metode tokenisasi pertama yang bisa saya dukung
    • Saya ingin bisa bekerja dengan label karakter. Saya punya penolakan terhadap tokenizer
  • Struktur hierarkisnya menarik, tetapi sayang hanya ada dua tingkat. Menambahkan lebih banyak tingkat bisa menjadi arah riset berikutnya

    • Perlu berhati-hati dalam membagi anggaran FLOP di setiap tingkat
    • Kita perlu menemukan cara untuk mengelompokkan patch ke unit yang lebih besar
  • Model kecil digunakan untuk menghasilkan patch dengan memprediksi kemungkinan karakter berikutnya dalam string input

    • Contoh: kemungkinan karakter berikutnya bisa 100% adalah 'a', atau masing-masing 10% untuk 'a' dan 'b'
    • Estimasi karakter itu kemudian digabungkan menjadi patch (atau token)
  • Sampling adalah bagian sulit dari LLM, tetapi juga membuka penggunaan menarik seperti memaksa model selalu mengeluarkan JSON yang valid atau menyesuaikan temperatur untuk mendapatkan distribusi yang beragam

    • Dalam BLT, bisa dibayangkan metode yang memberi masukan tambahan ke decoder berupa byte yang diizinkan/dilarang, lalu mengulang decoding sampai mendapatkan keluaran yang valid
  • Ada pertanyaan apakah AI bisa dipra-latih dengan file biner

  • Ada pertanyaan apakah tokenisasi bisa dibuat implisit sehingga model hanya diberi byte (atau karakter)

  • Kutipan terkait dari Karpathy: tokenisasi adalah pusat dari banyak keanehan pada LLM

    • Alasan LLM tidak bisa mengeja kata adalah tokenisasi
    • Alasan LLM tidak bisa melakukan tugas pemrosesan string sederhana adalah tokenisasi
    • Alasan LLM lemah pada bahasa non-Inggris adalah tokenisasi
    • Alasan LLM lemah pada aritmetika sederhana adalah tokenisasi
    • Alasan GPT-2 mengalami kesulitan yang tidak perlu dalam coding Python adalah tokenisasi
    • Alasan LLM tiba-tiba berhenti saat melihat string "<|endoftext|>" adalah tokenisasi
    • Alasan muncul peringatan "trailing whitespace" adalah tokenisasi
    • Alasan LLM rusak saat ditanya tentang "SolidGoldMagikarp" adalah tokenisasi
    • Alasan YAML sebaiknya lebih dipilih daripada JSON pada LLM adalah tokenisasi
    • Alasan LLM sebenarnya tidak melakukan language modeling secara end-to-end adalah tokenisasi
    • Sumber penderitaan yang sesungguhnya adalah tokenisasi
  • Ini adalah model yang terdiri dari 3 komponen

    • Encoder: menerima kelompok byte dan menghasilkan status tersembunyi/encoding yang disebut patch
    • Transformer: memproses encoding patch secara autoregresif
    • Decoder: mengeluarkan encoding yang telah diproses transformer sebagai byte
    • Loss didasarkan pada cross-entropy antar-byte (prediksi byte berikutnya)
  • Cara mengelompokkan byte

    • Menggunakan ambang entropi: jika entropi dari urutan byte lebih rendah dari ambang, maka dikelompokkan
    • Ini adalah model yang dipelajari dari data
  • Ada keunggulan dibanding tokenisasi byte pair pada LLM saat ini

    • Encoder/decoder berfungsi sebagai metode tokenisasi yang "dapat dipelajari"
    • Trade-off efisiensinya lebih baik (untuk urutan byte yang dapat diprediksi, encoder dapat "mengalihkan" beban komputasi dari transformer utama)
    • Sejarah menunjukkan bahwa sistem yang dipelajari secara end-to-end melampaui mekanisme yang dirancang manusia
  • Saya pikir kita seharusnya memasuki masa stagnasi