Era LLM 1-Bit: Parameter Ternary untuk Komputasi yang Efisien Biaya

(arxiv.org)

17 poin oleh GN⁺ 2024-02-29 | 2 komentar | Bagikan ke WhatsApp

Era model bahasa besar 1-bit: semua model bahasa besar ada di 1,58 bit

Riset terbaru, BitNet, membuka era baru model bahasa besar (LLM) 1-bit.
Riset ini memperkenalkan BitNet b1.58, varian LLM 1-bit di mana setiap parameter tunggal (atau bobot) berbentuk ternary {-1, 0, 1}.
BitNet b1.58 menyamai Transformer LLM full-precision (misalnya FP16 atau BF16) dengan ukuran model dan token pelatihan yang sama dalam hal kompleksitas dan performa tugas akhir, sekaligus jauh lebih efisien biaya dari sisi latensi, memori, throughput, dan konsumsi energi.
Lebih jauh lagi, LLM 1,58-bit mendefinisikan hukum penskalaan dan resep baru untuk melatih generasi baru LLM yang berperforma tinggi sekaligus efisien biaya.
Ini juga membuka jalan bagi paradigma komputasi baru dan memungkinkan perancangan hardware khusus yang dioptimalkan untuk LLM 1-bit.

Opini GN⁺

LLM 1-bit memiliki potensi untuk secara signifikan mengurangi konsumsi energi dan biaya di bidang riset serta penerapan kecerdasan buatan dengan memungkinkan komputasi yang jauh lebih efisien dibanding model bahasa besar yang ada saat ini.
Agar teknologi ini benar-benar diadopsi secara luas, isu kompatibilitas dan integrasi dengan infrastruktur hardware dan software yang sudah ada akan menjadi pertimbangan penting.
Manfaat yang bisa diperoleh dari LLM 1-bit akan menjadi makin penting seiring bertambahnya ukuran dan kompleksitas model, dan ini akan sangat menarik terutama bagi developer yang ingin menggunakan teknologi AI di lingkungan dengan sumber daya terbatas.
Saat ini hardware khusus AI seperti TPU dari Google sudah ada, tetapi perancangan hardware khusus untuk LLM 1-bit dapat menciptakan peluang pasar baru.
Manfaat nyata dari penerapan teknologi ini adalah menurunkan konsumsi daya dan biaya sambil mempertahankan akurasi model serta kecepatan respons, tetapi dalam penerapan nyata tetap perlu mempertimbangkan perbedaan performa dengan model yang ada, masalah kompatibilitas, dan kebutuhan hardware baru.

2 komentar

kuroneko 2024-02-29

Ini sangat menarik. Saya tidak menyangka ternyata bisa dilakukan hanya dengan {-1, 0, 1}, bukan bilangan floating-point...
Saya jadi tidak sabar melihat bagaimana ini akan berkembang.

xguru 2024-02-29

Pendapat Hacker News

Dua temuan mengejutkan dari hasil riset:
- Nilai parameter pada model bahasa besar (LLM) yang ada dapat diganti dari bilangan riil menjadi sistem ternary (-1, 0, 1).
- Dalam perkalian matriks, perkalian per elemen pada setiap dot product dapat diganti dengan penjumlahan per elemen, dengan tanda yang berubah sesuai nilainya.
- Menggunakan metode ini pada hardware saat ini dapat sangat meningkatkan efisiensi komputasi dan memori, tanpa penurunan performa.
- Jika metode ini diimplementasikan pada hardware, peningkatan efisiensi yang lebih besar bisa dicapai.
Performa dan efisiensi BitNet b1.58:
- BitNet b1.58 menunjukkan performa yang setara dengan model acuan full-precision mulai dari ukuran 3B.
- Memungkinkan hukum scaling baru untuk performa model dan biaya inferensi.
- BitNet b1.58 13B lebih efisien daripada LLM FP16 3B dalam hal latensi, penggunaan memori, dan konsumsi energi.
- BitNet b1.58 30B lebih efisien daripada LLM FP16 7B, dan BitNet b1.58 70B lebih efisien daripada LLM FP16 13B.
- Makalah ini menunjukkan terobosan besar dalam efisiensi LLM, dengan peningkatan efisiensi yang dicapai tanpa penurunan performa.
Pertanyaan tentang kemungkinan mengonversi model yang sudah ada ke pendekatan baru ini, serta lelucon tentang harga saham NVIDIA.
Renungan tentang perlunya meninjau ulang peran transistor dalam bidang aplikasi AI:
- Dalam AI, pengurangan entropi bukan masalah besar, sehingga rentang tegangan yang tersedia seharusnya dimanfaatkan lebih jauh.
- Mengusulkan untuk memikirkan ulang peran transistor, dan bahwa gerbang NAND mungkin bukan blok penyusun yang paling mendasar.
Pemikiran tentang cara representasi baru yang dikaitkan dengan isi blog tentang representasi floating-point:
- Menjelaskan bahwa pembedaan antara +0.0 dan -0.0 dalam standar floating-point itu berguna.
- Menghubungkannya dengan nilai {-1, 0, -1} yang digunakan dalam makalah LLM, lalu mempertanyakan apakah representasi 2-bit {-1, -0, 0, 1} dapat memberi keuntungan tambahan.
- Rasa penasaran terhadap nilai kuantisasi 2-bit yang diusulkan dalam makalah kuantisasi LLM lainnya.
Keraguan tentang apakah hasil riset ini benar-benar nyata, lalu menyadari pentingnya hasil tersebut setelah memeriksa bahwa penulisnya berasal dari Microsoft Research dan UCAS:
- Hasilnya terlalu bagus sampai sempat diragukan keasliannya, lalu setelah memeriksa penulisnya disadari bahwa ini memang nyata.
- Diperkirakan akan menurunkan biaya penyediaan LLM berperforma tinggi di cloud, bukan hanya untuk aplikasi edge computing.
- Pemikiran tentang dampak ekonomi jangka panjang dan spekulasi mengenai kemungkinan munculnya pesaing baru.
Penjelasan tentang 'bit' dan 'trit' serta diskusi tentang kemungkinan teoretis komputasi ternary:
- Menggunakan istilah 'trit' alih-alih 'bit', serta penjelasan teoretis tentang potensi komputasi ternary.
- Menyebut riset Soviet tentang komputasi ternary dan radix e yang secara teoretis ideal.
Rencana pelatihan model baru dari GigaML dan ajakan kolaborasi:
- GigaML mengumumkan rencana untuk melatih model baru yang kompatibel dengan llama.cpp.
- Mereka berencana melatih model kecil (3-4B, 1-bit, open source) dengan dataset stack-v2 terbaru dan sedang mencari kolaborator.
Sudut pandang skeptis terhadap hasil tersebut dan penekanan pada perlunya reproduksi:
- Menyebut pandangan kritis terhadap peningkatan seperti ini dan pengalaman sebelumnya dengan percobaan kuantisasi ekstrem.
Kekaguman terhadap terobosan besar di bidang LLM dan kemungkinan menjalankan model 120B pada satu kartu:
- Kekaguman terhadap potensi menjalankan model 120B pada satu kartu dengan 24GB VRAM sambil tetap mencapai performa dan kompleksitas yang sama dengan model FP16.