Era model bahasa besar 1-bit: semua model bahasa besar ada di 1,58 bit
- Riset terbaru, BitNet, membuka era baru model bahasa besar (LLM) 1-bit.
- Riset ini memperkenalkan BitNet b1.58, varian LLM 1-bit di mana setiap parameter tunggal (atau bobot) berbentuk ternary {-1, 0, 1}.
- BitNet b1.58 menyamai Transformer LLM full-precision (misalnya FP16 atau BF16) dengan ukuran model dan token pelatihan yang sama dalam hal kompleksitas dan performa tugas akhir, sekaligus jauh lebih efisien biaya dari sisi latensi, memori, throughput, dan konsumsi energi.
- Lebih jauh lagi, LLM 1,58-bit mendefinisikan hukum penskalaan dan resep baru untuk melatih generasi baru LLM yang berperforma tinggi sekaligus efisien biaya.
- Ini juga membuka jalan bagi paradigma komputasi baru dan memungkinkan perancangan hardware khusus yang dioptimalkan untuk LLM 1-bit.
Opini GN⁺
- LLM 1-bit memiliki potensi untuk secara signifikan mengurangi konsumsi energi dan biaya di bidang riset serta penerapan kecerdasan buatan dengan memungkinkan komputasi yang jauh lebih efisien dibanding model bahasa besar yang ada saat ini.
- Agar teknologi ini benar-benar diadopsi secara luas, isu kompatibilitas dan integrasi dengan infrastruktur hardware dan software yang sudah ada akan menjadi pertimbangan penting.
- Manfaat yang bisa diperoleh dari LLM 1-bit akan menjadi makin penting seiring bertambahnya ukuran dan kompleksitas model, dan ini akan sangat menarik terutama bagi developer yang ingin menggunakan teknologi AI di lingkungan dengan sumber daya terbatas.
- Saat ini hardware khusus AI seperti TPU dari Google sudah ada, tetapi perancangan hardware khusus untuk LLM 1-bit dapat menciptakan peluang pasar baru.
- Manfaat nyata dari penerapan teknologi ini adalah menurunkan konsumsi daya dan biaya sambil mempertahankan akurasi model serta kecepatan respons, tetapi dalam penerapan nyata tetap perlu mempertimbangkan perbedaan performa dengan model yang ada, masalah kompatibilitas, dan kebutuhan hardware baru.
2 komentar
Ini sangat menarik. Saya tidak menyangka ternyata bisa dilakukan hanya dengan {-1, 0, 1}, bukan bilangan floating-point...
Saya jadi tidak sabar melihat bagaimana ini akan berkembang.
Pendapat Hacker News
Dua temuan mengejutkan dari hasil riset:
Performa dan efisiensi BitNet b1.58:
Pertanyaan tentang kemungkinan mengonversi model yang sudah ada ke pendekatan baru ini, serta lelucon tentang harga saham NVIDIA.
Renungan tentang perlunya meninjau ulang peran transistor dalam bidang aplikasi AI:
Pemikiran tentang cara representasi baru yang dikaitkan dengan isi blog tentang representasi floating-point:
Keraguan tentang apakah hasil riset ini benar-benar nyata, lalu menyadari pentingnya hasil tersebut setelah memeriksa bahwa penulisnya berasal dari Microsoft Research dan UCAS:
Penjelasan tentang 'bit' dan 'trit' serta diskusi tentang kemungkinan teoretis komputasi ternary:
Rencana pelatihan model baru dari GigaML dan ajakan kolaborasi:
Sudut pandang skeptis terhadap hasil tersebut dan penekanan pada perlunya reproduksi:
Kekaguman terhadap terobosan besar di bidang LLM dan kemungkinan menjalankan model 120B pada satu kartu: