1-bit Bonsai - LLM 1-bit pertama yang layak secara komersial

(prismml.com)

14 poin oleh GN⁺ 20 hari lalu | 2 komentar | Bagikan ke WhatsApp

PrismML, startup AI yang berawal dari riset Caltech, memperkenalkan model 1-bit Bonsai 8B dan mewujudkan inferensi AI praktis di smartphone serta perangkat edge dengan ukuran 1.15GB, sekitar 14x lebih kecil dibanding model 16-bit sekelas
Dengan desain 1-bit end-to-end yang sesungguhnya yang mencakup seluruh jaringan (embedding, attention, MLP, LM head) tanpa pengecualian, model ini mengatasi penurunan kualitas pada eksekusi instruksi, penalaran multilangkah, dan penggunaan tool yang selama ini dialami model low-bit
Berdasarkan metrik Intelligence Density, model ini mencapai 1.06/GB, sekitar 10.6x lebih unggul dibanding pesaing terdekat di kelas parameter yang sama (Qwen3 8B, 0.10/GB)
Berjalan pada 131 tok/s di M4 Pro Mac, 368 tok/s di RTX 4090, dan sekitar 44 tok/s di iPhone 17 Pro Max, dengan efisiensi energi sekitar 4~5x lebih baik daripada model 16-bit
Jika hardware khusus 1-bit dirancang, terbuka peluang peningkatan performa dan efisiensi dalam kelipatan satu digit tambahan, sehingga memperluas kategori deployment baru seperti AI on-device, robotika, dan enterprise keamanan

Latar belakang kemunculan PrismML dan 1-bit Bonsai

Selama 10 tahun terakhir, kemajuan AI bergerak ke arah membesarkan model (lebih banyak parameter, GPU, daya, memori, dan biaya)
Akibatnya, kecerdasan terbaik menjadi terkungkung dalam cluster skala besar dan infrastruktur khusus
Padahal, tempat yang membutuhkan AI tidak terbatas pada data center, melainkan juga smartphone, laptop, kendaraan, robot, enterprise keamanan, dan perangkat edge
PrismML bermula dari tim riset Caltech dan didirikan dengan dukungan Khosla Ventures, Cerberus, dan Google
PrismML menetapkan Intelligence Density — jumlah kecerdasan yang bisa diberikan per satuan ukuran model (GB) — sebagai metrik optimasi utama

Desain model 1-bit yang sesungguhnya

1-bit Bonsai 8B mengimplementasikan embedding, attention layer, MLP layer, dan LM head seluruhnya dalam 1-bit, serta mempertahankan struktur 1-bit penuh di seluruh 8,2 miliar parameter tanpa escape hatch presisi tinggi
Model low-bit sebelumnya mengalami kehilangan performa besar pada eksekusi instruksi, penalaran multilangkah, dan keandalan penggunaan tool, sehingga sulit dipakai sebagai fondasi produk nyata
Bonsai membuktikan bahwa model 1-bit juga bisa menjadi sistem lengkap tingkat produksi, bukan sekadar titik kompromi yang sempit

Pengukuran Intelligence Density

Intelligence Density didefinisikan sebagai nilai negatif log dari rata-rata tingkat error di berbagai benchmark, dibagi dengan ukuran model
Metrik ini mencerminkan tingkat kecerdasan yang lebih realistis dibanding sekadar rata-rata benchmark: perbaikan tambahan pada akurasi yang sudah tinggi diberi nilai lebih besar
1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — hasilnya bukan sekadar lebih baik, tetapi berada pada level yang berbeda
Bahkan pada rata-rata benchmark mentah, 1-bit Bonsai 8B tetap kompetitif melawan model-model utama kelas 8B, sementara jejak memorinya hanya 1.15GB, sekitar 12~14x lebih kecil dibanding model sekelas

Ukuran dan kecepatan

Dengan ukuran 1.15GB, model ini bisa berjalan di iPhone 17 Pro — sementara model 8B 16-bit sebelumnya tidak dapat dimuat di iPhone mana pun
Kecepatan inferensi per perangkat:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: sekitar 44 tok/s
Dalam simulasi tugas merangkum dan mengalokasikan 50 tiket, 1-bit Bonsai 8B memproses seluruh 50 tiket, sementara model 8B 16-bit pada kondisi yang sama hanya memproses 6
Pada workload agent jangka panjang, throughput yang lebih tinggi dan penggunaan memori yang lebih rendah memperluas jumlah pekerjaan yang benar-benar bisa ditangani agent

Efisiensi energi

1-bit Bonsai 8B mencapai efisiensi energi sekitar 4~5x lebih baik dibanding model full-precision 16-bit
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
Agar AI benar-benar menjadi infrastruktur fundamental, peningkatan besar dalam efisiensi energi adalah kebutuhan mutlak

Potensi hardware khusus 1-bit

Peningkatan performa saat ini terutama berasal dari jejak memori yang diperkecil milik model 1-bit, sementara pemanfaatan penuh struktur bobot 1-bit saat inferensi masih belum tercapai
Pada linear layer seperti MLP, bobot 1-bit memungkinkan operasi perkalian digantikan oleh penjumlahan
Jika hardware inferensi khusus 1-bit dirancang, performa dan efisiensi energi masih dapat ditingkatkan lagi dalam kelipatan satu digit

Model Bonsai 4B dan 1.7B

Dua model yang lebih kecil, 1-bit Bonsai 4B dan 1-bit Bonsai 1.7B, juga dirilis bersamaan
Dalam plot sebar intelligence vs size yang membandingkan 20 model instruct utama (rentang 1.2GB~16.4GB), seluruh keluarga Bonsai menggeser Pareto frontier lama jauh ke kiri
Pareto frontier sebelumnya terdiri dari Qwen3 0.6B, 1.7B, 4B, 8B, dan Ministral3 3B, tetapi keluarga Bonsai kini mendefinisikan frontier baru

Apa yang dimungkinkan oleh kecerdasan yang dipadatkan

Ketika model menjadi cukup kecil, cepat, dan efisien untuk berjalan on-device, ruang desain produk AI langsung berubah:
- Responsivitas meningkat: inferensi on-device berjalan tanpa latensi jaringan
- Privasi lebih kuat: data sensitif tidak keluar dari perangkat
- Keandalan meningkat: ketergantungan pada koneksi cloud terus-menerus berkurang
- Layak secara ekonomi: AI bisa digunakan bahkan di lingkungan tempat deployment sisi server sebelumnya mustahil karena biaya
Kategori baru yang terbuka: agent on-device persisten, robotika real-time, copilot enterprise keamanan, kecerdasan offline, dan produk AI-native untuk lingkungan dengan keterbatasan bandwidth, daya, atau regulasi

Dukungan platform dan cara rilis

1-bit Bonsai 8B mendukung eksekusi native di perangkat Apple (Mac, iPhone, iPad) melalui MLX dan di NVIDIA GPU melalui llama.cpp CUDA
Bobot model saat ini dirilis dengan lisensi Apache 2.0
Detail teknis lengkap dari proses training, evaluasi, dan benchmarking tersedia di whitepaper resmi

2 komentar

runableapp 20 hari lalu

Informasi yang bagus.

GN⁺ 20 hari lalu

Opini di Hacker News

Menekankan bahwa framing 1,125-bit (bobot 1-bit + skala 16-bit bersama per grup 128) adalah angka yang jujur secara teknis
Perlu dibedakan apakah yang dimaksud ‘layak secara komersial’ itu berdasarkan biaya inferensi, atau juga memungkinkan lewat fine-tuning
Jika ini model seperti paper BitNet milik Microsoft, yang dilatih sejak awal dengan target 1-bit, maka ini sepenuhnya berbeda dari model yang sekadar dikuantisasi
Khususnya, efisiensi inferensi pada hardware umum terasa jauh lebih menarik dibanding kuantisasi INT4
Namun benchmark-nya dibandingkan dengan model besar yang sudah dikuantisasi, sehingga inti klaim sebenarnya agak tertutupi
Ingin melihat apakah performanya tetap bertahan pada tugas yang membutuhkan penalaran multi-langkah
Menarik bahwa struktur 1-bit + skala FP16 (1 per 128 bit) bisa bekerja sebaik ini
Saya mencoba membuat tes halaman web lewat Cursor, dan kemampuan penggunaan alat-nya cukup mengesankan
Pada simulasi Monte Carlo untuk π, logikanya benar tetapi gagal membuat antarmuka, jadi perlu beberapa perbaikan manual
Hasil gambar pelikan sangat abstrak
Karena tidak ada demo resmi, saya membuka instance llama.cpp lokal
- Berkat tautan itu saya bisa mencobanya langsung, dan kecepatan respons-nya sangat cepat
  Saya mencoba berbagai permintaan seperti skrip R dan pembuatan rumus LaTeX, dan khususnya rumus Euler dibuat dengan sempurna
  Meski model 1-bit kecil, kepadatan pengetahuannya tinggi dan responsnya cepat
- Sebagai lulusan sejarah seni, saya sepenuhnya setuju dengan ide ‘pelikan naik sepeda’
- Tautan ngrok diblokir karena terlalu banyak trafik, jadi dibagikan versi Google Colab
- Penasaran apakah perlu fork llama.cpp dari Prism
- Rasanya seperti ChatGPT awal: sebagian besar benar, tapi kadang ngaco
  Jika ditambah ‘langkah berpikir’ atau penguatan berbasis pencarian, sepertinya akan jauh lebih berguna
Saya menjalankan benchmark debugging SQL buatan sendiri, dan hasilnya cukup mengesankan
Lulus 8 dari 25, gagal 0, error 17, jadi ada di antara Qwen3.5-4B dan Nanbeige4.1-3B
Seluruh tes selesai hanya dalam 200 detik, dan dari sisi kecepatan jauh lebih efisien daripada Granite 7B 4bit
Hasilnya bisa dilihat di situs benchmark SQL
- Saya juga memakai runpod milik @freakynit
  Secara pribadi saya menguji pembuatan aplikasi Pomodoro; kualitas akhirnya rendah, tetapi di area tertentu cukup berguna
  Kemampuan menulisnya juga lumayan bagus, dan menarik bahwa penggunaan em dash-nya sedikit
  Penulisan HTML-nya lemah, tetapi jika model 1-bit digabungkan dengan Ngram-embedding, rasanya ada banyak kemungkinan baru
  Juga dibagikan kode prototipe buatan sendiri
Dengan aplikasi Locally AI yang baru diperbarui, ini juga bisa dijalankan di iPhone
Untuk ukuran 1,2GB, performanya mengejutkan
Hasil SVG pelikan komentarnya bagus, tapi gambarnya kurang bagus
- Saya menemukan bahwa model kecil sangat lemah dalam konversi zona waktu
  Saya bertanya, “jam 9:30 pagi Waktu Standar Taiwan itu pukul berapa di Waktu Pasifik AS?”, dan tidak ada model yang bisa menjawab dengan benar
- Penasaran apakah pelikan itu memang diminta naik sepeda, atau modelnya menambahkannya secara kreatif
Model 8GiB dijalankan secara publik di RTX 3090 selama 5 jam
Dibagikan tautan server dan perintah menjalankannya
5 permintaan paralel, batas sekitar 13K token, penggunaan VRAM 4GiB
Performanya sangat cepat, termasuk keluaran pada 190t/s
- Disarankan agar cache KV dipertahankan tanpa kehilangan presisi
- Sangat menyenangkan berbicara dengan model ini
  Dalam contoh percakapan, saat ditanya apakah sebaiknya berjalan kaki atau berkendara ke tempat cuci mobil, model memberi jawaban yang kreatif
- Ada pembaruan bahwa server dimatikan karena spot instance berakhir
- Kagum dengan kecepatannya
- Juga dibagikan hasil Pastebin, sambil menyebut bahwa model lemah tidak akan menghasilkan keluaran seperti ini
Saya tidak punya GPU jadi menjalankannya di CPU, dan bahkan di laptop lama kecepatannya meningkat dari 0,6t/s → 12t/s setelah menambahkan AVX2
Rasanya performanya cukup bagus
- Ada umpan balik bahwa bahkan build AVX2 tetap lambat atau hanya menghasilkan output tak bermakna
  Penyebabnya ternyata langkah git checkout prism terlewat, dan setelah diperbaiki semuanya berjalan normal
- Bercanda bahwa ungkapan “not shabby” justru meremehkan
Saya rasa masa depan model besar akan bergerak ke unit bit alih-alih float
Sebagian besar nilai float terkonsentrasi di rentang sempit sehingga tidak efisien, dan pada akhirnya juga diimplementasikan sebagai operasi bit
Namun masalahnya adalah GPU dan fondasi teoretis saat ini disesuaikan untuk operasi bilangan riil
- Inferensi pada bit-width rendah itu mudah, tetapi pelatihannya sulit dan tidak stabil
  Alasan format float tetap bertahan adalah karena lebih cocok dengan stack GPU
- Paper ini bahkan melakukan pelatihan secara berbasis biner
  Paper itu memperkenalkan konsep ‘Boolean variation’, mendefinisikan diferensial dalam bentuk biner dan langsung melakukan backpropagation
Kemiripannya dengan spiking neural network menarik
Jaringan itu memakai komunikasi 1-bit berdasarkan ada atau tidaknya spike, sambil menggunakan potensial membran analog
Dengan 5 ribu neuron Izhikevich, mereka mengendalikan quadruped dan hasilnya lebih efisien daripada PPO
Efisiensi 1-bit adalah konsep yang melampaui LLM
Bertanya-tanya apakah rasio “-log error / model size” sekitar 1 berarti tingkat error sekitar 40%
Ditambahkan hitungan matematis bahwa error/model size = 1/e
Bonsai menyediakan model 8B dalam ukuran 1,15GB, jadi penasaran seberapa besar model 27B atau 35B nantinya
Jika scaling ini tetap berlaku, tampaknya bahkan model 100B bisa muat dalam RAM 64GB
- Namun biaya pelatihannya adalah masalah
  Kemungkinan besar biayanya setara model presisi penuh; kalau tidak, pasti itu sudah disebutkan

1-bit Bonsai - LLM 1-bit pertama yang layak secara komersial

Latar belakang kemunculan PrismML dan 1-bit Bonsai

Desain model 1-bit yang sesungguhnya

Pengukuran Intelligence Density

Ukuran dan kecepatan

Efisiensi energi

Potensi hardware khusus 1-bit

Model Bonsai 4B dan 1.7B

Apa yang dimungkinkan oleh kecerdasan yang dipadatkan

Dukungan platform dan cara rilis

Bacaan terkait

2 komentar

Opini di Hacker News