- PrismML, startup AI yang berawal dari riset Caltech, memperkenalkan model 1-bit Bonsai 8B dan mewujudkan inferensi AI praktis di smartphone serta perangkat edge dengan ukuran 1.15GB, sekitar 14x lebih kecil dibanding model 16-bit sekelas
- Dengan desain 1-bit end-to-end yang sesungguhnya yang mencakup seluruh jaringan (embedding, attention, MLP, LM head) tanpa pengecualian, model ini mengatasi penurunan kualitas pada eksekusi instruksi, penalaran multilangkah, dan penggunaan tool yang selama ini dialami model low-bit
- Berdasarkan metrik Intelligence Density, model ini mencapai 1.06/GB, sekitar 10.6x lebih unggul dibanding pesaing terdekat di kelas parameter yang sama (Qwen3 8B, 0.10/GB)
- Berjalan pada 131 tok/s di M4 Pro Mac, 368 tok/s di RTX 4090, dan sekitar 44 tok/s di iPhone 17 Pro Max, dengan efisiensi energi sekitar 4~5x lebih baik daripada model 16-bit
- Jika hardware khusus 1-bit dirancang, terbuka peluang peningkatan performa dan efisiensi dalam kelipatan satu digit tambahan, sehingga memperluas kategori deployment baru seperti AI on-device, robotika, dan enterprise keamanan
Latar belakang kemunculan PrismML dan 1-bit Bonsai
- Selama 10 tahun terakhir, kemajuan AI bergerak ke arah membesarkan model (lebih banyak parameter, GPU, daya, memori, dan biaya)
- Akibatnya, kecerdasan terbaik menjadi terkungkung dalam cluster skala besar dan infrastruktur khusus
- Padahal, tempat yang membutuhkan AI tidak terbatas pada data center, melainkan juga smartphone, laptop, kendaraan, robot, enterprise keamanan, dan perangkat edge
- PrismML bermula dari tim riset Caltech dan didirikan dengan dukungan Khosla Ventures, Cerberus, dan Google
- PrismML menetapkan Intelligence Density — jumlah kecerdasan yang bisa diberikan per satuan ukuran model (GB) — sebagai metrik optimasi utama
Desain model 1-bit yang sesungguhnya
- 1-bit Bonsai 8B mengimplementasikan embedding, attention layer, MLP layer, dan LM head seluruhnya dalam 1-bit, serta mempertahankan struktur 1-bit penuh di seluruh 8,2 miliar parameter tanpa escape hatch presisi tinggi
- Model low-bit sebelumnya mengalami kehilangan performa besar pada eksekusi instruksi, penalaran multilangkah, dan keandalan penggunaan tool, sehingga sulit dipakai sebagai fondasi produk nyata
- Bonsai membuktikan bahwa model 1-bit juga bisa menjadi sistem lengkap tingkat produksi, bukan sekadar titik kompromi yang sempit
Pengukuran Intelligence Density
- Intelligence Density didefinisikan sebagai nilai negatif log dari rata-rata tingkat error di berbagai benchmark, dibagi dengan ukuran model
- Metrik ini mencerminkan tingkat kecerdasan yang lebih realistis dibanding sekadar rata-rata benchmark: perbaikan tambahan pada akurasi yang sudah tinggi diberi nilai lebih besar
- 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — hasilnya bukan sekadar lebih baik, tetapi berada pada level yang berbeda
- Bahkan pada rata-rata benchmark mentah, 1-bit Bonsai 8B tetap kompetitif melawan model-model utama kelas 8B, sementara jejak memorinya hanya 1.15GB, sekitar 12~14x lebih kecil dibanding model sekelas
Ukuran dan kecepatan
- Dengan ukuran 1.15GB, model ini bisa berjalan di iPhone 17 Pro — sementara model 8B 16-bit sebelumnya tidak dapat dimuat di iPhone mana pun
- Kecepatan inferensi per perangkat:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: sekitar 44 tok/s
- Dalam simulasi tugas merangkum dan mengalokasikan 50 tiket, 1-bit Bonsai 8B memproses seluruh 50 tiket, sementara model 8B 16-bit pada kondisi yang sama hanya memproses 6
- Pada workload agent jangka panjang, throughput yang lebih tinggi dan penggunaan memori yang lebih rendah memperluas jumlah pekerjaan yang benar-benar bisa ditangani agent
Efisiensi energi
- 1-bit Bonsai 8B mencapai efisiensi energi sekitar 4~5x lebih baik dibanding model full-precision 16-bit
- M4 Pro: 0.074 mWh/tok
- iPhone 17 Pro Max: 0.068 mWh/tok
- Agar AI benar-benar menjadi infrastruktur fundamental, peningkatan besar dalam efisiensi energi adalah kebutuhan mutlak
Potensi hardware khusus 1-bit
- Peningkatan performa saat ini terutama berasal dari jejak memori yang diperkecil milik model 1-bit, sementara pemanfaatan penuh struktur bobot 1-bit saat inferensi masih belum tercapai
- Pada linear layer seperti MLP, bobot 1-bit memungkinkan operasi perkalian digantikan oleh penjumlahan
- Jika hardware inferensi khusus 1-bit dirancang, performa dan efisiensi energi masih dapat ditingkatkan lagi dalam kelipatan satu digit
Model Bonsai 4B dan 1.7B
- Dua model yang lebih kecil, 1-bit Bonsai 4B dan 1-bit Bonsai 1.7B, juga dirilis bersamaan
- Dalam plot sebar intelligence vs size yang membandingkan 20 model instruct utama (rentang 1.2GB~16.4GB), seluruh keluarga Bonsai menggeser Pareto frontier lama jauh ke kiri
- Pareto frontier sebelumnya terdiri dari Qwen3 0.6B, 1.7B, 4B, 8B, dan Ministral3 3B, tetapi keluarga Bonsai kini mendefinisikan frontier baru
Apa yang dimungkinkan oleh kecerdasan yang dipadatkan
- Ketika model menjadi cukup kecil, cepat, dan efisien untuk berjalan on-device, ruang desain produk AI langsung berubah:
- Responsivitas meningkat: inferensi on-device berjalan tanpa latensi jaringan
- Privasi lebih kuat: data sensitif tidak keluar dari perangkat
- Keandalan meningkat: ketergantungan pada koneksi cloud terus-menerus berkurang
- Layak secara ekonomi: AI bisa digunakan bahkan di lingkungan tempat deployment sisi server sebelumnya mustahil karena biaya
- Kategori baru yang terbuka: agent on-device persisten, robotika real-time, copilot enterprise keamanan, kecerdasan offline, dan produk AI-native untuk lingkungan dengan keterbatasan bandwidth, daya, atau regulasi
Dukungan platform dan cara rilis
- 1-bit Bonsai 8B mendukung eksekusi native di perangkat Apple (Mac, iPhone, iPad) melalui MLX dan di NVIDIA GPU melalui llama.cpp CUDA
- Bobot model saat ini dirilis dengan lisensi Apache 2.0
- Detail teknis lengkap dari proses training, evaluasi, dan benchmarking tersedia di whitepaper resmi
2 komentar
Informasi yang bagus.
Opini di Hacker News
Menekankan bahwa framing 1,125-bit (bobot 1-bit + skala 16-bit bersama per grup 128) adalah angka yang jujur secara teknis
Perlu dibedakan apakah yang dimaksud ‘layak secara komersial’ itu berdasarkan biaya inferensi, atau juga memungkinkan lewat fine-tuning
Jika ini model seperti paper BitNet milik Microsoft, yang dilatih sejak awal dengan target 1-bit, maka ini sepenuhnya berbeda dari model yang sekadar dikuantisasi
Khususnya, efisiensi inferensi pada hardware umum terasa jauh lebih menarik dibanding kuantisasi INT4
Namun benchmark-nya dibandingkan dengan model besar yang sudah dikuantisasi, sehingga inti klaim sebenarnya agak tertutupi
Ingin melihat apakah performanya tetap bertahan pada tugas yang membutuhkan penalaran multi-langkah
Menarik bahwa struktur 1-bit + skala FP16 (1 per 128 bit) bisa bekerja sebaik ini
Saya mencoba membuat tes halaman web lewat Cursor, dan kemampuan penggunaan alat-nya cukup mengesankan
Pada simulasi Monte Carlo untuk π, logikanya benar tetapi gagal membuat antarmuka, jadi perlu beberapa perbaikan manual
Hasil gambar pelikan sangat abstrak
Karena tidak ada demo resmi, saya membuka instance llama.cpp lokal
Saya mencoba berbagai permintaan seperti skrip R dan pembuatan rumus LaTeX, dan khususnya rumus Euler dibuat dengan sempurna
Meski model 1-bit kecil, kepadatan pengetahuannya tinggi dan responsnya cepat
Jika ditambah ‘langkah berpikir’ atau penguatan berbasis pencarian, sepertinya akan jauh lebih berguna
Saya menjalankan benchmark debugging SQL buatan sendiri, dan hasilnya cukup mengesankan
Lulus 8 dari 25, gagal 0, error 17, jadi ada di antara Qwen3.5-4B dan Nanbeige4.1-3B
Seluruh tes selesai hanya dalam 200 detik, dan dari sisi kecepatan jauh lebih efisien daripada Granite 7B 4bit
Hasilnya bisa dilihat di situs benchmark SQL
Secara pribadi saya menguji pembuatan aplikasi Pomodoro; kualitas akhirnya rendah, tetapi di area tertentu cukup berguna
Kemampuan menulisnya juga lumayan bagus, dan menarik bahwa penggunaan em dash-nya sedikit
Penulisan HTML-nya lemah, tetapi jika model 1-bit digabungkan dengan Ngram-embedding, rasanya ada banyak kemungkinan baru
Juga dibagikan kode prototipe buatan sendiri
Dengan aplikasi Locally AI yang baru diperbarui, ini juga bisa dijalankan di iPhone
Untuk ukuran 1,2GB, performanya mengejutkan
Hasil SVG pelikan komentarnya bagus, tapi gambarnya kurang bagus
Saya bertanya, “jam 9:30 pagi Waktu Standar Taiwan itu pukul berapa di Waktu Pasifik AS?”, dan tidak ada model yang bisa menjawab dengan benar
Model 8GiB dijalankan secara publik di RTX 3090 selama 5 jam
Dibagikan tautan server dan perintah menjalankannya
5 permintaan paralel, batas sekitar 13K token, penggunaan VRAM 4GiB
Performanya sangat cepat, termasuk keluaran pada 190t/s
Dalam contoh percakapan, saat ditanya apakah sebaiknya berjalan kaki atau berkendara ke tempat cuci mobil, model memberi jawaban yang kreatif
Saya tidak punya GPU jadi menjalankannya di CPU, dan bahkan di laptop lama kecepatannya meningkat dari 0,6t/s → 12t/s setelah menambahkan AVX2
Rasanya performanya cukup bagus
Penyebabnya ternyata langkah
git checkout prismterlewat, dan setelah diperbaiki semuanya berjalan normalSaya rasa masa depan model besar akan bergerak ke unit bit alih-alih float
Sebagian besar nilai float terkonsentrasi di rentang sempit sehingga tidak efisien, dan pada akhirnya juga diimplementasikan sebagai operasi bit
Namun masalahnya adalah GPU dan fondasi teoretis saat ini disesuaikan untuk operasi bilangan riil
Alasan format float tetap bertahan adalah karena lebih cocok dengan stack GPU
Paper itu memperkenalkan konsep ‘Boolean variation’, mendefinisikan diferensial dalam bentuk biner dan langsung melakukan backpropagation
Kemiripannya dengan spiking neural network menarik
Jaringan itu memakai komunikasi 1-bit berdasarkan ada atau tidaknya spike, sambil menggunakan potensial membran analog
Dengan 5 ribu neuron Izhikevich, mereka mengendalikan quadruped dan hasilnya lebih efisien daripada PPO
Efisiensi 1-bit adalah konsep yang melampaui LLM
Bertanya-tanya apakah rasio “-log error / model size” sekitar 1 berarti tingkat error sekitar 40%
Ditambahkan hitungan matematis bahwa error/model size = 1/e
Bonsai menyediakan model 8B dalam ukuran 1,15GB, jadi penasaran seberapa besar model 27B atau 35B nantinya
Jika scaling ini tetap berlaku, tampaknya bahkan model 100B bisa muat dalam RAM 64GB
Kemungkinan besar biayanya setara model presisi penuh; kalau tidak, pasti itu sudah disebutkan