14 poin oleh GN⁺ 20 hari lalu | 2 komentar | Bagikan ke WhatsApp
  • PrismML, startup AI yang berawal dari riset Caltech, memperkenalkan model 1-bit Bonsai 8B dan mewujudkan inferensi AI praktis di smartphone serta perangkat edge dengan ukuran 1.15GB, sekitar 14x lebih kecil dibanding model 16-bit sekelas
  • Dengan desain 1-bit end-to-end yang sesungguhnya yang mencakup seluruh jaringan (embedding, attention, MLP, LM head) tanpa pengecualian, model ini mengatasi penurunan kualitas pada eksekusi instruksi, penalaran multilangkah, dan penggunaan tool yang selama ini dialami model low-bit
  • Berdasarkan metrik Intelligence Density, model ini mencapai 1.06/GB, sekitar 10.6x lebih unggul dibanding pesaing terdekat di kelas parameter yang sama (Qwen3 8B, 0.10/GB)
  • Berjalan pada 131 tok/s di M4 Pro Mac, 368 tok/s di RTX 4090, dan sekitar 44 tok/s di iPhone 17 Pro Max, dengan efisiensi energi sekitar 4~5x lebih baik daripada model 16-bit
  • Jika hardware khusus 1-bit dirancang, terbuka peluang peningkatan performa dan efisiensi dalam kelipatan satu digit tambahan, sehingga memperluas kategori deployment baru seperti AI on-device, robotika, dan enterprise keamanan

Latar belakang kemunculan PrismML dan 1-bit Bonsai

  • Selama 10 tahun terakhir, kemajuan AI bergerak ke arah membesarkan model (lebih banyak parameter, GPU, daya, memori, dan biaya)
  • Akibatnya, kecerdasan terbaik menjadi terkungkung dalam cluster skala besar dan infrastruktur khusus
  • Padahal, tempat yang membutuhkan AI tidak terbatas pada data center, melainkan juga smartphone, laptop, kendaraan, robot, enterprise keamanan, dan perangkat edge
  • PrismML bermula dari tim riset Caltech dan didirikan dengan dukungan Khosla Ventures, Cerberus, dan Google
  • PrismML menetapkan Intelligence Density — jumlah kecerdasan yang bisa diberikan per satuan ukuran model (GB) — sebagai metrik optimasi utama

Desain model 1-bit yang sesungguhnya

  • 1-bit Bonsai 8B mengimplementasikan embedding, attention layer, MLP layer, dan LM head seluruhnya dalam 1-bit, serta mempertahankan struktur 1-bit penuh di seluruh 8,2 miliar parameter tanpa escape hatch presisi tinggi
  • Model low-bit sebelumnya mengalami kehilangan performa besar pada eksekusi instruksi, penalaran multilangkah, dan keandalan penggunaan tool, sehingga sulit dipakai sebagai fondasi produk nyata
  • Bonsai membuktikan bahwa model 1-bit juga bisa menjadi sistem lengkap tingkat produksi, bukan sekadar titik kompromi yang sempit

Pengukuran Intelligence Density

  • Intelligence Density didefinisikan sebagai nilai negatif log dari rata-rata tingkat error di berbagai benchmark, dibagi dengan ukuran model
  • Metrik ini mencerminkan tingkat kecerdasan yang lebih realistis dibanding sekadar rata-rata benchmark: perbaikan tambahan pada akurasi yang sudah tinggi diberi nilai lebih besar
  • 1-bit Bonsai 8B: 1.06/GB, Qwen3 8B: 0.10/GB — hasilnya bukan sekadar lebih baik, tetapi berada pada level yang berbeda
  • Bahkan pada rata-rata benchmark mentah, 1-bit Bonsai 8B tetap kompetitif melawan model-model utama kelas 8B, sementara jejak memorinya hanya 1.15GB, sekitar 12~14x lebih kecil dibanding model sekelas

Ukuran dan kecepatan

  • Dengan ukuran 1.15GB, model ini bisa berjalan di iPhone 17 Pro — sementara model 8B 16-bit sebelumnya tidak dapat dimuat di iPhone mana pun
  • Kecepatan inferensi per perangkat:
    • M4 Pro Mac: 131 tok/s
    • RTX 4090: 368 tok/s
    • iPhone 17 Pro Max: sekitar 44 tok/s
  • Dalam simulasi tugas merangkum dan mengalokasikan 50 tiket, 1-bit Bonsai 8B memproses seluruh 50 tiket, sementara model 8B 16-bit pada kondisi yang sama hanya memproses 6
  • Pada workload agent jangka panjang, throughput yang lebih tinggi dan penggunaan memori yang lebih rendah memperluas jumlah pekerjaan yang benar-benar bisa ditangani agent

Efisiensi energi

  • 1-bit Bonsai 8B mencapai efisiensi energi sekitar 4~5x lebih baik dibanding model full-precision 16-bit
    • M4 Pro: 0.074 mWh/tok
    • iPhone 17 Pro Max: 0.068 mWh/tok
  • Agar AI benar-benar menjadi infrastruktur fundamental, peningkatan besar dalam efisiensi energi adalah kebutuhan mutlak

Potensi hardware khusus 1-bit

  • Peningkatan performa saat ini terutama berasal dari jejak memori yang diperkecil milik model 1-bit, sementara pemanfaatan penuh struktur bobot 1-bit saat inferensi masih belum tercapai
  • Pada linear layer seperti MLP, bobot 1-bit memungkinkan operasi perkalian digantikan oleh penjumlahan
  • Jika hardware inferensi khusus 1-bit dirancang, performa dan efisiensi energi masih dapat ditingkatkan lagi dalam kelipatan satu digit

Model Bonsai 4B dan 1.7B

  • Dua model yang lebih kecil, 1-bit Bonsai 4B dan 1-bit Bonsai 1.7B, juga dirilis bersamaan
  • Dalam plot sebar intelligence vs size yang membandingkan 20 model instruct utama (rentang 1.2GB~16.4GB), seluruh keluarga Bonsai menggeser Pareto frontier lama jauh ke kiri
  • Pareto frontier sebelumnya terdiri dari Qwen3 0.6B, 1.7B, 4B, 8B, dan Ministral3 3B, tetapi keluarga Bonsai kini mendefinisikan frontier baru

Apa yang dimungkinkan oleh kecerdasan yang dipadatkan

  • Ketika model menjadi cukup kecil, cepat, dan efisien untuk berjalan on-device, ruang desain produk AI langsung berubah:
    • Responsivitas meningkat: inferensi on-device berjalan tanpa latensi jaringan
    • Privasi lebih kuat: data sensitif tidak keluar dari perangkat
    • Keandalan meningkat: ketergantungan pada koneksi cloud terus-menerus berkurang
    • Layak secara ekonomi: AI bisa digunakan bahkan di lingkungan tempat deployment sisi server sebelumnya mustahil karena biaya
  • Kategori baru yang terbuka: agent on-device persisten, robotika real-time, copilot enterprise keamanan, kecerdasan offline, dan produk AI-native untuk lingkungan dengan keterbatasan bandwidth, daya, atau regulasi

Dukungan platform dan cara rilis

  • 1-bit Bonsai 8B mendukung eksekusi native di perangkat Apple (Mac, iPhone, iPad) melalui MLX dan di NVIDIA GPU melalui llama.cpp CUDA
  • Bobot model saat ini dirilis dengan lisensi Apache 2.0
  • Detail teknis lengkap dari proses training, evaluasi, dan benchmarking tersedia di whitepaper resmi

2 komentar

 
runableapp 20 hari lalu

Informasi yang bagus.

 
GN⁺ 20 hari lalu
Opini di Hacker News
  • Menekankan bahwa framing 1,125-bit (bobot 1-bit + skala 16-bit bersama per grup 128) adalah angka yang jujur secara teknis
    Perlu dibedakan apakah yang dimaksud ‘layak secara komersial’ itu berdasarkan biaya inferensi, atau juga memungkinkan lewat fine-tuning
    Jika ini model seperti paper BitNet milik Microsoft, yang dilatih sejak awal dengan target 1-bit, maka ini sepenuhnya berbeda dari model yang sekadar dikuantisasi
    Khususnya, efisiensi inferensi pada hardware umum terasa jauh lebih menarik dibanding kuantisasi INT4
    Namun benchmark-nya dibandingkan dengan model besar yang sudah dikuantisasi, sehingga inti klaim sebenarnya agak tertutupi
    Ingin melihat apakah performanya tetap bertahan pada tugas yang membutuhkan penalaran multi-langkah

  • Menarik bahwa struktur 1-bit + skala FP16 (1 per 128 bit) bisa bekerja sebaik ini
    Saya mencoba membuat tes halaman web lewat Cursor, dan kemampuan penggunaan alat-nya cukup mengesankan
    Pada simulasi Monte Carlo untuk π, logikanya benar tetapi gagal membuat antarmuka, jadi perlu beberapa perbaikan manual
    Hasil gambar pelikan sangat abstrak
    Karena tidak ada demo resmi, saya membuka instance llama.cpp lokal

    • Berkat tautan itu saya bisa mencobanya langsung, dan kecepatan respons-nya sangat cepat
      Saya mencoba berbagai permintaan seperti skrip R dan pembuatan rumus LaTeX, dan khususnya rumus Euler dibuat dengan sempurna
      Meski model 1-bit kecil, kepadatan pengetahuannya tinggi dan responsnya cepat
    • Sebagai lulusan sejarah seni, saya sepenuhnya setuju dengan ide ‘pelikan naik sepeda’
    • Tautan ngrok diblokir karena terlalu banyak trafik, jadi dibagikan versi Google Colab
    • Penasaran apakah perlu fork llama.cpp dari Prism
    • Rasanya seperti ChatGPT awal: sebagian besar benar, tapi kadang ngaco
      Jika ditambah ‘langkah berpikir’ atau penguatan berbasis pencarian, sepertinya akan jauh lebih berguna
  • Saya menjalankan benchmark debugging SQL buatan sendiri, dan hasilnya cukup mengesankan
    Lulus 8 dari 25, gagal 0, error 17, jadi ada di antara Qwen3.5-4B dan Nanbeige4.1-3B
    Seluruh tes selesai hanya dalam 200 detik, dan dari sisi kecepatan jauh lebih efisien daripada Granite 7B 4bit
    Hasilnya bisa dilihat di situs benchmark SQL

    • Saya juga memakai runpod milik @freakynit
      Secara pribadi saya menguji pembuatan aplikasi Pomodoro; kualitas akhirnya rendah, tetapi di area tertentu cukup berguna
      Kemampuan menulisnya juga lumayan bagus, dan menarik bahwa penggunaan em dash-nya sedikit
      Penulisan HTML-nya lemah, tetapi jika model 1-bit digabungkan dengan Ngram-embedding, rasanya ada banyak kemungkinan baru
      Juga dibagikan kode prototipe buatan sendiri
  • Dengan aplikasi Locally AI yang baru diperbarui, ini juga bisa dijalankan di iPhone
    Untuk ukuran 1,2GB, performanya mengejutkan
    Hasil SVG pelikan komentarnya bagus, tapi gambarnya kurang bagus

    • Saya menemukan bahwa model kecil sangat lemah dalam konversi zona waktu
      Saya bertanya, “jam 9:30 pagi Waktu Standar Taiwan itu pukul berapa di Waktu Pasifik AS?”, dan tidak ada model yang bisa menjawab dengan benar
    • Penasaran apakah pelikan itu memang diminta naik sepeda, atau modelnya menambahkannya secara kreatif
  • Model 8GiB dijalankan secara publik di RTX 3090 selama 5 jam
    Dibagikan tautan server dan perintah menjalankannya
    5 permintaan paralel, batas sekitar 13K token, penggunaan VRAM 4GiB
    Performanya sangat cepat, termasuk keluaran pada 190t/s

    • Disarankan agar cache KV dipertahankan tanpa kehilangan presisi
    • Sangat menyenangkan berbicara dengan model ini
      Dalam contoh percakapan, saat ditanya apakah sebaiknya berjalan kaki atau berkendara ke tempat cuci mobil, model memberi jawaban yang kreatif
    • Ada pembaruan bahwa server dimatikan karena spot instance berakhir
    • Kagum dengan kecepatannya
    • Juga dibagikan hasil Pastebin, sambil menyebut bahwa model lemah tidak akan menghasilkan keluaran seperti ini
  • Saya tidak punya GPU jadi menjalankannya di CPU, dan bahkan di laptop lama kecepatannya meningkat dari 0,6t/s → 12t/s setelah menambahkan AVX2
    Rasanya performanya cukup bagus

    • Ada umpan balik bahwa bahkan build AVX2 tetap lambat atau hanya menghasilkan output tak bermakna
      Penyebabnya ternyata langkah git checkout prism terlewat, dan setelah diperbaiki semuanya berjalan normal
    • Bercanda bahwa ungkapan “not shabby” justru meremehkan
  • Saya rasa masa depan model besar akan bergerak ke unit bit alih-alih float
    Sebagian besar nilai float terkonsentrasi di rentang sempit sehingga tidak efisien, dan pada akhirnya juga diimplementasikan sebagai operasi bit
    Namun masalahnya adalah GPU dan fondasi teoretis saat ini disesuaikan untuk operasi bilangan riil

    • Inferensi pada bit-width rendah itu mudah, tetapi pelatihannya sulit dan tidak stabil
      Alasan format float tetap bertahan adalah karena lebih cocok dengan stack GPU
    • Paper ini bahkan melakukan pelatihan secara berbasis biner
      Paper itu memperkenalkan konsep ‘Boolean variation’, mendefinisikan diferensial dalam bentuk biner dan langsung melakukan backpropagation
  • Kemiripannya dengan spiking neural network menarik
    Jaringan itu memakai komunikasi 1-bit berdasarkan ada atau tidaknya spike, sambil menggunakan potensial membran analog
    Dengan 5 ribu neuron Izhikevich, mereka mengendalikan quadruped dan hasilnya lebih efisien daripada PPO
    Efisiensi 1-bit adalah konsep yang melampaui LLM

  • Bertanya-tanya apakah rasio “-log error / model size” sekitar 1 berarti tingkat error sekitar 40%
    Ditambahkan hitungan matematis bahwa error/model size = 1/e

  • Bonsai menyediakan model 8B dalam ukuran 1,15GB, jadi penasaran seberapa besar model 27B atau 35B nantinya
    Jika scaling ini tetap berlaku, tampaknya bahkan model 100B bisa muat dalam RAM 64GB

    • Namun biaya pelatihannya adalah masalah
      Kemungkinan besar biayanya setara model presisi penuh; kalau tidak, pasti itu sudah disebutkan