Bonsai Image 4B - Model pembuat gambar 1-bit/ternary untuk perangkat lokal

(prismml.com)

3 poin oleh GN⁺ 2026-06-01 | 1 komentar | Bagikan ke WhatsApp

Keluarga model pembuat gambar kecil yang dirancang untuk menjalankan inferensi difusi berkualitas tinggi pada perangkat keras lokal seperti laptop dan ponsel
Mempertahankan arsitektur FLUX.2 Klein 4B sambil mengubah bobot diffusion transformer menjadi representasi 1-bit atau ternary
Ukuran diffusion transformer diperkecil dari 7.75GB pada versi asli menjadi 0.93GB untuk 1-bit dan 1.21GB untuk ternary, sehingga menurunkan beban anggaran memori
Menghasilkan gambar 512×512 dalam 9.4 detik di iPhone 17 Pro Max, dan sekitar 6 detik di Mac M4 Pro dengan kecepatan hingga 5.6× dibanding MFLUX
Varian ternary mempertahankan 95% performa dibanding FLUX.2 Klein 4B, dan kedua varian akan dirilis dengan bobot terbuka serta kode berlisensi Apache 2.0

Bonsai Image 4B untuk pembuatan gambar lokal

Bonsai Image 4B adalah keluarga model pembuat gambar kecil yang dirancang untuk menjalankan inferensi difusi berkualitas tinggi pada perangkat keras lokal, dari laptop hingga ponsel
Model ini berbasis FLUX.2 Klein 4B, dan mempertahankan arsitekturnya sambil mengubah bobot diffusion transformer ke bentuk 1-bit atau ternary
- 1-bit Bonsai Image 4B menggunakan bobot transformer biner {−1, +1} dan faktor penskalaan per grup FP16 untuk menyediakan 1.125 bit efektif per bobot
- Ternary Bonsai Image 4B menggunakan bobot transformer {−1, 0, +1} dan faktor penskalaan per grup FP16 untuk menyediakan 1.71 bit efektif per bobot
Varian ternary lebih besar daripada 1-bit, tetapi status 0 tambahan meningkatkan kualitas visual dan kesetiaan terhadap prompt
Melalui bobot terbuka dan inferensi lokal, Bonsai Image 4B menargetkan bentuk distribusi yang memungkinkan pembuatan gambar bahkan pada perangkat yang sebelumnya kesulitan menjalankan model di kelas ini
Menurut PrismML, Bonsai Image 4B adalah model gambar pertama di kelas parameter ini yang berjalan langsung di iPhone

Penghematan memori untuk eksekusi lokal

Batasan utama pembuatan gambar lokal adalah model harus muat dalam anggaran memori perangkat
Pada model gambar kelas 4B, diffusion transformer adalah bagian terbesar dari model dan dijalankan berulang pada setiap langkah denoising selama pembuatan
Ukuran transformer secara langsung memengaruhi tekanan memori, kebutuhan bandwidth, dan kecepatan inferensi lokal
Diffusion transformer FLUX.2 Klein 4B berukuran 7.75GB, sedangkan 1-bit Bonsai Image 4B berukuran 0.93GB dan Ternary Bonsai Image 4B berukuran 1.21GB
Varian 1-bit berukuran 8.3× lebih kecil dibanding FLUX.2 Klein 4B presisi penuh, dan varian ternary 6.4× lebih kecil
Layer biner itu sendiri menyusut sekitar 14× dibanding bobot transformer presisi penuh, tetapi sekitar 5% projection layer yang sensitif terhadap presisi tetap dipertahankan dalam FP16
Layer ternary memberikan pengurangan sekitar 10×, sehingga ukuran akhir transformer menjadi 1.21GB

Payload distribusi dan memori runtime

Payload distribusi Apple Silicon yang mencakup text encoder terkompresi dan VAE FP16 adalah 3.42GB untuk 1-bit dan 3.88GB untuk ternary
Payload distribusi FLUX.2 Klein 4B presisi penuh adalah 15.97GB
Saat runtime, text encoder di-offload setelah encoding prompt, sehingga penggunaan memori rata-rata menjadi lebih kecil daripada total payload
Untuk pembuatan gambar 512×512, rata-rata memori aktif adalah 1.5GB untuk 1-bit, 1.96GB untuk ternary, dan 11.74GB untuk FLUX.2 Klein 4B asli
Pada 512×512, tingkat pengurangan memori adalah 7.8× untuk 1-bit dan 6.0× untuk ternary
Untuk pembuatan gambar 1024×1024, rata-rata memori aktif adalah 1.95GB untuk 1-bit, 2.38GB untuk ternary, dan 14.39GB untuk FLUX.2 Klein 4B asli
Pada 1024×1024, tingkat pengurangan memori adalah 7.4× untuk 1-bit dan 6.0× untuk ternary

Perangkat keras yang didukung dan performa eksekusi

Stack distribusi mendukung Apple Silicon iPhone, iPad, Mac dan GPU CUDA
Pada perangkat keras Apple, model menggunakan jalur low-bit MLX, dan pada CUDA menggunakan kernel low-bit GEMM Gemlite
Di iPhone 17 Pro Max, pipeline FLUX.2 Klein 4B presisi penuh tidak muat dalam anggaran memori perangkat, tetapi kedua varian Bonsai Image dapat berjalan on-device
Bonsai Image 4B menghasilkan gambar 512×512 dalam 9.4 detik di iPhone 17 Pro Max
Di Mac M4 Pro, model menghasilkan gambar 512×512 dalam sekitar 6 detik
Di Mac M4 Pro, Bonsai Image 4B hingga 5.6× lebih cepat daripada pipeline MFLUX presisi penuh bawaan

Performa benchmark

Bonsai Image 4B dievaluasi dengan tiga benchmark: GenEval, HPSv3, dan DPG-Bench
GenEval mengevaluasi komposisi objek dan pengikatan atribut, HPSv3 mengevaluasi preferensi manusia dan kualitas estetika, sedangkan DPG-Bench mengevaluasi kepatuhan pada prompt yang padat dan kesetiaan semantik
Ternary Bonsai Image 4B mencatat GenEval 0.723, HPSv3 12.22, dan DPG-Bench 0.851 dengan diffusion transformer 1.21GB
Ternary Bonsai Image 4B mempertahankan 95% performa dibanding FLUX.2 Klein 4B sambil memperkecil ukuran diffusion transformer 6.4×
1-bit Bonsai Image 4B mencatat GenEval 0.671, HPSv3 11.15, dan DPG-Bench 0.822 dengan diffusion transformer 0.93GB
1-bit Bonsai Image 4B mempertahankan 88% performa dibanding FLUX.2 Klein 4B sambil menurunkan diffusion transformer ke bawah 1GB
FLUX.2 Klein 4B mencatat GenEval 0.819, HPSv3 12.84, dan DPG-Bench 0.853 dengan diffusion transformer 7.75GB
SDXL mencatat GenEval 0.3, HPSv3 10.05, dan DPG-Bench 0.74 dengan diffusion transformer 5.14GB, menunjukkan 67% performa dibanding FLUX.2 Klein 4B
BK-SDM-Small mencatat GenEval 0.297, HPSv3 3.05, dan DPG-Bench 0.559 dengan diffusion transformer 0.98GB, menunjukkan 42% performa dibanding FLUX.2 Klein 4B
Stable Diffusion 1.5 mencatat GenEval 0.396, HPSv3 4.2, dan DPG-Bench 0.601 dengan diffusion transformer 1.72GB, menunjukkan 51% performa dibanding FLUX.2 Klein 4B
PixArt-Σ XL 2 mencatat GenEval 0.541, HPSv3 11.93, dan DPG-Bench 0.769 dengan diffusion transformer 1.2GB, menunjukkan 83% performa dibanding FLUX.2 Klein 4B
Kedua varian Bonsai bersaing dengan model gambar modern kelas 4B sambil mempertahankan footprint diffusion transformer yang jauh lebih kecil
Performanya lebih tinggi daripada model yang lebih kecil dengan footprint memori serupa, sehingga membawa operasi diffusion transformer modern ke rentang memori yang sebelumnya ditempati model yang lebih kecil dan berperforma lebih rendah

Makna produk dari inferensi lokal

Pembuatan gambar tidak hanya ditentukan oleh kualitas model, tetapi juga oleh cara distribusinya
Cloud API tetap cocok untuk banyak produk, tetapi pembuatan yang hanya bergantung pada cloud membuat semua prompt menjadi permintaan jarak jauh, dan menambahkan biaya serving serta latensi bolak-balik pada setiap iterasi
Pembuatan gambar secara alami bersifat iteratif, sehingga pengguna akan mengubah prompt, membandingkan hasil, membuat variasi, membuang hasil yang gagal, lalu mencoba lagi
Jika setiap percobaan adalah pekerjaan sisi server, pengguna harus menghitung biaya dan menunggu pada setiap loop kreatif
Inferensi lokal memungkinkan fitur pembuatan ditempatkan langsung di dalam pengalaman produk setelah model berada di perangkat
Eksekusi lokal menurunkan biaya menjalankan model, mempercepat iterasi, dan lebih mudah digunakan di lingkungan yang membutuhkan prompt serta aset hasil pembuatan tetap privat
Bonsai Image 4B adalah langkah menuju cara distribusi pembuatan gambar yang berpindah ke posisi yang lebih dekat dengan pengguna, pada perangkat keras yang sudah mereka miliki

Cara rilis dan sumber daya

1-bit Bonsai Image 4B dan Ternary Bonsai Image 4B akan dirilis dengan bobot terbuka dan kode
Lisensinya adalah Apache 2.0
PrismML juga merilis aplikasi iOS Bonsai Studio yang memungkinkan pengguna mencoba Bonsai Image 4B langsung di iPhone
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub

1 komentar

GN⁺ 2026-06-01

Komentar Hacker News

20 tahun lalu, rasanya tidak ada yang membayangkan internet masa depan yang tidak bisa dipercaya soal apa yang kita lihat atau baca
Semoga suatu hari nanti kita bisa melihat era ini sebagai masa penyimpangan, seperti adegan di Mad Men ketika keluarga Draper meninggalkan sampah piknik di atas rumput lalu pergi
- 20 tahun lalu para guru berkata jangan pakai Wikipedia karena internet tidak bisa dipercaya untuk apa pun, dan jangan pernah berkencan dengan orang yang ditemui di aplikasi atau situs web. Katanya orang seperti itu 100% pembunuh, dan dulu juga ada ungkapan “internet itu buat porno”
  Seiring waktu, banyak hal justru membaik, dan orang-orang cenderung selalu melebih-lebihkan risiko sosial saat teknologi baru pertama kali muncul
- Adegan piknik itu: https://www.youtube.com/watch?v=FDIvzDGBLWU
- Sepertinya orang tidak ingat diskusi seputar Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science) saat itu
  Ini perusahaan spinout dari universitas yang bisa menulis artikel bisbol yang masuk akal hanya dari statistik, lalu kemudian artikel keuangan. Ini dianggap menguntungkan penggemar olahraga karena memungkinkan situs berita lokal menerbitkan artikel untuk setiap pertandingan, dan dipandang sebagai pendorong utama peningkatan traffic web, tetapi juga banyak dikritik karena bukan sesuatu yang “nyata”
  Artikel Slate tahun 2012 tentang ini: https://slate.com/technology/2012/03/narrative-science-robot...
  Sejak komputer ada, orang-orang sudah berusaha membuat komputer terdengar seperti manusia, dan kekhawatiran bahwa yang saya ajak bicara atau saya baca mungkin robot yang meniru manusia juga bukan hal baru
- Menyebutnya sebagai “masa penyimpangan” terasa seperti reaksi yang berlebihan
- Teks dan gambar selalu mengandung misinformasi, dan foto bisa dimanipulasi sejak fotografi itu sendiri ada
  Memang sekarang jauh lebih mudah, tetapi ini bukan perubahan yang sepenuhnya berbeda secara kualitatif. Mempercayai begitu saja apa yang dilihat di internet 20 tahun lalu pun akan sama konyolnya dengan sekarang
Saya benar-benar menantikan masa depan ketika alih-alih membayar langganan mahal, saya bisa meng-upgrade hardware untuk meng-upgrade AI saya
Ada banyak masalah yang ingin saya kerjakan yang membutuhkan miliaran token, dan saat ini itu pada praktiknya tidak terjangkau kecuali ada sponsor proyek perusahaan. Mesin generasi ASIC yang bisa mengeluarkan puluhan ribu token per detik dengan kualitas setingkat Opus 4.6 saja sudah cukup
- Ada perusahaan bernama Taalas yang sedang membuat sesuatu yang mirip. Kualitasnya belum setara Opus 4.6, tetapi tampaknya mereka menargetkan model yang lebih besar
  Saat ini mereka memakai model LLama 8B, berjalan di sekitar 17k token per detik, dan bisa diuji di https://chatjimmy.ai/
- Bisa beri satu contoh masalah seperti itu?
- Saya penasaran biaya hardware dan listriknya akan seperti apa dibandingkan dengan biaya langganan
- Secara logis, lima orang yang menggabungkan sumber daya akan lebih kuat daripada satu orang, jadi datacenter akan selalu menang
  Itu karena tingkat pemanfaatan waktunya lebih tinggi. Saya juga sering membayangkan hal yang sama, tetapi secara logis saya melihatnya sebagai fantasi. Rata-rata, Anda tidak bisa memakai hardware lebih banyak daripada keseluruhan kelompok yang memanfaatkannya dengan lebih baik
  Hardware pribadi juga akan membaik, tetapi yang paling mutakhir akan selalu ada di cloud
Saat melihat “1-bit”, hal pertama yang terlintas di pikiran saya bukan bobot model 1-bit, melainkan pembuatan gambar hitam-putih 1-bit dengan dithering
Jadi saya jadi penasaran seberapa keren, cepat, dan terkompresinya generator gambar difusi jika gambar latih dan ruang kerjanya dibatasi pada gambar 1-bit yang didither dengan Floyd-Steinberg, Atkinson, atau algoritme favorit lain
Pelatihannya mungkin akan cukup cepat, dan mungkin bahkan muat di satu GPU modern
- Tetap saja, rasanya lebih baik melatihnya dalam grayscale lalu melakukan dithering belakangan
- Saya juga memikirkan hal yang persis sama, dan kelihatannya ada cukup banyak ide menarik yang layak dieksplorasi di sini
Benar-benar penasaran, apakah ini menyelesaikan masalah nyata?
Saat memakai model difusi, menurut saya bottleneck-nya bukan ruang penyimpanan atau memori, melainkan waktu generasi. Banyak model bisa berjalan di GPU 8~12GB generasi 1080 atau di Mac dengan memori setara, dan dari sisi performa GPU itu sudah mendekati batas bawah. Selain itu, model-model ini tampaknya sedikit lebih lambat daripada model FLUX.2 kecil yang menjadi dasarnya
Tentu saja ini mungkin memungkinkan model lokal berjalan di perangkat seperti iPhone yang GPU-nya relatif kuat tetapi memorinya terbatas, tetapi apakah itu benar-benar kebutuhan yang umum?
- Ini kemajuan yang berguna. Jika inferensi skala lokal bisa menghasilkan kualitas yang lumayan, maka orang bisa membuat produk yang menghasilkan gambar yang sering dibuang tanpa perlu khawatir soal biaya
  Sejauh ini semua produk pembuatan gambar yang saya lihat berbasis bayar per pemakaian, jadi nilainya sangat terbatas. Hanya saja saya tidak tahu apakah ini benar-benar sudah mencapai titik “kualitas lumayan”
- Saat ini kita hidup di masa ketika permintaan GPU sangat tinggi dan pasokannya terbatas. Setiap kali inferensi didorong ke edge, sumber daya cloud jadi bebas untuk pekerjaan lain
  Setiap kali efisiensi meningkat, lebih banyak hal bisa dilakukan dengan sumber daya yang sama. Jika Anda bisa merender gambar dengan separuh komputasi, maka GPU yang dibutuhkan juga tinggal separuh
- GPU 8~12GB generasi 1080 atau Mac dengan memori setara bukanlah batas bawah. Kebanyakan orang memakai laptop atau perangkat mobile dengan performa GPU jauh lebih rendah daripada itu
- Nilai saat ini tampaknya lebih dekat ke nilai akademis daripada penggunaan praktis
  Bahkan model terdepan pun saat ini baru nyaris layak dipakai, dan untuk pembuatan gambar, bahkan model terbaik pun sering menghasilkan hasil yang buruk. Jadi model 1-bit kecil, yang kemampuannya pasti jauh di bawah model terdepan, menurut saya belum akan berguna dalam waktu dekat
  Namun, peningkatan besar dalam kepadatan kemampuan per unit komputasi tetap sangat berarti. Model terdepan bisa dijalankan dengan lebih baik dan lebih murah, konsumsi sumber daya bisa dikurangi, dan rentang pekerjaan yang bisa dilakukan di edge seperti laptop pribadi atau ponsel juga meluas
  Dari sudut pandang privasi juga ada banyak pekerjaan yang memang harus berjalan di perangkat, dan tidak semua orang punya GPU besar khusus
- Betul. Ukuran dan performa bukan hanya masalah untuk LLM lokal, tetapi juga bagi perusahaan LLM terdepan seperti OpenAI dan Anthropic
  Perusahaan seperti Anthropic masih menanggung kerugian besar pada inferensi, dan kemajuan model yang efisien sekaligus berkinerja baik membantu profitabilitas
Kalimat “Sejauh yang kami tahu, Bonsai Image 4B adalah model gambar pertama pada skala parameter tersebut yang berjalan langsung di iPhone” itu salah. Namun, kalimatnya dibuat hati-hati sehingga tidak sepenuhnya salah secara terang-terangan
FLUX.2 [klein] 4B, yaitu model dengan skala parameter yang sama dan pada dasarnya model yang sama, berjalan di iPhone melalui aplikasi Draw Things. Mereka memakai kuantisasi 8-bit atau 6-bit, jadi mungkin bisa dibilang itu tidak benar-benar “langsung”, tetapi petunjuk teknis seperti itu terasa cukup mencurigakan
Ini disebut model difusi, tetapi Flux.2 yang menjadi dasarnya adalah model rectified flow
- Secara pribadi, saya rasa tidak masalah memakai istilah “difusi” untuk menyebut seluruh keluarga model ini
Aneh. Saya pengunjung dari Inggris, dan yang muncul seperti ini:
Website Not Allowed
“⁦‪prismml.com‬⁩” is a restricted website.
Dalam sehari, seseorang akan melatih LoRA untuk model 1-bit ini agar bisa menghasilkan konten hentai di Apple Watch
Kalau ingin menjalankannya tanpa utak-atik filesystem lokal, pakai saja https://github.com/kordless/bonsai-docker
Saya mengekstrak kodenya dari demo web dan menempelkannya sebagai node pembuatan gambar web ke alat workflow AI di browser, dan hasilnya lumayan bagus
Saya sedang menunggu xenova menambahkannya ke transformersjs 4.3, lalu saya juga akan merilisnya. Saya tidak sabar menunggu pengujian, jadi saya coba duluan
- Bisa jelaskan “alat workflow AI di browser” itu? Saya mungkin juga sedang membuat sesuatu yang mirip, jadi saya sangat penasaran apa yang sedang dibangun orang lain di area ini

Bonsai Image 4B - Model pembuat gambar 1-bit/ternary untuk perangkat lokal

Bonsai Image 4B untuk pembuatan gambar lokal

Penghematan memori untuk eksekusi lokal

Payload distribusi dan memori runtime

Perangkat keras yang didukung dan performa eksekusi

Performa benchmark

Makna produk dari inferensi lokal

Cara rilis dan sumber daya

Bacaan terkait

1 komentar

Komentar Hacker News