1 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Bonsai Image 4B adalah keluarga model pembuat gambar kecil yang dirancang untuk menjalankan inferensi difusi berkualitas tinggi pada perangkat keras lokal seperti laptop dan ponsel
  • Sambil mempertahankan arsitektur FLUX.2 Klein 4B, bobot diffusion transformer diubah menjadi representasi 1-bit atau ternary
  • Ukuran diffusion transformer diperkecil dari 7.75GB pada versi asli menjadi 0.93GB untuk 1-bit dan 1.21GB untuk ternary, sehingga mengurangi beban anggaran memori
  • Di iPhone 17 Pro Max, model ini menghasilkan gambar 512×512 dalam 9.4 detik, dan di Mac M4 Pro sekitar 6 detik serta hingga 5.6 kali lebih cepat dibanding MFLUX
  • Varian ternary mempertahankan 95% performa dibanding FLUX.2 Klein 4B, dan kedua variannya akan dirilis sebagai bobot terbuka dan kode berlisensi Apache 2.0

Bonsai Image 4B untuk pembuatan gambar lokal

  • Bonsai Image 4B adalah keluarga model pembuat gambar kecil yang dirancang untuk menjalankan inferensi difusi berkualitas tinggi pada perangkat keras lokal, dari laptop hingga ponsel
  • Model ini berbasis FLUX.2 Klein 4B, dan sambil mempertahankan arsitekturnya, bobot diffusion transformer diubah ke bentuk 1-bit atau ternary
    • 1-bit Bonsai Image 4B menggunakan bobot transformer biner {−1, +1} dan faktor penskalaan per grup FP16 untuk memberikan 1.125 bit efektif per bobot
    • Ternary Bonsai Image 4B menggunakan bobot transformer {−1, 0, +1} dan faktor penskalaan per grup FP16 untuk memberikan 1.71 bit efektif per bobot
  • Varian ternary lebih besar daripada 1-bit, tetapi status 0 yang ditambahkan meningkatkan kualitas visual dan kesetiaan terhadap prompt
  • Melalui bobot terbuka dan inferensi lokal, Bonsai Image 4B menargetkan bentuk distribusi yang memungkinkan pembuatan gambar bahkan di perangkat yang sebelumnya sulit menjalankan model kelas ini
  • Menurut PrismML, Bonsai Image 4B adalah model pertama di kelas parameter ini yang berjalan langsung di iPhone

Penghematan memori untuk eksekusi lokal

  • Batasan utama pembuatan gambar lokal adalah model harus muat dalam anggaran memori perangkat
  • Pada model gambar kelas 4B, diffusion transformer adalah bagian terbesar dari model dan dijalankan berulang pada setiap langkah denoising selama proses generasi
  • Ukuran transformer secara langsung memengaruhi tekanan memori, kebutuhan bandwidth, dan kecepatan inferensi lokal
  • Diffusion transformer FLUX.2 Klein 4B berukuran 7.75GB, sedangkan 1-bit Bonsai Image 4B berukuran 0.93GB dan Ternary Bonsai Image 4B 1.21GB
  • Varian 1-bit berukuran 8.3 kali lebih kecil daripada FLUX.2 Klein 4B presisi penuh, dan varian ternary 6.4 kali lebih kecil
  • Layer biner itu sendiri menyusut sekitar 14 kali dibanding bobot transformer presisi penuh, tetapi sekitar 5% projection layer yang sensitif terhadap presisi tetap dipertahankan dalam FP16
  • Layer ternary memberikan pengurangan sekitar 10 kali, sehingga ukuran akhir transformer menjadi 1.21GB

Payload distribusi dan memori runtime

  • Payload distribusi Apple Silicon yang mencakup text encoder terkompresi dan VAE FP16 adalah 3.42GB untuk 1-bit dan 3.88GB untuk ternary
  • Payload distribusi FLUX.2 Klein 4B presisi penuh adalah 15.97GB
  • Saat runtime, text encoder di-offload setelah encoding prompt, sehingga penggunaan memori rata-rata lebih kecil daripada payload penuh
  • Saat menghasilkan gambar 512×512, memori aktif rata-rata adalah 1.5GB untuk 1-bit, 1.96GB untuk ternary, dan 11.74GB untuk FLUX.2 Klein 4B asli
  • Berdasarkan 512×512, tingkat pengurangan memori adalah 7.8 kali untuk 1-bit dan 6.0 kali untuk ternary
  • Saat menghasilkan gambar 1024×1024, memori aktif rata-rata adalah 1.95GB untuk 1-bit, 2.38GB untuk ternary, dan 14.39GB untuk FLUX.2 Klein 4B asli
  • Berdasarkan 1024×1024, tingkat pengurangan memori adalah 7.4 kali untuk 1-bit dan 6.0 kali untuk ternary

Perangkat keras yang didukung dan performa eksekusi

  • Stack distribusi mendukung iPhone, iPad, dan Mac berbasis Apple Silicon serta GPU CUDA
  • Pada perangkat keras Apple, model ini menggunakan jalur low-bit MLX, dan pada CUDA menggunakan kernel GEMM low-bit Gemlite
  • Di iPhone 17 Pro Max, pipeline FLUX.2 Klein 4B presisi penuh tidak muat dalam anggaran memori perangkat, tetapi kedua varian Bonsai Image dapat berjalan on-device
  • Bonsai Image 4B menghasilkan gambar 512×512 dalam 9.4 detik di iPhone 17 Pro Max
  • Di Mac M4 Pro, model ini menghasilkan gambar 512×512 dalam sekitar 6 detik
  • Di Mac M4 Pro, Bonsai Image 4B hingga 5.6 kali lebih cepat daripada pipeline MFLUX presisi penuh standar

Performa benchmark

  • Bonsai Image 4B dievaluasi menggunakan tiga benchmark: GenEval, HPSv3, dan DPG-Bench
  • GenEval menilai komposisi objek dan pengikatan atribut, HPSv3 menilai preferensi manusia dan kualitas estetika, sedangkan DPG-Bench menilai kepatuhan terhadap prompt yang padat dan kesetiaan semantik
  • Ternary Bonsai Image 4B mencatat GenEval 0.723, HPSv3 12.22, dan DPG-Bench 0.851 dengan diffusion transformer 1.21GB
  • Ternary Bonsai Image 4B mempertahankan 95% performa dibanding FLUX.2 Klein 4B sambil memperkecil ukuran diffusion transformer 6.4 kali
  • 1-bit Bonsai Image 4B mencatat GenEval 0.671, HPSv3 11.15, dan DPG-Bench 0.822 dengan diffusion transformer 0.93GB
  • 1-bit Bonsai Image 4B mempertahankan 88% performa dibanding FLUX.2 Klein 4B sambil menurunkan diffusion transformer ke bawah 1GB
  • FLUX.2 Klein 4B mencatat GenEval 0.819, HPSv3 12.84, dan DPG-Bench 0.853 dengan diffusion transformer 7.75GB
  • SDXL mencatat GenEval 0.3, HPSv3 10.05, dan DPG-Bench 0.74 dengan diffusion transformer 5.14GB, menunjukkan 67% performa dibanding FLUX.2 Klein 4B
  • BK-SDM-Small mencatat GenEval 0.297, HPSv3 3.05, dan DPG-Bench 0.559 dengan diffusion transformer 0.98GB, menunjukkan 42% performa dibanding FLUX.2 Klein 4B
  • Stable Diffusion 1.5 mencatat GenEval 0.396, HPSv3 4.2, dan DPG-Bench 0.601 dengan diffusion transformer 1.72GB, menunjukkan 51% performa dibanding FLUX.2 Klein 4B
  • PixArt-Σ XL 2 mencatat GenEval 0.541, HPSv3 11.93, dan DPG-Bench 0.769 dengan diffusion transformer 1.2GB, menunjukkan 83% performa dibanding FLUX.2 Klein 4B
  • Kedua varian Bonsai bersaing dengan model gambar modern kelas 4B sambil mempertahankan footprint diffusion transformer yang jauh lebih kecil
  • Performanya lebih tinggi daripada model yang lebih kecil dengan footprint memori serupa, sehingga membawa operasi diffusion transformer modern ke kisaran memori yang sebelumnya ditempati model yang lebih kecil dan berperforma lebih rendah

Makna produk dari inferensi lokal

  • Pembuatan gambar tidak hanya ditentukan oleh kualitas model, tetapi juga oleh cara distribusinya
  • Cloud API tetap cocok untuk banyak produk, tetapi generasi yang hanya mengandalkan cloud membuat semua prompt menjadi permintaan jarak jauh dan menambahkan biaya serving serta latensi pulang-pergi pada setiap iterasi
  • Pembuatan gambar pada dasarnya bersifat iteratif, sehingga pengguna akan memperbaiki prompt, membandingkan hasil, membuat variasi, membuang hasil yang gagal, lalu mencoba lagi
  • Jika setiap percobaan adalah pekerjaan sisi server, pengguna harus menghitung biaya dan menunggu pada setiap loop kreatif
  • Inferensi lokal memungkinkan kemampuan generasi ditempatkan langsung di dalam pengalaman produk setelah model ada di perangkat
  • Eksekusi lokal menurunkan biaya operasi, meningkatkan kecepatan iterasi, dan mudah digunakan di lingkungan tempat prompt dan aset hasil generasi harus tetap privat
  • Bonsai Image 4B adalah satu langkah menuju cara distribusi pembuatan gambar yang bergerak lebih dekat ke pengguna, pada perangkat keras yang sudah mereka miliki

Metode rilis dan sumber daya

1 komentar

 
GN⁺ 2 jam lalu
Komentar Hacker News
  • 20 tahun lalu, rasanya tidak ada yang membayangkan internet masa depan yang tidak bisa dipercaya soal apa yang kita lihat atau baca
    Semoga suatu hari nanti kita bisa melihat era ini sebagai masa penyimpangan, seperti adegan di Mad Men ketika keluarga Draper meninggalkan sampah piknik di atas rumput lalu pergi

    • 20 tahun lalu para guru berkata jangan pakai Wikipedia karena internet tidak bisa dipercaya untuk apa pun, dan jangan pernah berkencan dengan orang yang ditemui di aplikasi atau situs web. Katanya orang seperti itu 100% pembunuh, dan dulu juga ada ungkapan “internet itu buat porno”
      Seiring waktu, banyak hal justru membaik, dan orang-orang cenderung selalu melebih-lebihkan risiko sosial saat teknologi baru pertama kali muncul
    • Adegan piknik itu: https://www.youtube.com/watch?v=FDIvzDGBLWU
    • Sepertinya orang tidak ingat diskusi seputar Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science) saat itu
      Ini perusahaan spinout dari universitas yang bisa menulis artikel bisbol yang masuk akal hanya dari statistik, lalu kemudian artikel keuangan. Ini dianggap menguntungkan penggemar olahraga karena memungkinkan situs berita lokal menerbitkan artikel untuk setiap pertandingan, dan dipandang sebagai pendorong utama peningkatan traffic web, tetapi juga banyak dikritik karena bukan sesuatu yang “nyata”
      Artikel Slate tahun 2012 tentang ini: https://slate.com/technology/2012/03/narrative-science-robot...
      Sejak komputer ada, orang-orang sudah berusaha membuat komputer terdengar seperti manusia, dan kekhawatiran bahwa yang saya ajak bicara atau saya baca mungkin robot yang meniru manusia juga bukan hal baru
    • Menyebutnya sebagai “masa penyimpangan” terasa seperti reaksi yang berlebihan
    • Teks dan gambar selalu mengandung misinformasi, dan foto bisa dimanipulasi sejak fotografi itu sendiri ada
      Memang sekarang jauh lebih mudah, tetapi ini bukan perubahan yang sepenuhnya berbeda secara kualitatif. Mempercayai begitu saja apa yang dilihat di internet 20 tahun lalu pun akan sama konyolnya dengan sekarang
  • Saya benar-benar menantikan masa depan ketika alih-alih membayar langganan mahal, saya bisa meng-upgrade hardware untuk meng-upgrade AI saya
    Ada banyak masalah yang ingin saya kerjakan yang membutuhkan miliaran token, dan saat ini itu pada praktiknya tidak terjangkau kecuali ada sponsor proyek perusahaan. Mesin generasi ASIC yang bisa mengeluarkan puluhan ribu token per detik dengan kualitas setingkat Opus 4.6 saja sudah cukup

    • Ada perusahaan bernama Taalas yang sedang membuat sesuatu yang mirip. Kualitasnya belum setara Opus 4.6, tetapi tampaknya mereka menargetkan model yang lebih besar
      Saat ini mereka memakai model LLama 8B, berjalan di sekitar 17k token per detik, dan bisa diuji di https://chatjimmy.ai/
    • Bisa beri satu contoh masalah seperti itu?
    • Saya penasaran biaya hardware dan listriknya akan seperti apa dibandingkan dengan biaya langganan
    • Secara logis, lima orang yang menggabungkan sumber daya akan lebih kuat daripada satu orang, jadi datacenter akan selalu menang
      Itu karena tingkat pemanfaatan waktunya lebih tinggi. Saya juga sering membayangkan hal yang sama, tetapi secara logis saya melihatnya sebagai fantasi. Rata-rata, Anda tidak bisa memakai hardware lebih banyak daripada keseluruhan kelompok yang memanfaatkannya dengan lebih baik
      Hardware pribadi juga akan membaik, tetapi yang paling mutakhir akan selalu ada di cloud
  • Saat melihat “1-bit”, hal pertama yang terlintas di pikiran saya bukan bobot model 1-bit, melainkan pembuatan gambar hitam-putih 1-bit dengan dithering
    Jadi saya jadi penasaran seberapa keren, cepat, dan terkompresinya generator gambar difusi jika gambar latih dan ruang kerjanya dibatasi pada gambar 1-bit yang didither dengan Floyd-Steinberg, Atkinson, atau algoritme favorit lain
    Pelatihannya mungkin akan cukup cepat, dan mungkin bahkan muat di satu GPU modern

    • Tetap saja, rasanya lebih baik melatihnya dalam grayscale lalu melakukan dithering belakangan
    • Saya juga memikirkan hal yang persis sama, dan kelihatannya ada cukup banyak ide menarik yang layak dieksplorasi di sini
  • Benar-benar penasaran, apakah ini menyelesaikan masalah nyata?
    Saat memakai model difusi, menurut saya bottleneck-nya bukan ruang penyimpanan atau memori, melainkan waktu generasi. Banyak model bisa berjalan di GPU 8~12GB generasi 1080 atau di Mac dengan memori setara, dan dari sisi performa GPU itu sudah mendekati batas bawah. Selain itu, model-model ini tampaknya sedikit lebih lambat daripada model FLUX.2 kecil yang menjadi dasarnya
    Tentu saja ini mungkin memungkinkan model lokal berjalan di perangkat seperti iPhone yang GPU-nya relatif kuat tetapi memorinya terbatas, tetapi apakah itu benar-benar kebutuhan yang umum?

    • Ini kemajuan yang berguna. Jika inferensi skala lokal bisa menghasilkan kualitas yang lumayan, maka orang bisa membuat produk yang menghasilkan gambar yang sering dibuang tanpa perlu khawatir soal biaya
      Sejauh ini semua produk pembuatan gambar yang saya lihat berbasis bayar per pemakaian, jadi nilainya sangat terbatas. Hanya saja saya tidak tahu apakah ini benar-benar sudah mencapai titik “kualitas lumayan”
    • Saat ini kita hidup di masa ketika permintaan GPU sangat tinggi dan pasokannya terbatas. Setiap kali inferensi didorong ke edge, sumber daya cloud jadi bebas untuk pekerjaan lain
      Setiap kali efisiensi meningkat, lebih banyak hal bisa dilakukan dengan sumber daya yang sama. Jika Anda bisa merender gambar dengan separuh komputasi, maka GPU yang dibutuhkan juga tinggal separuh
    • GPU 8~12GB generasi 1080 atau Mac dengan memori setara bukanlah batas bawah. Kebanyakan orang memakai laptop atau perangkat mobile dengan performa GPU jauh lebih rendah daripada itu
    • Nilai saat ini tampaknya lebih dekat ke nilai akademis daripada penggunaan praktis
      Bahkan model terdepan pun saat ini baru nyaris layak dipakai, dan untuk pembuatan gambar, bahkan model terbaik pun sering menghasilkan hasil yang buruk. Jadi model 1-bit kecil, yang kemampuannya pasti jauh di bawah model terdepan, menurut saya belum akan berguna dalam waktu dekat
      Namun, peningkatan besar dalam kepadatan kemampuan per unit komputasi tetap sangat berarti. Model terdepan bisa dijalankan dengan lebih baik dan lebih murah, konsumsi sumber daya bisa dikurangi, dan rentang pekerjaan yang bisa dilakukan di edge seperti laptop pribadi atau ponsel juga meluas
      Dari sudut pandang privasi juga ada banyak pekerjaan yang memang harus berjalan di perangkat, dan tidak semua orang punya GPU besar khusus
    • Betul. Ukuran dan performa bukan hanya masalah untuk LLM lokal, tetapi juga bagi perusahaan LLM terdepan seperti OpenAI dan Anthropic
      Perusahaan seperti Anthropic masih menanggung kerugian besar pada inferensi, dan kemajuan model yang efisien sekaligus berkinerja baik membantu profitabilitas
  • Kalimat “Sejauh yang kami tahu, Bonsai Image 4B adalah model gambar pertama pada skala parameter tersebut yang berjalan langsung di iPhone” itu salah. Namun, kalimatnya dibuat hati-hati sehingga tidak sepenuhnya salah secara terang-terangan
    FLUX.2 [klein] 4B, yaitu model dengan skala parameter yang sama dan pada dasarnya model yang sama, berjalan di iPhone melalui aplikasi Draw Things. Mereka memakai kuantisasi 8-bit atau 6-bit, jadi mungkin bisa dibilang itu tidak benar-benar “langsung”, tetapi petunjuk teknis seperti itu terasa cukup mencurigakan

  • Ini disebut model difusi, tetapi Flux.2 yang menjadi dasarnya adalah model rectified flow

    • Secara pribadi, saya rasa tidak masalah memakai istilah “difusi” untuk menyebut seluruh keluarga model ini
  • Aneh. Saya pengunjung dari Inggris, dan yang muncul seperti ini:
    Website Not Allowed
    “⁦‪prismml.com‬⁩” is a restricted website.

  • Dalam sehari, seseorang akan melatih LoRA untuk model 1-bit ini agar bisa menghasilkan konten hentai di Apple Watch

  • Kalau ingin menjalankannya tanpa utak-atik filesystem lokal, pakai saja https://github.com/kordless/bonsai-docker

  • Saya mengekstrak kodenya dari demo web dan menempelkannya sebagai node pembuatan gambar web ke alat workflow AI di browser, dan hasilnya lumayan bagus
    Saya sedang menunggu xenova menambahkannya ke transformersjs 4.3, lalu saya juga akan merilisnya. Saya tidak sabar menunggu pengujian, jadi saya coba duluan

    • Bisa jelaskan “alat workflow AI di browser” itu? Saya mungkin juga sedang membuat sesuatu yang mirip, jadi saya sangat penasaran apa yang sedang dibangun orang lain di area ini