Model Qwen 30 miliar parameter yang berjalan real-time di Raspberry Pi

(byteshape.com)

22 poin oleh GN⁺ 2026-01-07 | 1 komentar | Bagikan ke WhatsApp

Model Qwen3-30B-A3B-Instruct-2507 berjalan secara real-time di Raspberry Pi 5 (16GB), mempertahankan 8,03 TPS dan 94,18% kualitas BF16
Melalui metode pembelajaran panjang bit ShapeLearn dari ByteShape, keseimbangan antara kecepatan dan kualitas dioptimalkan dalam batas memori tiap perangkat
Dibandingkan Unsloth dan MagicQuant, model ini mencapai TPS lebih tinggi pada kualitas yang sama, atau kualitas lebih tinggi pada TPS yang sama
Pada CPU dan GPU (terutama RTX 5090·4080), sekitar 4-bit menjadi rentang performa optimal, dan menurunkan jumlah bit tidak selalu membuatnya lebih cepat
Secara keseluruhan, model ByteShape menghadirkan performa efisien dari edge hingga data center lewat pendekatan “melihat memori sebagai anggaran lalu mengoptimalkan TPS/kualitas”

Gambaran umum optimasi berbasis ShapeLearn

ByteShape melakukan optimasi dengan fokus pada kecepatan dan kualitas respons yang benar-benar dirasakan pengguna saat model dijalankan
- ShapeLearn mempelajari tipe data bobot tiap tensor (bitlength) untuk memaksimalkan TPS (token per detik) dan kualitas output secara bersamaan
- Tujuannya bukan sekadar mengecilkan ukuran file, melainkan meningkatkan keseimbangan nyata antara kecepatan dan kualitas
Di lingkungan llama.cpp, menurunkan jumlah bit tidak selalu meningkatkan kecepatan, dan pemilihan kernel serta overhead sangat memengaruhi performa
ByteShape memandang memori sebagai “anggaran agar cukup muat”, lalu setelah itu melakukan penyesuaian dengan fokus pada TPS dan kualitas

Performa Raspberry Pi 5

Pada Raspberry Pi 5 (16GB), model 30B mempertahankan 8,5 TPS dan akurasi di atas 92%
- Model Q3_K_S-2.70bpw [KQ-2] memberikan kecepatan respons setingkat percakapan real-time
Pada model yang memprioritaskan akurasi, ByteShape mencapai tingkat kesalahan hingga 1,87 kali lebih rendah dibanding Unsloth, dengan galat relatif 1,1~1,3% (sekitar 98,8% akurasi)
- Dalam lingkungan yang sama, model ini mempertahankan 5~6 TPS, cocok untuk tugas yang berfokus pada akurasi
Model yang memprioritaskan kecepatan (Q3_K_S-3.25bpw [KQ-5]) juga lebih kecil dan lebih cepat dibanding Unsloth, sambil tetap unggul dalam akurasi
Banyak model dari Unsloth dan MagicQuant tidak dapat dijalankan di lingkungan Pi karena keterbatasan memori

Performa Intel i7 (64GB)

Dalam lingkungan tempat semua model muat di memori, ByteShape mencapai kualitas dan TPS yang lebih tinggi dibanding Unsloth dan MagicQuant
Rentang berfokus pada kualitas: model IQ4_XS-4.67bpw [KQ-9] dari ByteShape memperoleh tingkat kesalahan 1,44 kali lebih rendah dibanding Q6_K milik Unsloth, sekaligus mencatat TPS lebih tinggi
Rentang seimbang: model Q3_K_S-3.25bpw dari ByteShape memiliki tingkat kesalahan 1,73 kali lebih rendah daripada Unsloth, serta unggul dalam akurasi maupun kecepatan dibanding MagicQuant
Hanya ByteShape yang sekaligus mencakup area 26+ TPS dan area berkualitas tinggi

Perbandingan performa GPU (RTX 5090 / RTX 4080)

Di GPU, pemilihan kernel dan efisiensi akses VRAM menentukan performa
- Sekitar 4-bit (~4bpw) terkonfirmasi sebagai sweet spot untuk TPS dan kualitas
RTX 5090 (32GB)
- Unsloth, MagicQuant, dan ByteShape sama-sama mencatat 302~303 TPS dengan akurasi 98,4~98,9% pada rentang 4b
- Model IQ4_XS-4.67bpw dari ByteShape mencapai akurasi tertinggi dengan 272,98 TPS dan 99,75% akurasi
- Model ini unggul atas Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) dan MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%)
RTX 4080 (16GB)
- Karena keterbatasan VRAM, model 4b tidak dapat digunakan, dan ByteShape tetap lebih unggul daripada Unsloth dalam TPS maupun akurasi pada kondisi 16GB yang sama
- ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% akurasi
  - Dibanding Unsloth Q3_K_XL, model ini mencatat tingkat kesalahan 1,59 kali lebih rendah dan TPS 9,4% lebih tinggi
  - Dibanding Unsloth IQ2_M, model ini memiliki tingkat kesalahan 2,54 kali lebih rendah

Paradoks jumlah bit dan kecepatan

Bahkan jika diturunkan ke 3-bit atau kurang, peningkatan kecepatan tidak dijamin
- GPU bekerja dalam unit warp 32-thread dan dioptimalkan untuk format data serta pola akses tertentu
- VRAM dibaca dalam blok yang disejajarkan per 32 byte, sehingga data yang lebih kecil tetap memakai bandwidth yang sama
- Lebar bit yang rendah justru bisa memperlambat karena peningkatan overhead decoding
Contoh: di RTX 5090, iq4_xs membutuhkan 54µs, sedangkan iq3_xxs membutuhkan 62µs → pengurangan ukuran 25% berujung pada penurunan kecepatan 13%
ShapeLearn memilih tipe data per tensor dengan mempertimbangkan karakteristik hardware ini, agar kecepatan dan akurasi sama-sama tercapai

Metode evaluasi dan kesimpulan

Semua model diukur dengan harness evaluasi yang sama untuk TPS dan skor kualitas ternormalisasi (dibanding BF16)
- Evaluasi kualitas menggabungkan hasil MMLU, GSM8K, IFEval, LiveCodeBench V4
Kesimpulan utama:
- “Perlakukan memori bukan sebagai tujuan, melainkan sebagai kendala.”
- Setelah model termuat di perangkat, yang penting berikutnya adalah kurva keseimbangan antara TPS dan kualitas
- ByteShape pada semua perangkat mencapai lebih cepat pada kualitas yang sama, atau kualitas lebih tinggi pada kecepatan yang sama
Di Raspberry Pi 5, model Q3_K_S-2.70bpw [KQ-2] cocok untuk percakapan real-time
Prinsip yang sama juga berlaku di lingkungan CPU dan GPU besar: “Pastikan dulu muat, lalu optimalkan.”
ByteShape berencana terus merilis lebih banyak model yang dioptimalkan per perangkat ke depannya

1 komentar

GN⁺ 2026-01-07

Komentar Hacker News

Saya rasa ada peluang pasar besar di sini
Yang saya inginkan adalah asisten suara seperti Alexa, tetapi berupa sistem dengan komponen standar yang berbasis inferensi lokal dan penyimpanan lokal
- Perangkat percakapan: perangkat ala Alexa/Google/Apple atau perangkat input TV dengan speaker bagus dan kontrol suara. Akan lebih baik jika juga bisa berfungsi sebagai extender Wi-Fi atau router. Saya ingin menaruh satu di setiap ruangan untuk membuat jaringan mesh sungguhan
- Server cloud rumahan: perangkat dengan CPU murah, sedikit RAM, dan penyimpanan yang cukup, yang menjadi node pusat untuk mengelola aplikasi rumah dan backup jaringan
- Mesin inferensi: sebaiknya dapat mengiklankan layanan dengan cara standar, lalu node pengendali terhubung otomatis. Saya ingin lingkungan plug-and-play yang langsung berfungsi begitu dicolok
  Intinya adalah privasi dan interoperabilitas. Jika perlu mendaftar akun atau terhubung ke server eksternal, saya tidak akan membelinya. Saya ingin perintah seperti “Freddy, set timer 10 menit” diproses secara lokal
- Memang belum ada produk yang benar-benar plug-and-play, tetapi saya mendapatkan hasil yang cukup baik dengan Home Assistant dan Voice Preview Edition-nya
  Strukturnya adalah menaruh beberapa perangkat murah Wi-Fi + mikrofon + speaker di seluruh rumah, lalu pemrosesan suara dilakukan pada box pusat yang lebih bertenaga
  Pada akhirnya ini bekerja seperti satu program, jadi jika menambahkan kartu Wi-Fi ke mesin yang sedikit lebih kuat, itu juga bisa berfungsi sebagai extender Wi-Fi
- Saya juga setuju dengan ide ini. Saya kesulitan membuat koneksi suara ke ChatGPT berjalan mulus di Home Assistant (HA)
  Saya juga tidak suka konsep wake word. Rasanya masih banyak bagian dari seluruh stack yang perlu diperbaiki
- Dan akan menarik juga jika sistem seperti ini diterapkan pada mainan
Saya penasaran apakah ada referensi bagus untuk membandingkan berbagai model dengan mudah
Saya tahu perbedaan jumlah parameter antara gpt-oss-20b dan gpt-oss-120b, tetapi saya tidak benar-benar paham seberapa besar perbedaan performa nyatanya
Saya hanya pernah memakai model besar seperti Gemini atau GPT, jadi saya ingin tahu sampai model sekecil apa yang masih berguna di hardware saya
- Di swe-rebench.com, Anda bisa membandingkan benchmark per model
Saya mencari tahu karena penasaran seberapa jauh performa “real-time”-nya
Di Pi 5 (16GB), model Q3_K_S-2.70bpw [KQ-2] mencatat 8.03 TPS dan mempertahankan 94.18% kualitas BF16
Artikelnya juga membahas detail hardware lainnya
- Saya rasa akan bagus jika ada halaman ringkasan Hacker News yang menampilkan angka-angka inti seperti ini saja
Saya juga bereksperimen di Pi 5 (16GB) dengan llama.cpp terbaru dan mengalami segmentation fault (segfault)
Muncul pesan error kehabisan memori, lalu proses berhenti setelah memakai sekitar 10GB RAM
Saat saya mengurangi ukuran konteks dengan opsi -c 4096, model berhasil dimuat
- Mungkin juga layak mencoba model kuantisasi 4-bit dari illama atau ik_llama.cpp, atau Microsoft BitNet
  Model seperti BitNet b1.58-2B-4T-gguf tampaknya cocok untuk uji banding di perangkat berspesifikasi rendah atau PC kantor yang hanya punya iGPU
- Bisa jadi mereka juga menambahkan memori swap
Saya penasaran apakah cara mengukur akurasi di sini berbeda dari perplexity pada umumnya
Dari BF16 turun ke 2.8 tetapi penurunan kualitasnya hanya 5%, itu terasa aneh bagi saya
GPT-OSS-20B berukuran sekitar 11.2GB, jadi tampaknya masih bisa berjalan dengan baik di perangkat bermemori 16GB tanpa penurunan kualitas berarti

Model Qwen 30 miliar parameter yang berjalan real-time di Raspberry Pi

Gambaran umum optimasi berbasis ShapeLearn

Performa Raspberry Pi 5

Performa Intel i7 (64GB)

Perbandingan performa GPU (RTX 5090 / RTX 4080)

Paradoks jumlah bit dan kecepatan

Metode evaluasi dan kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News