- Model Qwen3-30B-A3B-Instruct-2507 berjalan secara real-time di Raspberry Pi 5 (16GB), mempertahankan 8,03 TPS dan 94,18% kualitas BF16
- Melalui metode pembelajaran panjang bit ShapeLearn dari ByteShape, keseimbangan antara kecepatan dan kualitas dioptimalkan dalam batas memori tiap perangkat
- Dibandingkan Unsloth dan MagicQuant, model ini mencapai TPS lebih tinggi pada kualitas yang sama, atau kualitas lebih tinggi pada TPS yang sama
- Pada CPU dan GPU (terutama RTX 5090·4080), sekitar 4-bit menjadi rentang performa optimal, dan menurunkan jumlah bit tidak selalu membuatnya lebih cepat
- Secara keseluruhan, model ByteShape menghadirkan performa efisien dari edge hingga data center lewat pendekatan “melihat memori sebagai anggaran lalu mengoptimalkan TPS/kualitas”
Gambaran umum optimasi berbasis ShapeLearn
- ByteShape melakukan optimasi dengan fokus pada kecepatan dan kualitas respons yang benar-benar dirasakan pengguna saat model dijalankan
- ShapeLearn mempelajari tipe data bobot tiap tensor (bitlength) untuk memaksimalkan TPS (token per detik) dan kualitas output secara bersamaan
- Tujuannya bukan sekadar mengecilkan ukuran file, melainkan meningkatkan keseimbangan nyata antara kecepatan dan kualitas
- Di lingkungan llama.cpp, menurunkan jumlah bit tidak selalu meningkatkan kecepatan, dan pemilihan kernel serta overhead sangat memengaruhi performa
- ByteShape memandang memori sebagai “anggaran agar cukup muat”, lalu setelah itu melakukan penyesuaian dengan fokus pada TPS dan kualitas
Performa Raspberry Pi 5
- Pada Raspberry Pi 5 (16GB), model 30B mempertahankan 8,5 TPS dan akurasi di atas 92%
- Model Q3_K_S-2.70bpw [KQ-2] memberikan kecepatan respons setingkat percakapan real-time
- Pada model yang memprioritaskan akurasi, ByteShape mencapai tingkat kesalahan hingga 1,87 kali lebih rendah dibanding Unsloth, dengan galat relatif 1,1~1,3% (sekitar 98,8% akurasi)
- Dalam lingkungan yang sama, model ini mempertahankan 5~6 TPS, cocok untuk tugas yang berfokus pada akurasi
- Model yang memprioritaskan kecepatan (Q3_K_S-3.25bpw [KQ-5]) juga lebih kecil dan lebih cepat dibanding Unsloth, sambil tetap unggul dalam akurasi
- Banyak model dari Unsloth dan MagicQuant tidak dapat dijalankan di lingkungan Pi karena keterbatasan memori
Performa Intel i7 (64GB)
- Dalam lingkungan tempat semua model muat di memori, ByteShape mencapai kualitas dan TPS yang lebih tinggi dibanding Unsloth dan MagicQuant
- Rentang berfokus pada kualitas: model IQ4_XS-4.67bpw [KQ-9] dari ByteShape memperoleh tingkat kesalahan 1,44 kali lebih rendah dibanding Q6_K milik Unsloth, sekaligus mencatat TPS lebih tinggi
- Rentang seimbang: model Q3_K_S-3.25bpw dari ByteShape memiliki tingkat kesalahan 1,73 kali lebih rendah daripada Unsloth, serta unggul dalam akurasi maupun kecepatan dibanding MagicQuant
- Hanya ByteShape yang sekaligus mencakup area 26+ TPS dan area berkualitas tinggi
Perbandingan performa GPU (RTX 5090 / RTX 4080)
- Di GPU, pemilihan kernel dan efisiensi akses VRAM menentukan performa
- Sekitar 4-bit (~4bpw) terkonfirmasi sebagai sweet spot untuk TPS dan kualitas
- RTX 5090 (32GB)
- Unsloth, MagicQuant, dan ByteShape sama-sama mencatat 302~303 TPS dengan akurasi 98,4~98,9% pada rentang 4b
- Model IQ4_XS-4.67bpw dari ByteShape mencapai akurasi tertinggi dengan 272,98 TPS dan 99,75% akurasi
- Model ini unggul atas Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) dan MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%)
- RTX 4080 (16GB)
- Karena keterbatasan VRAM, model 4b tidak dapat digunakan, dan ByteShape tetap lebih unggul daripada Unsloth dalam TPS maupun akurasi pada kondisi 16GB yang sama
- ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% akurasi
- Dibanding Unsloth Q3_K_XL, model ini mencatat tingkat kesalahan 1,59 kali lebih rendah dan TPS 9,4% lebih tinggi
- Dibanding Unsloth IQ2_M, model ini memiliki tingkat kesalahan 2,54 kali lebih rendah
Paradoks jumlah bit dan kecepatan
- Bahkan jika diturunkan ke 3-bit atau kurang, peningkatan kecepatan tidak dijamin
- GPU bekerja dalam unit warp 32-thread dan dioptimalkan untuk format data serta pola akses tertentu
- VRAM dibaca dalam blok yang disejajarkan per 32 byte, sehingga data yang lebih kecil tetap memakai bandwidth yang sama
- Lebar bit yang rendah justru bisa memperlambat karena peningkatan overhead decoding
- Contoh: di RTX 5090,
iq4_xs membutuhkan 54µs, sedangkan iq3_xxs membutuhkan 62µs → pengurangan ukuran 25% berujung pada penurunan kecepatan 13%
- ShapeLearn memilih tipe data per tensor dengan mempertimbangkan karakteristik hardware ini, agar kecepatan dan akurasi sama-sama tercapai
Metode evaluasi dan kesimpulan
- Semua model diukur dengan harness evaluasi yang sama untuk TPS dan skor kualitas ternormalisasi (dibanding BF16)
- Evaluasi kualitas menggabungkan hasil MMLU, GSM8K, IFEval, LiveCodeBench V4
- Kesimpulan utama:
- “Perlakukan memori bukan sebagai tujuan, melainkan sebagai kendala.”
- Setelah model termuat di perangkat, yang penting berikutnya adalah kurva keseimbangan antara TPS dan kualitas
- ByteShape pada semua perangkat mencapai lebih cepat pada kualitas yang sama, atau kualitas lebih tinggi pada kecepatan yang sama
- Di Raspberry Pi 5, model Q3_K_S-2.70bpw [KQ-2] cocok untuk percakapan real-time
- Prinsip yang sama juga berlaku di lingkungan CPU dan GPU besar: “Pastikan dulu muat, lalu optimalkan.”
- ByteShape berencana terus merilis lebih banyak model yang dioptimalkan per perangkat ke depannya
1 komentar
Komentar Hacker News
Saya rasa ada peluang pasar besar di sini
Yang saya inginkan adalah asisten suara seperti Alexa, tetapi berupa sistem dengan komponen standar yang berbasis inferensi lokal dan penyimpanan lokal
Intinya adalah privasi dan interoperabilitas. Jika perlu mendaftar akun atau terhubung ke server eksternal, saya tidak akan membelinya. Saya ingin perintah seperti “Freddy, set timer 10 menit” diproses secara lokal
Strukturnya adalah menaruh beberapa perangkat murah Wi-Fi + mikrofon + speaker di seluruh rumah, lalu pemrosesan suara dilakukan pada box pusat yang lebih bertenaga
Pada akhirnya ini bekerja seperti satu program, jadi jika menambahkan kartu Wi-Fi ke mesin yang sedikit lebih kuat, itu juga bisa berfungsi sebagai extender Wi-Fi
Saya juga tidak suka konsep wake word. Rasanya masih banyak bagian dari seluruh stack yang perlu diperbaiki
Saya penasaran apakah ada referensi bagus untuk membandingkan berbagai model dengan mudah
Saya tahu perbedaan jumlah parameter antara gpt-oss-20b dan gpt-oss-120b, tetapi saya tidak benar-benar paham seberapa besar perbedaan performa nyatanya
Saya hanya pernah memakai model besar seperti Gemini atau GPT, jadi saya ingin tahu sampai model sekecil apa yang masih berguna di hardware saya
Saya mencari tahu karena penasaran seberapa jauh performa “real-time”-nya
Di Pi 5 (16GB), model Q3_K_S-2.70bpw [KQ-2] mencatat 8.03 TPS dan mempertahankan 94.18% kualitas BF16
Artikelnya juga membahas detail hardware lainnya
Saya juga bereksperimen di Pi 5 (16GB) dengan llama.cpp terbaru dan mengalami segmentation fault (segfault)
Muncul pesan error kehabisan memori, lalu proses berhenti setelah memakai sekitar 10GB RAM
Saat saya mengurangi ukuran konteks dengan opsi
-c 4096, model berhasil dimuatModel seperti BitNet b1.58-2B-4T-gguf tampaknya cocok untuk uji banding di perangkat berspesifikasi rendah atau PC kantor yang hanya punya iGPU
Saya penasaran apakah cara mengukur akurasi di sini berbeda dari perplexity pada umumnya
Dari BF16 turun ke 2.8 tetapi penurunan kualitasnya hanya 5%, itu terasa aneh bagi saya
GPT-OSS-20B berukuran sekitar 11.2GB, jadi tampaknya masih bisa berjalan dengan baik di perangkat bermemori 16GB tanpa penurunan kualitas berarti