- Qwen 3.6 27B tampak sebagai pilihan yang bermakna untuk tugas serbaguna bahkan bagi pengguna yang sebelumnya skeptis terhadap model lokal, dan direkomendasikan sebagai model dense yang lebih lambat tetapi lebih kuat dibanding 35B A3B
- Dalam uji kreasi dan coding, kekuatannya terlihat pada kepatuhan terhadap batasan, dan di OpenCode model ini membuat permainan ranjau heksagonal berbasis
pnpmdalam bentuk paket Node hanya dengan satu prompt - Dengan menggabungkan kuantisasi GGUF 8-bit dari
llama.cppdan Hugging Face, model ini bisa dijalankan secara lokal, dan bahkan bisa disiapkan untuk lingkungan agent coding dengan MTP, pemuatan layer GPU, flash attention, dan konteks 64k - Dalam pengujian di Macbook Max M5 128GB, Qwen3.6-27B 8-bit dengan
llama.cpp + MTPmencapai 32 tok/s dan menggunakan sekitar 42GB RAM; meski 35B A3B lebih cepat, kualitas kodenya lebih baik sehingga 27B lebih disukai - Menurut Artificial Analysis, Qwen3.6-27B berada di skor 37, setara level pertengahan 2025 seperti GPT-5 / Claude Sonnet 4.5, dan praktis untuk data sensitif, pekerjaan offline, serta pengoperasian model sendiri yang tidak bisa ditarik kembali
Alasan merekomendasikan Qwen 3.6 27B
- Qwen 3.6 tersedia dalam dua varian
- Qwen 3.6 35B A3B: model mixture-of-experts
- Qwen 3.6 27B: model dense, lebih lambat tetapi opsi yang lebih kuat
- Qwen 3.6 27B banyak mendapat respons sebagai model yang “berkinerja di atas kelasnya”, dengan contoh terkait di Will it Mythos?
- Saat dijalankan lokal, komputer bisa menjadi panas, tetapi performanya cukup layak untuk diterima
Pengujian sederhana dan hasil pekerjaan nyata
- Sebagai smoke test sederhana, digunakan penulisan dengan batasan alih-alih “penguins on a bicycle” milik Simon Willison
- Saat diminta menulis puisi 8 baris tentang tari Zouk dan fisika kuantum, alur berpikirnya terasa natural dalam menangani istilah kuantum dan rima
- Percakapan terkait ada di transcript
- Ketika diminta di OpenCode untuk membuat permainan ranjau heksagonal menggunakan
pnpm, model ini menghasilkan paket Node yang benar hanya dengan satu prompt - Qwen 3.6 35B A3B memang lebih cepat, tetapi tidak mengikuti instruksi untuk membuat paket dan justru mengimplementasikannya sebagai satu berkas
index.html - Untuk tugas kerja umum pun, model ini bisa menghasilkan keluaran yang berfungsi hanya dengan prompt singkat, dengan responsivitas dan default yang cukup baik
- Menurut standar model frontier memang tidak istimewa, tetapi untuk model lokal ini sudah berada di tingkat yang praktis
Menjalankan secara lokal dengan llama.cpp
-
Menjalankan model lokal bisa dilakukan dengan beberapa baris CLI, dan alat yang direkomendasikan adalah llama.cpp
-
Model dijalankan dengan mengunduh model terkuantisasi yang ukurannya lebih kecil dari Hugging Face
- Penyedia model kuantisasi yang populer antara lain unsloth dan bartowski
- Model dasarnya biasanya memakai presisi
BF16 - Kuantisasi 8-bit hampir tidak menimbulkan penurunan kualitas sambil memangkas kebutuhan ruang menjadi setengahnya
- Kuantisasi bit yang lebih rendah membuat model lebih kecil dan berpotensi lebih cepat, tetapi ada biaya pada kualitas
- Perbandingan 27B ada di Reddit benchmark, dan perbandingan 35B A3B ada di Hugging Face discussion
-
Contoh menjalankan server
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: mengambil model dari Hugging Face, lalu digunakan ulang pada eksekusi berikutnya-m ~/models/Qwen3.6-27B-Q8_0.gguf: jika berkas model sudah ada, ini bisa dipakai sebagai gantinyadraft-mtp: menggunakan multi-token prediction untuk memprediksi token berikutnya dengan model yang lebih cepat guna meningkatkan kecepatan-ngl 999: memuat semua layer ke GPU-fa on: mengaktifkan flash attention-c 65536: menetapkan ukuran konteks ke 64k token- Konteks native Qwen 3.6 27B adalah 256k
--port 8080: menetapkan port tetap untuk dipakai di konfigurasi lain- Jika membuka
http://127.0.0.1:8080, pengguna bisa langsung mengobrol dengannya
-
Konfigurasi OpenCode
- Server yang sama juga bisa dipakai untuk vibe coding
- Di OpenCode, tambahkan konfigurasi berikut ke
~/.config/opencode/opencode.jsonc
{ "$schema": "https://opencode.ai/config.json", "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" } -
Menjalankan untuk chat terminal
- Jika hanya ingin chat di terminal,
llama-serverbisa diganti denganllama-cli
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 - Jika hanya ingin chat di terminal,
Pengukuran performa Apple Silicon
- Hasil pengujian dirangkum di benching-local-llms-on-apple-silicon, dan dijalankan di Macbook Max M5 128GB
- Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
- Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
- DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
- Kecepatan 30 tok/s bukanlah hasil yang buruk, dan masih berada dalam rentang API model frontier pada umumnya
- mlx-lm memang ditujukan untuk Apple Silicon, tetapi dalam pengujian ini llama.cpp lebih cepat
- Selama berjalan, utilisasi GPU mencapai 95%, sehingga terlihat memanfaatkan sumber daya yang tersedia secara efisien
- Kedua varian Qwen 3.6 dapat berjalan dalam RAM bersama 48GB di Apple Silicon
- Pada kartu Nvidia RTX konsumen, kuantisasi yang lebih agresif diperlukan, tetapi inferensinya berjalan lebih cepat
- Di Hacker News, gfosco menyatakan bahwa di 5090 ia mendapatkan 50 tok/s secara konsisten pada konteks 123k dengan kuantisasi Q6_K dan Q4_0 KV, serta menggunakan sekitar 28/32GB VRAM lewat LM Studio
- 35B A3B memang 3 kali lebih cepat, tetapi 27B tetap layak dipilih jika kualitasnya lebih tinggi meski jumlah kode yang dihasilkan hanya sepertiganya
Perbandingan dengan model mutakhir yang ada
- Dalam perbandingan skor Artificial Analysis, Qwen3.6-27B mendapat 37 poin
- Item utama dalam tabel perbandingan adalah sebagai berikut
- Gemma 4 31B: 29 poin, level akhir 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 poin, level awal 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 poin, level pertengahan 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 poin, level akhir 2025, GPT-5.2 / Claude Opus 4.5
- Benchmark tambahan ada di notes, dan tren umumnya serupa
- Gemma 4 31B dimasukkan ke perbandingan karena banyak orang memakainya sebagai default untuk coding lokal
- Baik benchmark maupun respons online sama-sama jauh lebih menyukai Qwen 3.6 27B dibanding Gemma 4 31B
- Namun, perlu berhati-hati dengan kondisi kuantisasi
- Kuantisasi 8-bit kemungkinan tidak banyak memengaruhi hasil
- DwarfStar4 memakai kuantisasi 2–4 bit yang jauh lebih agresif untuk DeepSeek V4 Flash, sehingga jelas lebih buruk daripada model penuhnya
- Dalam kondisi ini, Qwen 3.6 27B memberi kesan setara atau sedikit lebih baik daripada DwarfStar4
- Untuk proyek dengan konteks lebih panjang, DS4 mungkin bisa unggul
Langkah berikutnya dalam menjalankan model lokal
- Menjalankan model sendiri semakin menjadi pilihan yang realistis
- Kondisi model frontier proprietari dapat semakin mendorong tren ini
- Claude Fable 5 sedang menurun
- Model frontier lain berjalan di atas subsidi besar-besaran, dengan struktur di mana pembayaran 100 dolar per bulan bisa memakai token senilai ribuan dolar
- Model yang dijalankan secara lokal bisa di-fine-tune sesuai kebutuhan dan tidak dapat ditarik kembali dari luar
- Perusahaan dapat memakai model lokal untuk data proprietari dan data sensitif
- Individu dapat memanfaatkan model lokal untuk proyek offline, atau ketika tidak ingin membagikan rahasia mendalam maupun data medis ke AS atau Tiongkok
- Rilis frontier-level open-weight GLM 5.2 semakin mempercepat arus model lokal
- Qwen 3.6 hanyalah batu loncatan, dan GLM 5.2 juga bisa dijalankan secara lokal
- GLM 5.2 memang tidak bisa dijalankan di Macbook atau satu RTX 5090, tetapi masih berada pada tingkat yang bisa ditanggung anggaran perusahaan
- Ke depan, bisa muncul model yang lebih cerdas daripada yang mutakhir saat ini namun tetap dapat berjalan di perangkat lokal, mungkin bahkan di ponsel
- Model saat ini menggabungkan kecerdasan mentah dan pengetahuan faktual dalam bobot yang sama, tetapi model masa depan kemungkinan akan memisahkan keduanya dengan menyerahkan pengetahuan ke tool calling
1 komentar
Opini Hacker News
MacBook Pro M5 128GB RAM dan qwen3.6 memang menarik, tetapi kalau Anda serius ingin coding dengan LLM lokal, sebaiknya jangan membeli MacBook ini
Alasannya sederhana: jari-jari jadi panas dan suara kipasnya bikin kepala serasa mau pecah
Menjalankan tugas kompleks di laptop yang benar-benar dipakai sehari-hari itu tidak realistis; dalam mode clamshell memang bisa, tetapi saat AI coding atau pekerjaan agen, perangkatnya sulit disentuh
Jika ingin menjalankan Qwen3.6 27B/35B dengan benar, lebih baik membeli MacMini M4 64GB, menaruhnya di basement atau setidaknya beberapa meter jauhnya, lalu mengaksesnya lewat LAN atau Tailscale; harganya juga hampir sekitar 1/3 dari MacBook Pro
Saya tahu betapa berisik dan panasnya bahkan hanya menjalankan model yang relatif kecil seperti Qwen 27B atau Gemma 4 31B di GPU desktop
Strix Halo punya satu kipas besar sehingga tidak terlalu berisik, tetapi tetap jadi panas, dan kipas-kipas kecil di laptop pada akhirnya harus menjerit untuk membuang panas itu
Gagasan laptop yang bisa menjalankan model di mana saja memang bagus, tetapi pekerjaan itu lebih tepat ditangani model cloud, dan karena datanya tidak banyak bolak-balik, itu juga bukan masalah besar
Untuk pekerjaan yang membutuhkan privasi, cukup host model sendiri di mesin besar di rumah lalu akses lewat VPN
Namun model seperti Gemma 4 12B QAT 4-bit yang berjalan baik bahkan di perangkat 16GB atau tablet sangat bagus untuk tugas tertentu, dan sebagai model vision self-hosted untuk klasifikasi, identifikasi, serta pelabelan, itu yang terbaik dari semua yang saya uji
Prosanya juga lumayan dan penggunaan tool-nya cukup baik, tetapi tidak banyak pengetahuan dunia yang bisa masuk ke dalam 7GB, jadi untuk riset tetap perlu pencarian, dan saya tidak ingin memakainya untuk coding yang lebih dari sekadar kode sangat sederhana
--powerdi DwarfStar 4: https://github.com/antirez/ds4#reducing-heat-power-usage-and...Selama kira-kira enam bulan terakhir saya menjalankan coding agent dalam mode YOLO di laptop, dan meski kebanyakan tidak lokal, cara memakainya tanpa rasa takut adalah dengan membuat pengguna Linux khusus untuk agen bernama
agentAgen boleh menghapus direktori home
/agent, tetapi tidak bisa menyentuh atau bahkan membaca direktori home sayaSetiap kali harus masuk sebagai pengguna itu dengan
sudo, jadi saya membuat alias, dan jika muncul masalah izin atau kepemilikan, saya menanganinya dengan sebuah fungsi yang saya jalankan sekali sehariTetap saja ada kerepotan, jadi kalau punya mesin khusus, saya rasa saya akan langsung memberinya root; untuk iseng saya memberi Claude akses root ke VPS $3, dan itu berjalan baik
Setelah beberapa bulan coba-coba, pada akhirnya saya seperti menemukan kembali dari awal kesimpulan “beli saja Mac mini”
Bahkan dari jarak beberapa inci pun terasa panas radiasinya, dan rasanya lebih panas daripada Intel MacBook yang pernah saya gunakan, jadi saya hentikan
Karena masalah pasokan dan kenaikan harga, mungkin saya harus memakai laptop ini selama 10 tahun, jadi saya tidak ingin merusaknya
Pendengaran saya memang tidak terlalu baik, tetapi saya rasa saya akan mendengar suara kipas kalau ada; saya belum pernah mendengarnya sekali pun, sampai-sampai harus mencari tahu apakah perangkat itu benar-benar punya kipas
Tulisan ini didasarkan pada pengalaman menjalankan Qwen 3.6 di MacBook Pro 128GB
Sebagai referensi, MBP 128GB saat ini mulai dari $6699 [0]
Mungkin ada orang yang rela membayar premi itu demi privasi, tetapi dengan biaya sekitar 10 kali lipat MacBook Neo, Anda bisa membeli cukup banyak kredit OpenRouter atau API dari lab riset terdepan
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
Memiliki mesin yang bisa menjalankan LLM lokal yang cukup masuk akal seperti Gemma 4 12B benar-benar bernilai
Saya tidak tahu seberapa sering kita akan melakukan coding agen tanpa pengawasan yang serius hanya dengan satu MacBook, tetapi kalau saya tidak pernah mencoba sendiri model lokal, llama.cpp, LM Studio, dan sebagainya, saya tidak akan memahami bidang ini seperti sekarang
Bidang ini terlalu besar, melelahkan, penuh jargon, dan bagi seseorang yang sudah lewat usia 50-an, mudah sekali merasa kewalahan
Setelah mengaturnya sendiri di mesin bekas, melihat panggilan API, dan memahami istilah-istilahnya, barulah semuanya mulai terasa konkret
Neo terlalu kecil untuk membuat peluang seperti ini terasa lebih nyata dan mudah dipahami
Saya rasa bisa lebih rendah lagi jika memakai kuantisasi yang lebih agresif
Secara ekonomi, menjalankan model di laptop tidak terlalu masuk akal, dan jika hanya melihat biaya listrik murni pun mungkin sulit mengalahkan harga token yang dihasilkan dalam skala besar
Meski begitu, ini adalah terobosan yang akan mengubah permainan
Dulu, vibe coding seperti ini di perangkat konsumen bukan sekadar sulit atau mahal, melainkan sama sekali tidak mungkin
Asus Ascent GX10 juga dijual $3999 di beberapa peritel
Secara teori, Anda juga bisa mendapatkan VRAM 48GB dengan dua kartu 3090, tetapi dibandingkan MacBook Pro atau GB10, itu memakan banyak ruang dan menghasilkan banyak panas
[1] https://x.com/MiaAI_lab/status/2070859135399182444
[2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
Jadi 128GB bukan syarat wajib di sini
Di MacBook yang sama, Anda juga bisa menjalankan model lain
Melihat uang yang dibakar orang untuk SaaS setiap bulan, ada kasus di mana dalam 5 bulan saja uang itu sudah setara modal MacBook
Dan ini bukan sekadar persoalan “privasi data”
Jika memakai Claude, pada dasarnya Anda mengirim semuanya ke Anthropic, dan itu cukup gila
Sulit untuk mengatakan bahwa contoh-contohnya mencerminkan “pekerjaan nyata”
Setidaknya bukan sesuatu yang saya anggap sebagai pekerjaan nyata
Menebak proyek baru zero-shot relatif mudah bahkan bagi model kecil
Karena tidak banyak konteks yang perlu dibangun, dan model bisa dengan mudah kembali ke contoh serupa dalam data pelatihan
Selama tidak diminta menciptakan sesuatu yang benar-benar baru, besar kemungkinan hasilnya lumayan
Ujian yang sebenarnya adalah apakah ia bisa bekerja pada codebase yang sudah ada
Dalam eksperimen terbatas yang saya lakukan, Qwen 3.5 cukup baik untuk aplikasi Rust+React, tetapi kurang bagus untuk monolith C#
Bukan sampai tidak bisa dipakai, tetapi cukup buruk sampai saya kembali ke Claude setelah 20 menit; kalau saya kehilangan akses ke model cloud dan harus hanya memakai Qwen, rasanya saya akan cukup sedih
Qwen3.6 menghasilkan hasil yang mengejutkan untuk model kecil pada aplikasi sederhana yang ada di mana-mana
Jika diminta membuat aplikasi boilerplate kecil dengan alat populer seperti aplikasi TODO React atau shadcn, hasilnya cukup meyakinkan
Namun ketika keluar dari tugas umum dan masuk ke pekerjaan saya yang lebih niche, ia berputar-putar selama berjam-jam dan akhirnya menghasilkan sesuatu yang tidak bisa dipakai sampai bikin mengeluh
Untuk refactoring sederhana atau tugas kecil dengan instruksi yang sangat jelas, ia cukup baik sebagai pengganti mengetik
Tetapi begitu masuk ke sesi konteks panjang atau topik non-mainstream, kelemahannya sangat jelas
Kuantisasi yang banyak dipakai agar muat di hardware kecil juga memperburuk masalah
Di internet ada nuansa bahwa kuantisasi 4-bit hampir lossless dan kuantisasi key-value cache
q8_0/q8_0juga praktis tanpa loss, tetapi dalam proyek nyata kuantisasi seperti ini cukup banyak menurunkan performa konteks panjangTidak sempurna, tetapi cukup untuk mempercepat alur pengembangan sehari-hari, dan saya terutama memakainya untuk menulis Go dan C#
Misalnya merancang proyek besar yang terdiri dari library-library kecil agar masing-masing bisa dikodekan dan dites secara independen, merapikan proyek coding lama, menambahkan README, memberi komentar pada kode, menunjukkan contoh penggunaan API baru dan memperbarui tempat-tempat yang memakai API tersebut
Semuanya adalah tugas berskala kecil
Untuk proyek integrasi besar, API komersial DeepSeek v4 Pro sangat murah dan membantu menghasilkan hasil yang baik
Terlalu banyak keputusan yang harus dibuat, dan mereka tidak pandai melakukannya
Jika Anda tidak berharap ia bertindak cerdas, mengubah kode yang sudah ada jauh lebih mudah
Daripada mengatakan “tambahkan fitur X” dan membiarkannya menjelajahi codebase, lebih baik tentukan file yang relevan lalu katakan “tujuannya adalah menambahkan fitur X ke kode ini dan ikuti pedoman Y”
Jika manusia menangani bagian pengambilan keputusan yang paling sulit, model cukup mengikuti instruksi dan mewarnai di dalam garis
Menjalankan model ini secara offline di MacBook Pro dengan memori 48GB memang bisa menyelesaikan tugas, tetapi tentu saja lebih lambat daripada Claude atau Codex
Melihat orang membeli MBP 128GB seharga ribuan dolar untuk menjalankan model yang secara objektif jauh di bawah yang tercanggih membuat saya merasa seperti kehilangan akal
Dengan uang untuk 128GB M5 MAX, di sini saya bahkan bisa membeli mobil baru
Saya tidak tahu apa yang saya lewatkan, dan rasanya pengembang di negara lain benar-benar hidup di dunia yang berbeda
Saya tahu harga absolut di tempat saya tinggal juga lebih mahal daripada di AS, jadi rasanya makin begitu
Jika ada orang waras di negara lain membeli benda seperti ini, saya rasa begitu tiba di sini ia akan langsung menjualnya untuk menghemat uang
Musim gugur lalu saya merakit workstation dengan dua 3090 bekas, masing-masing 850 dolar Kanada, meski sekarang harga terendahnya sekitar 1200
Dengan VRAM 48GB, itu cukup masuk akal, dan saya memakai Qwen 3.6 27B untuk berbagai tugas membuat knowledge graph dari korpus teks dan melakukan reasoning
Saya membandingkannya dengan yang tersedia di OpenRouter, dan dengan biaya token $0, Qwen 27B lokal sulit dikalahkan
Memang lebih lambat dan kantor jadi beberapa derajat lebih hangat, tetapi tidak ada yang bisa mencabut colokannya, tidak ada yang mengintip dari balik bahu, dan hasilnya berada di level yang mirip dengan model-model tercanggih
Saya menantikan Qwen 3.7 berukuran serupa
Sejauh yang saya lihat, ini lompatan besar dibanding versi sebelumnya
Mungkin untuk pamer bahwa barangnya portabel
Karena cicilan bulanan Apple, $5k menjadi $416 per bulan selama setahun dan tanpa bunga
Saya bisa menjalankan model sekelas DS4 dan model terbuka lain tanpa kuantisasi, kadang beberapa sekaligus
Bayangkan nilainya jika skenario gelap terkait perang Taiwan/Tiongkok Raya, konektivitas global, atau keandalan model komersial terjadi
Ini adalah perangkat yang sangat sulit dibuat pada titik lain dalam sejarah, dan saya merasa seharusnya membeli lebih banyak
Saya melihat sinyal, tren harga, dan stok habis secara real time, dan orang lain yang mampu pasti juga sedang menimbun
Orang-orang di tempat Anda berpenghasilan lebih rendah lebih dari satu digit dibanding orang Amerika
Banyak yang mengatakan bahwa hardware untuk menjalankan model lokal itu mahal, tetapi jika Anda tidak tertarik pada perangkat Apple, Intel Arc Pro B50/B60/B70 yang tampaknya cukup bagus dari sisi harga-kinerja jarang dibahas
Baru-baru ini saya membeli model B70 dengan RAM 32GB seharga sekitar $1200 termasuk pajak penjualan dan bea masuk untuk tempat tinggal di luar AS, dan di wilayah lain mungkin bisa lebih murah
Bandwidth memorinya 608GB/s
M5 Max GPU 32-core adalah 460GB/s, GPU 40-core 614GB/s, dan 3090 sekitar 900GB/s sehingga masih lebih cepat, tetapi Anda mendapatkan VRAM 32GB dengan harga jauh lebih murah daripada kartu Nvidia sekelas
Artinya, Anda mendapatkan sekitar 1/3 bandwidth 5090 dengan 1/3 harga, tetapi dengan VRAM 32GB yang sama, jadi ini kompromi menarik jika ingin menjalankan model kuantisasi yang lebih besar dan konteks tertentu dengan anggaran rendah
Saya masih mengeksplorasi model lokal, jadi tidak ingin menghabiskan $5000~$10000 untuk pengujian; kalau bisa bereksperimen lebih murah, performa yang sedikit lebih lambat tidak masalah
Awalnya saya membeli B50 16GB dengan TDP 70W untuk menguji kartu Intel di stack saya, dan ternyata berjalan mudah di Ubuntu dan Vulkan
Saya banyak melihat tulisan yang menyebutnya merepotkan dan tidak bisa dipakai, tetapi tampaknya kebanyakan terkait SYCL, dan karena SYCL juga tidak terlihat lebih cepat daripada Vulkan, saya tidak melihat alasan untuk memakainya
B50 harganya $370 termasuk pajak dan bea masuk, dan secara harfiah setelah
apt installlibrary Vulkan, ia berjalan dengan driver xe bawaan 26.04 dan build Vulkan llama.cppSR-IOV PF/VF juga berjalan di qemu/kvm tanpa trik khusus, dan setelah dibeli fwupdmgr memperbarui firmware dua kali, jadi sepertinya Intel memang berniat mendukung produk-produk ini
Menurut saya sweet spot saat ini adalah kombinasi dua 3090, motherboard PCIe 4, dan RAM DDR4 64~128GB
Sekarang bisa dirakit sekitar $3k, dan menjalankan Qwen 27B/35B di int4 dengan sangat cepat
Sebagai referensi, saya menjalankan gemma4 31B di 5090 dan hasilnya cukup bagus
Saya memakai QAT, MTP, dan konteks 128k
Qwen 3.6 27B juga bagus, tetapi saya rasa Gemma4 agak diremehkan
Saya menjalankan gemma4 31B di 4090 dengan llm.cpp dan model unsloth
Saya juga memakai Qwen 3.6, dan Qwen lebih cepat sehingga bagus untuk reasoning dan perencanaan, sementara Gemma4 menghasilkan kualitas kode yang jauh lebih tinggi pada percobaan pertama
Untuk Rust, C++, dan C#, perubahan yang perlu dilakukan lebih sedikit sampai pada level yang menurut saya layak di-merge
Selalu tiba-tiba terpotong atau membuat tool call yang salah, mungkin saya yang salah mengatur oMLX atau Opencode
Di 4080 Super, saya bolak-balik memakai Qwen 3.5 9B Q6_M dan Gemma4 12B Q4_K_M
Keduanya punya kecepatan mirip dan bisa saling diminta meninjau rencana atau perubahan
Untuk proyek kecil keduanya cukup mampu, dan untuk tugas yang sedikit lebih sulit bisa dinaikkan ke kuantisasi yang lebih baik
Sebelum membeli komputer dengan memori terpadu, perlu diketahui bahwa pada perangkat seperti DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo, model dense umumnya lambat
GPU khusus menjalankan model dense jauh lebih baik
Sebaiknya cari benchmark perangkat yang akan dibeli, dan jika benar-benar menginginkan perangkat semacam ini, lebih baik menjalankan Qwen 3.6 35B atau model sparse MoE lainnya
Saya telah menjalankan qwen 3.6 35b a3b dengan opencode di MacBook Pro 16 inci M3 Max RAM 64GB, dan itu sangat bagus untuk perencanaan serta coding lokal
Jujur, melihat 64GB sekuat ini, kadang saya merasa seharusnya memilih 128GB agar lebih future-proof
Di sisi lain, saya juga belum pernah mentok karena model yang sedikit lebih besar daripada qwen
Tidak cepat, hanya beberapa token per detik, lebih lambat daripada kecepatan membaca, tetapi bisa diberi tugas lalu ditinggal dan kembali lagi nanti
Itu laptop $600 yang saya beli di eBay beberapa tahun lalu, bukan mesin seharga $6000
Saya penasaran apakah Mac dengan memori terpadu atau GPU desktop besar 24GB benar-benar menghasilkan puluhan hingga ratusan token per detik yang sepadan dengan biaya 10~20 kali lipat
Dari pengalaman, model 20~35GB plus key-value cache saja sudah banyak memakan 64GB bawaan, jadi jika ingin tetap membuka browser, editor, dan lain-lain, keseluruhan 128GB jelas membantu