Qwen 3.6 27B adalah titik optimal untuk pengembangan lokal

(quesma.com)

5 poin oleh GN⁺ 6 jam lalu | 1 komentar | Bagikan ke WhatsApp

Qwen 3.6 27B tampak sebagai pilihan yang bermakna untuk tugas serbaguna bahkan bagi pengguna yang sebelumnya skeptis terhadap model lokal, dan direkomendasikan sebagai model dense yang lebih lambat tetapi lebih kuat dibanding 35B A3B
Dalam uji kreasi dan coding, kekuatannya terlihat pada kepatuhan terhadap batasan, dan di OpenCode model ini membuat permainan ranjau heksagonal berbasis pnpm dalam bentuk paket Node hanya dengan satu prompt
Dengan menggabungkan kuantisasi GGUF 8-bit dari llama.cpp dan Hugging Face, model ini bisa dijalankan secara lokal, dan bahkan bisa disiapkan untuk lingkungan agent coding dengan MTP, pemuatan layer GPU, flash attention, dan konteks 64k
Dalam pengujian di Macbook Max M5 128GB, Qwen3.6-27B 8-bit dengan llama.cpp + MTP mencapai 32 tok/s dan menggunakan sekitar 42GB RAM; meski 35B A3B lebih cepat, kualitas kodenya lebih baik sehingga 27B lebih disukai
Menurut Artificial Analysis, Qwen3.6-27B berada di skor 37, setara level pertengahan 2025 seperti GPT-5 / Claude Sonnet 4.5, dan praktis untuk data sensitif, pekerjaan offline, serta pengoperasian model sendiri yang tidak bisa ditarik kembali

Alasan merekomendasikan Qwen 3.6 27B

Qwen 3.6 tersedia dalam dua varian
- Qwen 3.6 35B A3B: model mixture-of-experts
- Qwen 3.6 27B: model dense, lebih lambat tetapi opsi yang lebih kuat
Qwen 3.6 27B banyak mendapat respons sebagai model yang “berkinerja di atas kelasnya”, dengan contoh terkait di Will it Mythos?
Saat dijalankan lokal, komputer bisa menjadi panas, tetapi performanya cukup layak untuk diterima

Pengujian sederhana dan hasil pekerjaan nyata

Sebagai smoke test sederhana, digunakan penulisan dengan batasan alih-alih “penguins on a bicycle” milik Simon Willison
Saat diminta menulis puisi 8 baris tentang tari Zouk dan fisika kuantum, alur berpikirnya terasa natural dalam menangani istilah kuantum dan rima
- Percakapan terkait ada di transcript
Ketika diminta di OpenCode untuk membuat permainan ranjau heksagonal menggunakan pnpm, model ini menghasilkan paket Node yang benar hanya dengan satu prompt
Qwen 3.6 35B A3B memang lebih cepat, tetapi tidak mengikuti instruksi untuk membuat paket dan justru mengimplementasikannya sebagai satu berkas index.html
Untuk tugas kerja umum pun, model ini bisa menghasilkan keluaran yang berfungsi hanya dengan prompt singkat, dengan responsivitas dan default yang cukup baik
- Menurut standar model frontier memang tidak istimewa, tetapi untuk model lokal ini sudah berada di tingkat yang praktis

Menjalankan secara lokal dengan llama.cpp

Menjalankan model lokal bisa dilakukan dengan beberapa baris CLI, dan alat yang direkomendasikan adalah llama.cpp
Model dijalankan dengan mengunduh model terkuantisasi yang ukurannya lebih kecil dari Hugging Face
- Penyedia model kuantisasi yang populer antara lain unsloth dan bartowski
- Model dasarnya biasanya memakai presisi BF16
- Kuantisasi 8-bit hampir tidak menimbulkan penurunan kualitas sambil memangkas kebutuhan ruang menjadi setengahnya
- Kuantisasi bit yang lebih rendah membuat model lebih kecil dan berpotensi lebih cepat, tetapi ada biaya pada kualitas
- Perbandingan 27B ada di Reddit benchmark, dan perbandingan 35B A3B ada di Hugging Face discussion
Contoh menjalankan server
```
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
    --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
```
- -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: mengambil model dari Hugging Face, lalu digunakan ulang pada eksekusi berikutnya
- -m ~/models/Qwen3.6-27B-Q8_0.gguf: jika berkas model sudah ada, ini bisa dipakai sebagai gantinya
- draft-mtp: menggunakan multi-token prediction untuk memprediksi token berikutnya dengan model yang lebih cepat guna meningkatkan kecepatan
- -ngl 999: memuat semua layer ke GPU
- -fa on: mengaktifkan flash attention
- -c 65536: menetapkan ukuran konteks ke 64k token
- Konteks native Qwen 3.6 27B adalah 256k
- --port 8080: menetapkan port tetap untuk dipakai di konfigurasi lain
- Jika membuka http://127.0.0.1:8080, pengguna bisa langsung mengobrol dengannya

Konfigurasi OpenCode

Server yang sama juga bisa dipakai untuk vibe coding
Di OpenCode, tambahkan konfigurasi berikut ke ~/.config/opencode/opencode.jsonc

{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "llama": {
      "name": "llama.cpp (local)",
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1";,
        "apiKey": "local"
      },
      "models": {
        "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
      }
    }
  },
  "model": "llama/qwen3.6-27b"
}

Menjalankan untuk chat terminal
- Jika hanya ingin chat di terminal, llama-server bisa diganti dengan llama-cli
```
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                -ngl 999 -fa on -c 65536
```

Pengukuran performa Apple Silicon

Hasil pengujian dirangkum di benching-local-llms-on-apple-silicon, dan dijalankan di Macbook Max M5 128GB
Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
Kecepatan 30 tok/s bukanlah hasil yang buruk, dan masih berada dalam rentang API model frontier pada umumnya
mlx-lm memang ditujukan untuk Apple Silicon, tetapi dalam pengujian ini llama.cpp lebih cepat
Selama berjalan, utilisasi GPU mencapai 95%, sehingga terlihat memanfaatkan sumber daya yang tersedia secara efisien
Kedua varian Qwen 3.6 dapat berjalan dalam RAM bersama 48GB di Apple Silicon
Pada kartu Nvidia RTX konsumen, kuantisasi yang lebih agresif diperlukan, tetapi inferensinya berjalan lebih cepat
- Di Hacker News, gfosco menyatakan bahwa di 5090 ia mendapatkan 50 tok/s secara konsisten pada konteks 123k dengan kuantisasi Q6_K dan Q4_0 KV, serta menggunakan sekitar 28/32GB VRAM lewat LM Studio
35B A3B memang 3 kali lebih cepat, tetapi 27B tetap layak dipilih jika kualitasnya lebih tinggi meski jumlah kode yang dihasilkan hanya sepertiganya

Perbandingan dengan model mutakhir yang ada

Dalam perbandingan skor Artificial Analysis, Qwen3.6-27B mendapat 37 poin
Item utama dalam tabel perbandingan adalah sebagai berikut
- Gemma 4 31B: 29 poin, level akhir 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 poin, level awal 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 poin, level pertengahan 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 poin, level akhir 2025, GPT-5.2 / Claude Opus 4.5
Benchmark tambahan ada di notes, dan tren umumnya serupa
Gemma 4 31B dimasukkan ke perbandingan karena banyak orang memakainya sebagai default untuk coding lokal
Baik benchmark maupun respons online sama-sama jauh lebih menyukai Qwen 3.6 27B dibanding Gemma 4 31B
Namun, perlu berhati-hati dengan kondisi kuantisasi
- Kuantisasi 8-bit kemungkinan tidak banyak memengaruhi hasil
- DwarfStar4 memakai kuantisasi 2–4 bit yang jauh lebih agresif untuk DeepSeek V4 Flash, sehingga jelas lebih buruk daripada model penuhnya
- Dalam kondisi ini, Qwen 3.6 27B memberi kesan setara atau sedikit lebih baik daripada DwarfStar4
- Untuk proyek dengan konteks lebih panjang, DS4 mungkin bisa unggul

Langkah berikutnya dalam menjalankan model lokal

Menjalankan model sendiri semakin menjadi pilihan yang realistis
Kondisi model frontier proprietari dapat semakin mendorong tren ini
- Claude Fable 5 sedang menurun
- Model frontier lain berjalan di atas subsidi besar-besaran, dengan struktur di mana pembayaran 100 dolar per bulan bisa memakai token senilai ribuan dolar
Model yang dijalankan secara lokal bisa di-fine-tune sesuai kebutuhan dan tidak dapat ditarik kembali dari luar
Perusahaan dapat memakai model lokal untuk data proprietari dan data sensitif
Individu dapat memanfaatkan model lokal untuk proyek offline, atau ketika tidak ingin membagikan rahasia mendalam maupun data medis ke AS atau Tiongkok
Rilis frontier-level open-weight GLM 5.2 semakin mempercepat arus model lokal
- Qwen 3.6 hanyalah batu loncatan, dan GLM 5.2 juga bisa dijalankan secara lokal
- GLM 5.2 memang tidak bisa dijalankan di Macbook atau satu RTX 5090, tetapi masih berada pada tingkat yang bisa ditanggung anggaran perusahaan
Ke depan, bisa muncul model yang lebih cerdas daripada yang mutakhir saat ini namun tetap dapat berjalan di perangkat lokal, mungkin bahkan di ponsel
Model saat ini menggabungkan kecerdasan mentah dan pengetahuan faktual dalam bobot yang sama, tetapi model masa depan kemungkinan akan memisahkan keduanya dengan menyerahkan pengetahuan ke tool calling

1 komentar

GN⁺ 6 jam lalu

Opini Hacker News

MacBook Pro M5 128GB RAM dan qwen3.6 memang menarik, tetapi kalau Anda serius ingin coding dengan LLM lokal, sebaiknya jangan membeli MacBook ini
Alasannya sederhana: jari-jari jadi panas dan suara kipasnya bikin kepala serasa mau pecah
Menjalankan tugas kompleks di laptop yang benar-benar dipakai sehari-hari itu tidak realistis; dalam mode clamshell memang bisa, tetapi saat AI coding atau pekerjaan agen, perangkatnya sulit disentuh
Jika ingin menjalankan Qwen3.6 27B/35B dengan benar, lebih baik membeli MacMini M4 64GB, menaruhnya di basement atau setidaknya beberapa meter jauhnya, lalu mengaksesnya lewat LAN atau Tailscale; harganya juga hampir sekitar 1/3 dari MacBook Pro
- Karena alasan yang sama, saya membeli laptop 32GB biasa
  Saya tahu betapa berisik dan panasnya bahkan hanya menjalankan model yang relatif kecil seperti Qwen 27B atau Gemma 4 31B di GPU desktop
  Strix Halo punya satu kipas besar sehingga tidak terlalu berisik, tetapi tetap jadi panas, dan kipas-kipas kecil di laptop pada akhirnya harus menjerit untuk membuang panas itu
  Gagasan laptop yang bisa menjalankan model di mana saja memang bagus, tetapi pekerjaan itu lebih tepat ditangani model cloud, dan karena datanya tidak banyak bolak-balik, itu juga bukan masalah besar
  Untuk pekerjaan yang membutuhkan privasi, cukup host model sendiri di mesin besar di rumah lalu akses lewat VPN
  Namun model seperti Gemma 4 12B QAT 4-bit yang berjalan baik bahkan di perangkat 16GB atau tablet sangat bagus untuk tugas tertentu, dan sebagai model vision self-hosted untuk klasifikasi, identifikasi, serta pelabelan, itu yang terbaik dari semua yang saya uji
  Prosanya juga lumayan dan penggunaan tool-nya cukup baik, tetapi tidak banyak pengetahuan dunia yang bisa masuk ke dalam 7GB, jadi untuk riset tetap perlu pencarian, dan saya tidak ingin memakainya untuk coding yang lebih dari sekadar kode sangat sederhana
- Coba gunakan flag --power di DwarfStar 4: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
- Kalau “jari terbakar dan kepala pecah karena bising”, bukankah cukup menaruh Mac mini di ruangan lain?
  Selama kira-kira enam bulan terakhir saya menjalankan coding agent dalam mode YOLO di laptop, dan meski kebanyakan tidak lokal, cara memakainya tanpa rasa takut adalah dengan membuat pengguna Linux khusus untuk agen bernama agent
  Agen boleh menghapus direktori home /agent, tetapi tidak bisa menyentuh atau bahkan membaca direktori home saya
  Setiap kali harus masuk sebagai pengguna itu dengan sudo, jadi saya membuat alias, dan jika muncul masalah izin atau kepemilikan, saya menanganinya dengan sebuah fungsi yang saya jalankan sekali sehari
  Tetap saja ada kerepotan, jadi kalau punya mesin khusus, saya rasa saya akan langsung memberinya root; untuk iseng saya memberi Claude akses root ke VPS $3, dan itu berjalan baik
  Setelah beberapa bulan coba-coba, pada akhirnya saya seperti menemukan kembali dari awal kesimpulan “beli saja Mac mini”
- Saat mencoba pekerjaan LLM lokal di M4 Max dengan pi, rasanya lebih panas daripada MacBook mana pun yang pernah saya pakai sejauh ini
  Bahkan dari jarak beberapa inci pun terasa panas radiasinya, dan rasanya lebih panas daripada Intel MacBook yang pernah saya gunakan, jadi saya hentikan
  Karena masalah pasokan dan kenaikan harga, mungkin saya harus memakai laptop ini selama 10 tahun, jadi saya tidak ingin merusaknya
- Saya memakai persis seperti itu: kombinasi Mini M4 Pro 64GB dan qwen3.6
  Pendengaran saya memang tidak terlalu baik, tetapi saya rasa saya akan mendengar suara kipas kalau ada; saya belum pernah mendengarnya sekali pun, sampai-sampai harus mencari tahu apakah perangkat itu benar-benar punya kipas
Tulisan ini didasarkan pada pengalaman menjalankan Qwen 3.6 di MacBook Pro 128GB
Sebagai referensi, MBP 128GB saat ini mulai dari $6699 [0]
Mungkin ada orang yang rela membayar premi itu demi privasi, tetapi dengan biaya sekitar 10 kali lipat MacBook Neo, Anda bisa membeli cukup banyak kredit OpenRouter atau API dari lab riset terdepan
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
- Perhitungannya sulit dibantah, tetapi kalau saya, saya tidak akan menarik garis seperti itu
  Memiliki mesin yang bisa menjalankan LLM lokal yang cukup masuk akal seperti Gemma 4 12B benar-benar bernilai
  Saya tidak tahu seberapa sering kita akan melakukan coding agen tanpa pengawasan yang serius hanya dengan satu MacBook, tetapi kalau saya tidak pernah mencoba sendiri model lokal, llama.cpp, LM Studio, dan sebagainya, saya tidak akan memahami bidang ini seperti sekarang
  Bidang ini terlalu besar, melelahkan, penuh jargon, dan bagi seseorang yang sudah lewat usia 50-an, mudah sekali merasa kewalahan
  Setelah mengaturnya sendiri di mesin bekas, melihat panggilan API, dan memahami istilah-istilahnya, barulah semuanya mulai terasa konkret
  Neo terlalu kecil untuk membuat peluang seperti ini terasa lebih nyata dan mudah dipahami
- Semua eksperimen Qwen 3.6 sebenarnya cukup dengan Apple Silicon 48GB
  Saya rasa bisa lebih rendah lagi jika memakai kuantisasi yang lebih agresif
  Secara ekonomi, menjalankan model di laptop tidak terlalu masuk akal, dan jika hanya melihat biaya listrik murni pun mungkin sulit mengalahkan harga token yang dihasilkan dalam skala besar
  Meski begitu, ini adalah terobosan yang akan mengubah permainan
  Dulu, vibe coding seperti ini di perangkat konsumen bukan sekadar sulit atau mahal, melainkan sama sekali tidak mungkin
- Model dense Qwen 3.6 27B juga bisa dijalankan di DGX Spark dengan performa serupa [1][2], dan harganya sekitar $4000
  Asus Ascent GX10 juga dijual $3999 di beberapa peritel
  Secara teori, Anda juga bisa mendapatkan VRAM 48GB dengan dua kartu 3090, tetapi dibandingkan MacBook Pro atau GB10, itu memakan banyak ruang dan menghasilkan banyak panas
  [1] https://x.com/MiaAI_lab/status/2070859135399182444
  [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
- Model yang disebutkan bisa dijalankan dengan mudah jika memiliki VRAM 24GB atau lebih, dan ada model serupa yang berjalan baik bahkan di VRAM 16GB
  Jadi 128GB bukan syarat wajib di sini
- Token atau kredit akan hilang setelah dipakai, tetapi MacBook tetap ada
  Di MacBook yang sama, Anda juga bisa menjalankan model lain
  Melihat uang yang dibakar orang untuk SaaS setiap bulan, ada kasus di mana dalam 5 bulan saja uang itu sudah setara modal MacBook
  Dan ini bukan sekadar persoalan “privasi data”
  Jika memakai Claude, pada dasarnya Anda mengirim semuanya ke Anthropic, dan itu cukup gila
Sulit untuk mengatakan bahwa contoh-contohnya mencerminkan “pekerjaan nyata”
Setidaknya bukan sesuatu yang saya anggap sebagai pekerjaan nyata
Menebak proyek baru zero-shot relatif mudah bahkan bagi model kecil
Karena tidak banyak konteks yang perlu dibangun, dan model bisa dengan mudah kembali ke contoh serupa dalam data pelatihan
Selama tidak diminta menciptakan sesuatu yang benar-benar baru, besar kemungkinan hasilnya lumayan
Ujian yang sebenarnya adalah apakah ia bisa bekerja pada codebase yang sudah ada
Dalam eksperimen terbatas yang saya lakukan, Qwen 3.5 cukup baik untuk aplikasi Rust+React, tetapi kurang bagus untuk monolith C#
Bukan sampai tidak bisa dipakai, tetapi cukup buruk sampai saya kembali ke Claude setelah 20 menit; kalau saya kehilangan akses ke model cloud dan harus hanya memakai Qwen, rasanya saya akan cukup sedih
- Tidak terkait langsung dengan pernyataan “menebak proyek baru zero-shot relatif mudah bahkan bagi model kecil”, tetapi dulu ada masa ketika butuh seminggu untuk menjalankan satu proof of concept, dan kalimat seperti ini terdengar seperti fiksi ilmiah murni
- Saat mengevaluasi model kecil, fakta bahwa kelemahannya makin terlihat semakin jauh dari kode contoh standar sering diremehkan
  Qwen3.6 menghasilkan hasil yang mengejutkan untuk model kecil pada aplikasi sederhana yang ada di mana-mana
  Jika diminta membuat aplikasi boilerplate kecil dengan alat populer seperti aplikasi TODO React atau shadcn, hasilnya cukup meyakinkan
  Namun ketika keluar dari tugas umum dan masuk ke pekerjaan saya yang lebih niche, ia berputar-putar selama berjam-jam dan akhirnya menghasilkan sesuatu yang tidak bisa dipakai sampai bikin mengeluh
  Untuk refactoring sederhana atau tugas kecil dengan instruksi yang sangat jelas, ia cukup baik sebagai pengganti mengetik
  Tetapi begitu masuk ke sesi konteks panjang atau topik non-mainstream, kelemahannya sangat jelas
  Kuantisasi yang banyak dipakai agar muat di hardware kecil juga memperburuk masalah
  Di internet ada nuansa bahwa kuantisasi 4-bit hampir lossless dan kuantisasi key-value cache q8_0/q8_0 juga praktis tanpa loss, tetapi dalam proyek nyata kuantisasi seperti ini cukup banyak menurunkan performa konteks panjang
- Saya telah memakai pi dan codex cli lama untuk pengembangan kerja bersama Qwen 3.6 27B dengan konteks 100k, dan sangat terkejut dengan sebaik apa ia bekerja
  Tidak sempurna, tetapi cukup untuk mempercepat alur pengembangan sehari-hari, dan saya terutama memakainya untuk menulis Go dan C#
- Ada beberapa pekerjaan yang berjalan baik dengan model sekelas Gemma 4 12B
  Misalnya merancang proyek besar yang terdiri dari library-library kecil agar masing-masing bisa dikodekan dan dites secara independen, merapikan proyek coding lama, menambahkan README, memberi komentar pada kode, menunjukkan contoh penggunaan API baru dan memperbarui tempat-tempat yang memakai API tersebut
  Semuanya adalah tugas berskala kecil
  Untuk proyek integrasi besar, API komersial DeepSeek v4 Pro sangat murah dan membantu menghasilkan hasil yang baik
- Dalam pengalaman saya, model kecil kesulitan memulai proyek baru bahkan pada konsep proyek yang mendasar
  Terlalu banyak keputusan yang harus dibuat, dan mereka tidak pandai melakukannya
  Jika Anda tidak berharap ia bertindak cerdas, mengubah kode yang sudah ada jauh lebih mudah
  Daripada mengatakan “tambahkan fitur X” dan membiarkannya menjelajahi codebase, lebih baik tentukan file yang relevan lalu katakan “tujuannya adalah menambahkan fitur X ke kode ini dan ikuti pedoman Y”
  Jika manusia menangani bagian pengambilan keputusan yang paling sulit, model cukup mengikuti instruksi dan mewarnai di dalam garis
Menjalankan model ini secara offline di MacBook Pro dengan memori 48GB memang bisa menyelesaikan tugas, tetapi tentu saja lebih lambat daripada Claude atau Codex
Melihat orang membeli MBP 128GB seharga ribuan dolar untuk menjalankan model yang secara objektif jauh di bawah yang tercanggih membuat saya merasa seperti kehilangan akal
Dengan uang untuk 128GB M5 MAX, di sini saya bahkan bisa membeli mobil baru
Saya tidak tahu apa yang saya lewatkan, dan rasanya pengembang di negara lain benar-benar hidup di dunia yang berbeda
Saya tahu harga absolut di tempat saya tinggal juga lebih mahal daripada di AS, jadi rasanya makin begitu
Jika ada orang waras di negara lain membeli benda seperti ini, saya rasa begitu tiba di sini ia akan langsung menjualnya untuk menghemat uang
- Menurut saya memilih form factor laptop itu bodoh
  Musim gugur lalu saya merakit workstation dengan dua 3090 bekas, masing-masing 850 dolar Kanada, meski sekarang harga terendahnya sekitar 1200
  Dengan VRAM 48GB, itu cukup masuk akal, dan saya memakai Qwen 3.6 27B untuk berbagai tugas membuat knowledge graph dari korpus teks dan melakukan reasoning
  Saya membandingkannya dengan yang tersedia di OpenRouter, dan dengan biaya token $0, Qwen 27B lokal sulit dikalahkan
  Memang lebih lambat dan kantor jadi beberapa derajat lebih hangat, tetapi tidak ada yang bisa mencabut colokannya, tidak ada yang mengintip dari balik bahu, dan hasilnya berada di level yang mirip dengan model-model tercanggih
  Saya menantikan Qwen 3.7 berukuran serupa
  Sejauh yang saya lihat, ini lompatan besar dibanding versi sebelumnya
- Saya tidak paham mengapa orang di kisaran harga ini membeli laptop Mac alih-alih desktop dengan GPU
  Mungkin untuk pamer bahwa barangnya portabel
- Dalam pembukuan saya, itu sudah menjadi aset yang nilainya cukup naik, dan kemungkinan besar bisa saya jual kembali seharga harga beli dalam 7–10 tahun ke depan
  Karena cicilan bulanan Apple, $5k menjadi $416 per bulan selama setahun dan tanpa bunga
  Saya bisa menjalankan model sekelas DS4 dan model terbuka lain tanpa kuantisasi, kadang beberapa sekaligus
  Bayangkan nilainya jika skenario gelap terkait perang Taiwan/Tiongkok Raya, konektivitas global, atau keandalan model komersial terjadi
  Ini adalah perangkat yang sangat sulit dibuat pada titik lain dalam sejarah, dan saya merasa seharusnya membeli lebih banyak
  Saya melihat sinyal, tren harga, dan stok habis secara real time, dan orang lain yang mampu pasti juga sedang menimbun
- Benar, bagi banyak orang 6 ribu dolar itu uang receh
- Betul
  Orang-orang di tempat Anda berpenghasilan lebih rendah lebih dari satu digit dibanding orang Amerika
Banyak yang mengatakan bahwa hardware untuk menjalankan model lokal itu mahal, tetapi jika Anda tidak tertarik pada perangkat Apple, Intel Arc Pro B50/B60/B70 yang tampaknya cukup bagus dari sisi harga-kinerja jarang dibahas
Baru-baru ini saya membeli model B70 dengan RAM 32GB seharga sekitar $1200 termasuk pajak penjualan dan bea masuk untuk tempat tinggal di luar AS, dan di wilayah lain mungkin bisa lebih murah
Bandwidth memorinya 608GB/s
M5 Max GPU 32-core adalah 460GB/s, GPU 40-core 614GB/s, dan 3090 sekitar 900GB/s sehingga masih lebih cepat, tetapi Anda mendapatkan VRAM 32GB dengan harga jauh lebih murah daripada kartu Nvidia sekelas
Artinya, Anda mendapatkan sekitar 1/3 bandwidth 5090 dengan 1/3 harga, tetapi dengan VRAM 32GB yang sama, jadi ini kompromi menarik jika ingin menjalankan model kuantisasi yang lebih besar dan konteks tertentu dengan anggaran rendah
Saya masih mengeksplorasi model lokal, jadi tidak ingin menghabiskan $5000~$10000 untuk pengujian; kalau bisa bereksperimen lebih murah, performa yang sedikit lebih lambat tidak masalah
Awalnya saya membeli B50 16GB dengan TDP 70W untuk menguji kartu Intel di stack saya, dan ternyata berjalan mudah di Ubuntu dan Vulkan
Saya banyak melihat tulisan yang menyebutnya merepotkan dan tidak bisa dipakai, tetapi tampaknya kebanyakan terkait SYCL, dan karena SYCL juga tidak terlihat lebih cepat daripada Vulkan, saya tidak melihat alasan untuk memakainya
B50 harganya $370 termasuk pajak dan bea masuk, dan secara harfiah setelah apt install library Vulkan, ia berjalan dengan driver xe bawaan 26.04 dan build Vulkan llama.cpp
SR-IOV PF/VF juga berjalan di qemu/kvm tanpa trik khusus, dan setelah dibeli fwupdmgr memperbarui firmware dua kali, jadi sepertinya Intel memang berniat mendukung produk-produk ini
Menurut saya sweet spot saat ini adalah kombinasi dua 3090, motherboard PCIe 4, dan RAM DDR4 64~128GB
Sekarang bisa dirakit sekitar $3k, dan menjalankan Qwen 27B/35B di int4 dengan sangat cepat
Sebagai referensi, saya menjalankan gemma4 31B di 5090 dan hasilnya cukup bagus
Saya memakai QAT, MTP, dan konteks 128k
Qwen 3.6 27B juga bagus, tetapi saya rasa Gemma4 agak diremehkan
- Pengalaman saya juga mirip
  Saya menjalankan gemma4 31B di 4090 dengan llm.cpp dan model unsloth
  Saya juga memakai Qwen 3.6, dan Qwen lebih cepat sehingga bagus untuk reasoning dan perencanaan, sementara Gemma4 menghasilkan kualitas kode yang jauh lebih tinggi pada percobaan pertama
  Untuk Rust, C++, dan C#, perubahan yang perlu dilakukan lebih sedikit sampai pada level yang menurut saya layak di-merge
- Saya belum berhasil membuat Gemma4 mengakhiri turn dengan benar
  Selalu tiba-tiba terpotong atau membuat tool call yang salah, mungkin saya yang salah mengatur oMLX atau Opencode
- Bagus
  Di 4080 Super, saya bolak-balik memakai Qwen 3.5 9B Q6_M dan Gemma4 12B Q4_K_M
  Keduanya punya kecepatan mirip dan bisa saling diminta meninjau rencana atau perubahan
  Untuk proyek kecil keduanya cukup mampu, dan untuk tugas yang sedikit lebih sulit bisa dinaikkan ke kuantisasi yang lebih baik
Sebelum membeli komputer dengan memori terpadu, perlu diketahui bahwa pada perangkat seperti DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo, model dense umumnya lambat
GPU khusus menjalankan model dense jauh lebih baik
Sebaiknya cari benchmark perangkat yang akan dibeli, dan jika benar-benar menginginkan perangkat semacam ini, lebih baik menjalankan Qwen 3.6 35B atau model sparse MoE lainnya
Saya telah menjalankan qwen 3.6 35b a3b dengan opencode di MacBook Pro 16 inci M3 Max RAM 64GB, dan itu sangat bagus untuk perencanaan serta coding lokal
Jujur, melihat 64GB sekuat ini, kadang saya merasa seharusnya memilih 128GB agar lebih future-proof
Di sisi lain, saya juga belum pernah mentok karena model yang sedikit lebih besar daripada qwen
- Saya juga menjalankan Qwen 3.6 35B A3b di laptop Windows, dan dengan kombinasi RAM 64GB serta GPU 4GB, setidaknya masih bisa ditoleransi
  Tidak cepat, hanya beberapa token per detik, lebih lambat daripada kecepatan membaca, tetapi bisa diberi tugas lalu ditinggal dan kembali lagi nanti
  Itu laptop $600 yang saya beli di eBay beberapa tahun lalu, bukan mesin seharga $6000
  Saya penasaran apakah Mac dengan memori terpadu atau GPU desktop besar 24GB benar-benar menghasilkan puluhan hingga ratusan token per detik yang sepadan dengan biaya 10~20 kali lipat
- Saya penasaran seberapa cepat responsnya, dalam token per detik
  Dari pengalaman, model 20~35GB plus key-value cache saja sudah banyak memakan 64GB bawaan, jadi jika ingin tetap membuka browser, editor, dan lain-lain, keseluruhan 128GB jelas membantu

Qwen 3.6 27B adalah titik optimal untuk pengembangan lokal

Alasan merekomendasikan Qwen 3.6 27B

Pengujian sederhana dan hasil pekerjaan nyata

Menjalankan secara lokal dengan llama.cpp

Contoh menjalankan server

Konfigurasi OpenCode

Menjalankan untuk chat terminal

Pengukuran performa Apple Silicon

Perbandingan dengan model mutakhir yang ada

Langkah berikutnya dalam menjalankan model lokal

Bacaan terkait

1 komentar

Opini Hacker News