5 poin oleh GN⁺ 6 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Qwen 3.6 27B tampak sebagai pilihan yang bermakna untuk tugas serbaguna bahkan bagi pengguna yang sebelumnya skeptis terhadap model lokal, dan direkomendasikan sebagai model dense yang lebih lambat tetapi lebih kuat dibanding 35B A3B
  • Dalam uji kreasi dan coding, kekuatannya terlihat pada kepatuhan terhadap batasan, dan di OpenCode model ini membuat permainan ranjau heksagonal berbasis pnpm dalam bentuk paket Node hanya dengan satu prompt
  • Dengan menggabungkan kuantisasi GGUF 8-bit dari llama.cpp dan Hugging Face, model ini bisa dijalankan secara lokal, dan bahkan bisa disiapkan untuk lingkungan agent coding dengan MTP, pemuatan layer GPU, flash attention, dan konteks 64k
  • Dalam pengujian di Macbook Max M5 128GB, Qwen3.6-27B 8-bit dengan llama.cpp + MTP mencapai 32 tok/s dan menggunakan sekitar 42GB RAM; meski 35B A3B lebih cepat, kualitas kodenya lebih baik sehingga 27B lebih disukai
  • Menurut Artificial Analysis, Qwen3.6-27B berada di skor 37, setara level pertengahan 2025 seperti GPT-5 / Claude Sonnet 4.5, dan praktis untuk data sensitif, pekerjaan offline, serta pengoperasian model sendiri yang tidak bisa ditarik kembali

Alasan merekomendasikan Qwen 3.6 27B

  • Qwen 3.6 tersedia dalam dua varian
  • Qwen 3.6 27B banyak mendapat respons sebagai model yang “berkinerja di atas kelasnya”, dengan contoh terkait di Will it Mythos?
  • Saat dijalankan lokal, komputer bisa menjadi panas, tetapi performanya cukup layak untuk diterima

Pengujian sederhana dan hasil pekerjaan nyata

  • Sebagai smoke test sederhana, digunakan penulisan dengan batasan alih-alih “penguins on a bicycle” milik Simon Willison
  • Saat diminta menulis puisi 8 baris tentang tari Zouk dan fisika kuantum, alur berpikirnya terasa natural dalam menangani istilah kuantum dan rima
  • Ketika diminta di OpenCode untuk membuat permainan ranjau heksagonal menggunakan pnpm, model ini menghasilkan paket Node yang benar hanya dengan satu prompt
  • Qwen 3.6 35B A3B memang lebih cepat, tetapi tidak mengikuti instruksi untuk membuat paket dan justru mengimplementasikannya sebagai satu berkas index.html
  • Untuk tugas kerja umum pun, model ini bisa menghasilkan keluaran yang berfungsi hanya dengan prompt singkat, dengan responsivitas dan default yang cukup baik
    • Menurut standar model frontier memang tidak istimewa, tetapi untuk model lokal ini sudah berada di tingkat yang praktis

Menjalankan secara lokal dengan llama.cpp

  • Menjalankan model lokal bisa dilakukan dengan beberapa baris CLI, dan alat yang direkomendasikan adalah llama.cpp

  • Model dijalankan dengan mengunduh model terkuantisasi yang ukurannya lebih kecil dari Hugging Face

    • Penyedia model kuantisasi yang populer antara lain unsloth dan bartowski
    • Model dasarnya biasanya memakai presisi BF16
    • Kuantisasi 8-bit hampir tidak menimbulkan penurunan kualitas sambil memangkas kebutuhan ruang menjadi setengahnya
    • Kuantisasi bit yang lebih rendah membuat model lebih kecil dan berpotensi lebih cepat, tetapi ada biaya pada kualitas
    • Perbandingan 27B ada di Reddit benchmark, dan perbandingan 35B A3B ada di Hugging Face discussion
  • Contoh menjalankan server

    llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
        --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
    
    • -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: mengambil model dari Hugging Face, lalu digunakan ulang pada eksekusi berikutnya
    • -m ~/models/Qwen3.6-27B-Q8_0.gguf: jika berkas model sudah ada, ini bisa dipakai sebagai gantinya
    • draft-mtp: menggunakan multi-token prediction untuk memprediksi token berikutnya dengan model yang lebih cepat guna meningkatkan kecepatan
    • -ngl 999: memuat semua layer ke GPU
    • -fa on: mengaktifkan flash attention
    • -c 65536: menetapkan ukuran konteks ke 64k token
    • Konteks native Qwen 3.6 27B adalah 256k
    • --port 8080: menetapkan port tetap untuk dipakai di konfigurasi lain
    • Jika membuka http://127.0.0.1:8080, pengguna bisa langsung mengobrol dengannya
  • Konfigurasi OpenCode

    • Server yang sama juga bisa dipakai untuk vibe coding
    • Di OpenCode, tambahkan konfigurasi berikut ke ~/.config/opencode/opencode.jsonc
    {
      "$schema": "https://opencode.ai/config.json";,
      "provider": {
        "llama": {
          "name": "llama.cpp (local)",
          "npm": "@ai-sdk/openai-compatible",
          "options": {
            "baseURL": "http://127.0.0.1:8080/v1";,
            "apiKey": "local"
          },
          "models": {
            "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
          }
        }
      },
      "model": "llama/qwen3.6-27b"
    }
    
  • Menjalankan untuk chat terminal

    • Jika hanya ingin chat di terminal, llama-server bisa diganti dengan llama-cli
    llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                    -ngl 999 -fa on -c 65536
    

Pengukuran performa Apple Silicon

  • Hasil pengujian dirangkum di benching-local-llms-on-apple-silicon, dan dijalankan di Macbook Max M5 128GB
  • Qwen3.6-35B-A3B · 8-bit
    • MLX: 85 tok/s, 37GB RAM
    • llama.cpp: 93 tok/s, 44GB RAM
    • llama.cpp + MTP: 105 tok/s, 45GB RAM
  • Qwen3.6-27B · 8-bit
    • MLX: 17 tok/s, 28GB RAM
    • llama.cpp: 18 tok/s, 41GB RAM
    • llama.cpp + MTP: 32 tok/s, 42GB RAM
  • DeepSeek-V4-Flash · Q2–Q4
    • llama.cpp: 33 tok/s, 103GB RAM
  • Kecepatan 30 tok/s bukanlah hasil yang buruk, dan masih berada dalam rentang API model frontier pada umumnya
  • mlx-lm memang ditujukan untuk Apple Silicon, tetapi dalam pengujian ini llama.cpp lebih cepat
  • Selama berjalan, utilisasi GPU mencapai 95%, sehingga terlihat memanfaatkan sumber daya yang tersedia secara efisien
  • Kedua varian Qwen 3.6 dapat berjalan dalam RAM bersama 48GB di Apple Silicon
  • Pada kartu Nvidia RTX konsumen, kuantisasi yang lebih agresif diperlukan, tetapi inferensinya berjalan lebih cepat
    • Di Hacker News, gfosco menyatakan bahwa di 5090 ia mendapatkan 50 tok/s secara konsisten pada konteks 123k dengan kuantisasi Q6_K dan Q4_0 KV, serta menggunakan sekitar 28/32GB VRAM lewat LM Studio
  • 35B A3B memang 3 kali lebih cepat, tetapi 27B tetap layak dipilih jika kualitasnya lebih tinggi meski jumlah kode yang dihasilkan hanya sepertiganya

Perbandingan dengan model mutakhir yang ada

  • Dalam perbandingan skor Artificial Analysis, Qwen3.6-27B mendapat 37 poin
  • Item utama dalam tabel perbandingan adalah sebagai berikut
    • Gemma 4 31B: 29 poin, level akhir 2024, o1 / Claude 3.5 Sonnet
    • Qwen3.6-35B-A3B: 32 poin, level awal 2025, o3 / Claude 4 Sonnet
    • Qwen3.6-27B: 37 poin, level pertengahan 2025, GPT-5 / Claude Sonnet 4.5
    • DeepSeek-V4-Flash: 40 poin, level akhir 2025, GPT-5.2 / Claude Opus 4.5
  • Benchmark tambahan ada di notes, dan tren umumnya serupa
  • Gemma 4 31B dimasukkan ke perbandingan karena banyak orang memakainya sebagai default untuk coding lokal
  • Baik benchmark maupun respons online sama-sama jauh lebih menyukai Qwen 3.6 27B dibanding Gemma 4 31B
  • Namun, perlu berhati-hati dengan kondisi kuantisasi
    • Kuantisasi 8-bit kemungkinan tidak banyak memengaruhi hasil
    • DwarfStar4 memakai kuantisasi 2–4 bit yang jauh lebih agresif untuk DeepSeek V4 Flash, sehingga jelas lebih buruk daripada model penuhnya
    • Dalam kondisi ini, Qwen 3.6 27B memberi kesan setara atau sedikit lebih baik daripada DwarfStar4
    • Untuk proyek dengan konteks lebih panjang, DS4 mungkin bisa unggul

Langkah berikutnya dalam menjalankan model lokal

  • Menjalankan model sendiri semakin menjadi pilihan yang realistis
  • Kondisi model frontier proprietari dapat semakin mendorong tren ini
    • Claude Fable 5 sedang menurun
    • Model frontier lain berjalan di atas subsidi besar-besaran, dengan struktur di mana pembayaran 100 dolar per bulan bisa memakai token senilai ribuan dolar
  • Model yang dijalankan secara lokal bisa di-fine-tune sesuai kebutuhan dan tidak dapat ditarik kembali dari luar
  • Perusahaan dapat memakai model lokal untuk data proprietari dan data sensitif
  • Individu dapat memanfaatkan model lokal untuk proyek offline, atau ketika tidak ingin membagikan rahasia mendalam maupun data medis ke AS atau Tiongkok
  • Rilis frontier-level open-weight GLM 5.2 semakin mempercepat arus model lokal
    • Qwen 3.6 hanyalah batu loncatan, dan GLM 5.2 juga bisa dijalankan secara lokal
    • GLM 5.2 memang tidak bisa dijalankan di Macbook atau satu RTX 5090, tetapi masih berada pada tingkat yang bisa ditanggung anggaran perusahaan
  • Ke depan, bisa muncul model yang lebih cerdas daripada yang mutakhir saat ini namun tetap dapat berjalan di perangkat lokal, mungkin bahkan di ponsel
  • Model saat ini menggabungkan kecerdasan mentah dan pengetahuan faktual dalam bobot yang sama, tetapi model masa depan kemungkinan akan memisahkan keduanya dengan menyerahkan pengetahuan ke tool calling

1 komentar

 
GN⁺ 6 jam lalu
Opini Hacker News
  • MacBook Pro M5 128GB RAM dan qwen3.6 memang menarik, tetapi kalau Anda serius ingin coding dengan LLM lokal, sebaiknya jangan membeli MacBook ini
    Alasannya sederhana: jari-jari jadi panas dan suara kipasnya bikin kepala serasa mau pecah
    Menjalankan tugas kompleks di laptop yang benar-benar dipakai sehari-hari itu tidak realistis; dalam mode clamshell memang bisa, tetapi saat AI coding atau pekerjaan agen, perangkatnya sulit disentuh
    Jika ingin menjalankan Qwen3.6 27B/35B dengan benar, lebih baik membeli MacMini M4 64GB, menaruhnya di basement atau setidaknya beberapa meter jauhnya, lalu mengaksesnya lewat LAN atau Tailscale; harganya juga hampir sekitar 1/3 dari MacBook Pro

    • Karena alasan yang sama, saya membeli laptop 32GB biasa
      Saya tahu betapa berisik dan panasnya bahkan hanya menjalankan model yang relatif kecil seperti Qwen 27B atau Gemma 4 31B di GPU desktop
      Strix Halo punya satu kipas besar sehingga tidak terlalu berisik, tetapi tetap jadi panas, dan kipas-kipas kecil di laptop pada akhirnya harus menjerit untuk membuang panas itu
      Gagasan laptop yang bisa menjalankan model di mana saja memang bagus, tetapi pekerjaan itu lebih tepat ditangani model cloud, dan karena datanya tidak banyak bolak-balik, itu juga bukan masalah besar
      Untuk pekerjaan yang membutuhkan privasi, cukup host model sendiri di mesin besar di rumah lalu akses lewat VPN
      Namun model seperti Gemma 4 12B QAT 4-bit yang berjalan baik bahkan di perangkat 16GB atau tablet sangat bagus untuk tugas tertentu, dan sebagai model vision self-hosted untuk klasifikasi, identifikasi, serta pelabelan, itu yang terbaik dari semua yang saya uji
      Prosanya juga lumayan dan penggunaan tool-nya cukup baik, tetapi tidak banyak pengetahuan dunia yang bisa masuk ke dalam 7GB, jadi untuk riset tetap perlu pencarian, dan saya tidak ingin memakainya untuk coding yang lebih dari sekadar kode sangat sederhana
    • Coba gunakan flag --power di DwarfStar 4: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
    • Kalau “jari terbakar dan kepala pecah karena bising”, bukankah cukup menaruh Mac mini di ruangan lain?
      Selama kira-kira enam bulan terakhir saya menjalankan coding agent dalam mode YOLO di laptop, dan meski kebanyakan tidak lokal, cara memakainya tanpa rasa takut adalah dengan membuat pengguna Linux khusus untuk agen bernama agent
      Agen boleh menghapus direktori home /agent, tetapi tidak bisa menyentuh atau bahkan membaca direktori home saya
      Setiap kali harus masuk sebagai pengguna itu dengan sudo, jadi saya membuat alias, dan jika muncul masalah izin atau kepemilikan, saya menanganinya dengan sebuah fungsi yang saya jalankan sekali sehari
      Tetap saja ada kerepotan, jadi kalau punya mesin khusus, saya rasa saya akan langsung memberinya root; untuk iseng saya memberi Claude akses root ke VPS $3, dan itu berjalan baik
      Setelah beberapa bulan coba-coba, pada akhirnya saya seperti menemukan kembali dari awal kesimpulan “beli saja Mac mini”
    • Saat mencoba pekerjaan LLM lokal di M4 Max dengan pi, rasanya lebih panas daripada MacBook mana pun yang pernah saya pakai sejauh ini
      Bahkan dari jarak beberapa inci pun terasa panas radiasinya, dan rasanya lebih panas daripada Intel MacBook yang pernah saya gunakan, jadi saya hentikan
      Karena masalah pasokan dan kenaikan harga, mungkin saya harus memakai laptop ini selama 10 tahun, jadi saya tidak ingin merusaknya
    • Saya memakai persis seperti itu: kombinasi Mini M4 Pro 64GB dan qwen3.6
      Pendengaran saya memang tidak terlalu baik, tetapi saya rasa saya akan mendengar suara kipas kalau ada; saya belum pernah mendengarnya sekali pun, sampai-sampai harus mencari tahu apakah perangkat itu benar-benar punya kipas
  • Tulisan ini didasarkan pada pengalaman menjalankan Qwen 3.6 di MacBook Pro 128GB
    Sebagai referensi, MBP 128GB saat ini mulai dari $6699 [0]
    Mungkin ada orang yang rela membayar premi itu demi privasi, tetapi dengan biaya sekitar 10 kali lipat MacBook Neo, Anda bisa membeli cukup banyak kredit OpenRouter atau API dari lab riset terdepan
    [0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...

    • Perhitungannya sulit dibantah, tetapi kalau saya, saya tidak akan menarik garis seperti itu
      Memiliki mesin yang bisa menjalankan LLM lokal yang cukup masuk akal seperti Gemma 4 12B benar-benar bernilai
      Saya tidak tahu seberapa sering kita akan melakukan coding agen tanpa pengawasan yang serius hanya dengan satu MacBook, tetapi kalau saya tidak pernah mencoba sendiri model lokal, llama.cpp, LM Studio, dan sebagainya, saya tidak akan memahami bidang ini seperti sekarang
      Bidang ini terlalu besar, melelahkan, penuh jargon, dan bagi seseorang yang sudah lewat usia 50-an, mudah sekali merasa kewalahan
      Setelah mengaturnya sendiri di mesin bekas, melihat panggilan API, dan memahami istilah-istilahnya, barulah semuanya mulai terasa konkret
      Neo terlalu kecil untuk membuat peluang seperti ini terasa lebih nyata dan mudah dipahami
    • Semua eksperimen Qwen 3.6 sebenarnya cukup dengan Apple Silicon 48GB
      Saya rasa bisa lebih rendah lagi jika memakai kuantisasi yang lebih agresif
      Secara ekonomi, menjalankan model di laptop tidak terlalu masuk akal, dan jika hanya melihat biaya listrik murni pun mungkin sulit mengalahkan harga token yang dihasilkan dalam skala besar
      Meski begitu, ini adalah terobosan yang akan mengubah permainan
      Dulu, vibe coding seperti ini di perangkat konsumen bukan sekadar sulit atau mahal, melainkan sama sekali tidak mungkin
    • Model dense Qwen 3.6 27B juga bisa dijalankan di DGX Spark dengan performa serupa [1][2], dan harganya sekitar $4000
      Asus Ascent GX10 juga dijual $3999 di beberapa peritel
      Secara teori, Anda juga bisa mendapatkan VRAM 48GB dengan dua kartu 3090, tetapi dibandingkan MacBook Pro atau GB10, itu memakan banyak ruang dan menghasilkan banyak panas
      [1] https://x.com/MiaAI_lab/status/2070859135399182444
      [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
    • Model yang disebutkan bisa dijalankan dengan mudah jika memiliki VRAM 24GB atau lebih, dan ada model serupa yang berjalan baik bahkan di VRAM 16GB
      Jadi 128GB bukan syarat wajib di sini
    • Token atau kredit akan hilang setelah dipakai, tetapi MacBook tetap ada
      Di MacBook yang sama, Anda juga bisa menjalankan model lain
      Melihat uang yang dibakar orang untuk SaaS setiap bulan, ada kasus di mana dalam 5 bulan saja uang itu sudah setara modal MacBook
      Dan ini bukan sekadar persoalan “privasi data”
      Jika memakai Claude, pada dasarnya Anda mengirim semuanya ke Anthropic, dan itu cukup gila
  • Sulit untuk mengatakan bahwa contoh-contohnya mencerminkan “pekerjaan nyata”
    Setidaknya bukan sesuatu yang saya anggap sebagai pekerjaan nyata
    Menebak proyek baru zero-shot relatif mudah bahkan bagi model kecil
    Karena tidak banyak konteks yang perlu dibangun, dan model bisa dengan mudah kembali ke contoh serupa dalam data pelatihan
    Selama tidak diminta menciptakan sesuatu yang benar-benar baru, besar kemungkinan hasilnya lumayan
    Ujian yang sebenarnya adalah apakah ia bisa bekerja pada codebase yang sudah ada
    Dalam eksperimen terbatas yang saya lakukan, Qwen 3.5 cukup baik untuk aplikasi Rust+React, tetapi kurang bagus untuk monolith C#
    Bukan sampai tidak bisa dipakai, tetapi cukup buruk sampai saya kembali ke Claude setelah 20 menit; kalau saya kehilangan akses ke model cloud dan harus hanya memakai Qwen, rasanya saya akan cukup sedih

    • Tidak terkait langsung dengan pernyataan “menebak proyek baru zero-shot relatif mudah bahkan bagi model kecil”, tetapi dulu ada masa ketika butuh seminggu untuk menjalankan satu proof of concept, dan kalimat seperti ini terdengar seperti fiksi ilmiah murni
    • Saat mengevaluasi model kecil, fakta bahwa kelemahannya makin terlihat semakin jauh dari kode contoh standar sering diremehkan
      Qwen3.6 menghasilkan hasil yang mengejutkan untuk model kecil pada aplikasi sederhana yang ada di mana-mana
      Jika diminta membuat aplikasi boilerplate kecil dengan alat populer seperti aplikasi TODO React atau shadcn, hasilnya cukup meyakinkan
      Namun ketika keluar dari tugas umum dan masuk ke pekerjaan saya yang lebih niche, ia berputar-putar selama berjam-jam dan akhirnya menghasilkan sesuatu yang tidak bisa dipakai sampai bikin mengeluh
      Untuk refactoring sederhana atau tugas kecil dengan instruksi yang sangat jelas, ia cukup baik sebagai pengganti mengetik
      Tetapi begitu masuk ke sesi konteks panjang atau topik non-mainstream, kelemahannya sangat jelas
      Kuantisasi yang banyak dipakai agar muat di hardware kecil juga memperburuk masalah
      Di internet ada nuansa bahwa kuantisasi 4-bit hampir lossless dan kuantisasi key-value cache q8_0/q8_0 juga praktis tanpa loss, tetapi dalam proyek nyata kuantisasi seperti ini cukup banyak menurunkan performa konteks panjang
    • Saya telah memakai pi dan codex cli lama untuk pengembangan kerja bersama Qwen 3.6 27B dengan konteks 100k, dan sangat terkejut dengan sebaik apa ia bekerja
      Tidak sempurna, tetapi cukup untuk mempercepat alur pengembangan sehari-hari, dan saya terutama memakainya untuk menulis Go dan C#
    • Ada beberapa pekerjaan yang berjalan baik dengan model sekelas Gemma 4 12B
      Misalnya merancang proyek besar yang terdiri dari library-library kecil agar masing-masing bisa dikodekan dan dites secara independen, merapikan proyek coding lama, menambahkan README, memberi komentar pada kode, menunjukkan contoh penggunaan API baru dan memperbarui tempat-tempat yang memakai API tersebut
      Semuanya adalah tugas berskala kecil
      Untuk proyek integrasi besar, API komersial DeepSeek v4 Pro sangat murah dan membantu menghasilkan hasil yang baik
    • Dalam pengalaman saya, model kecil kesulitan memulai proyek baru bahkan pada konsep proyek yang mendasar
      Terlalu banyak keputusan yang harus dibuat, dan mereka tidak pandai melakukannya
      Jika Anda tidak berharap ia bertindak cerdas, mengubah kode yang sudah ada jauh lebih mudah
      Daripada mengatakan “tambahkan fitur X” dan membiarkannya menjelajahi codebase, lebih baik tentukan file yang relevan lalu katakan “tujuannya adalah menambahkan fitur X ke kode ini dan ikuti pedoman Y”
      Jika manusia menangani bagian pengambilan keputusan yang paling sulit, model cukup mengikuti instruksi dan mewarnai di dalam garis
  • Menjalankan model ini secara offline di MacBook Pro dengan memori 48GB memang bisa menyelesaikan tugas, tetapi tentu saja lebih lambat daripada Claude atau Codex

  • Melihat orang membeli MBP 128GB seharga ribuan dolar untuk menjalankan model yang secara objektif jauh di bawah yang tercanggih membuat saya merasa seperti kehilangan akal
    Dengan uang untuk 128GB M5 MAX, di sini saya bahkan bisa membeli mobil baru
    Saya tidak tahu apa yang saya lewatkan, dan rasanya pengembang di negara lain benar-benar hidup di dunia yang berbeda
    Saya tahu harga absolut di tempat saya tinggal juga lebih mahal daripada di AS, jadi rasanya makin begitu
    Jika ada orang waras di negara lain membeli benda seperti ini, saya rasa begitu tiba di sini ia akan langsung menjualnya untuk menghemat uang

    • Menurut saya memilih form factor laptop itu bodoh
      Musim gugur lalu saya merakit workstation dengan dua 3090 bekas, masing-masing 850 dolar Kanada, meski sekarang harga terendahnya sekitar 1200
      Dengan VRAM 48GB, itu cukup masuk akal, dan saya memakai Qwen 3.6 27B untuk berbagai tugas membuat knowledge graph dari korpus teks dan melakukan reasoning
      Saya membandingkannya dengan yang tersedia di OpenRouter, dan dengan biaya token $0, Qwen 27B lokal sulit dikalahkan
      Memang lebih lambat dan kantor jadi beberapa derajat lebih hangat, tetapi tidak ada yang bisa mencabut colokannya, tidak ada yang mengintip dari balik bahu, dan hasilnya berada di level yang mirip dengan model-model tercanggih
      Saya menantikan Qwen 3.7 berukuran serupa
      Sejauh yang saya lihat, ini lompatan besar dibanding versi sebelumnya
    • Saya tidak paham mengapa orang di kisaran harga ini membeli laptop Mac alih-alih desktop dengan GPU
      Mungkin untuk pamer bahwa barangnya portabel
    • Dalam pembukuan saya, itu sudah menjadi aset yang nilainya cukup naik, dan kemungkinan besar bisa saya jual kembali seharga harga beli dalam 7–10 tahun ke depan
      Karena cicilan bulanan Apple, $5k menjadi $416 per bulan selama setahun dan tanpa bunga
      Saya bisa menjalankan model sekelas DS4 dan model terbuka lain tanpa kuantisasi, kadang beberapa sekaligus
      Bayangkan nilainya jika skenario gelap terkait perang Taiwan/Tiongkok Raya, konektivitas global, atau keandalan model komersial terjadi
      Ini adalah perangkat yang sangat sulit dibuat pada titik lain dalam sejarah, dan saya merasa seharusnya membeli lebih banyak
      Saya melihat sinyal, tren harga, dan stok habis secara real time, dan orang lain yang mampu pasti juga sedang menimbun
    • Benar, bagi banyak orang 6 ribu dolar itu uang receh
    • Betul
      Orang-orang di tempat Anda berpenghasilan lebih rendah lebih dari satu digit dibanding orang Amerika
  • Banyak yang mengatakan bahwa hardware untuk menjalankan model lokal itu mahal, tetapi jika Anda tidak tertarik pada perangkat Apple, Intel Arc Pro B50/B60/B70 yang tampaknya cukup bagus dari sisi harga-kinerja jarang dibahas
    Baru-baru ini saya membeli model B70 dengan RAM 32GB seharga sekitar $1200 termasuk pajak penjualan dan bea masuk untuk tempat tinggal di luar AS, dan di wilayah lain mungkin bisa lebih murah
    Bandwidth memorinya 608GB/s
    M5 Max GPU 32-core adalah 460GB/s, GPU 40-core 614GB/s, dan 3090 sekitar 900GB/s sehingga masih lebih cepat, tetapi Anda mendapatkan VRAM 32GB dengan harga jauh lebih murah daripada kartu Nvidia sekelas
    Artinya, Anda mendapatkan sekitar 1/3 bandwidth 5090 dengan 1/3 harga, tetapi dengan VRAM 32GB yang sama, jadi ini kompromi menarik jika ingin menjalankan model kuantisasi yang lebih besar dan konteks tertentu dengan anggaran rendah
    Saya masih mengeksplorasi model lokal, jadi tidak ingin menghabiskan $5000~$10000 untuk pengujian; kalau bisa bereksperimen lebih murah, performa yang sedikit lebih lambat tidak masalah
    Awalnya saya membeli B50 16GB dengan TDP 70W untuk menguji kartu Intel di stack saya, dan ternyata berjalan mudah di Ubuntu dan Vulkan
    Saya banyak melihat tulisan yang menyebutnya merepotkan dan tidak bisa dipakai, tetapi tampaknya kebanyakan terkait SYCL, dan karena SYCL juga tidak terlihat lebih cepat daripada Vulkan, saya tidak melihat alasan untuk memakainya
    B50 harganya $370 termasuk pajak dan bea masuk, dan secara harfiah setelah apt install library Vulkan, ia berjalan dengan driver xe bawaan 26.04 dan build Vulkan llama.cpp
    SR-IOV PF/VF juga berjalan di qemu/kvm tanpa trik khusus, dan setelah dibeli fwupdmgr memperbarui firmware dua kali, jadi sepertinya Intel memang berniat mendukung produk-produk ini

  • Menurut saya sweet spot saat ini adalah kombinasi dua 3090, motherboard PCIe 4, dan RAM DDR4 64~128GB
    Sekarang bisa dirakit sekitar $3k, dan menjalankan Qwen 27B/35B di int4 dengan sangat cepat

  • Sebagai referensi, saya menjalankan gemma4 31B di 5090 dan hasilnya cukup bagus
    Saya memakai QAT, MTP, dan konteks 128k
    Qwen 3.6 27B juga bagus, tetapi saya rasa Gemma4 agak diremehkan

    • Pengalaman saya juga mirip
      Saya menjalankan gemma4 31B di 4090 dengan llm.cpp dan model unsloth
      Saya juga memakai Qwen 3.6, dan Qwen lebih cepat sehingga bagus untuk reasoning dan perencanaan, sementara Gemma4 menghasilkan kualitas kode yang jauh lebih tinggi pada percobaan pertama
      Untuk Rust, C++, dan C#, perubahan yang perlu dilakukan lebih sedikit sampai pada level yang menurut saya layak di-merge
    • Saya belum berhasil membuat Gemma4 mengakhiri turn dengan benar
      Selalu tiba-tiba terpotong atau membuat tool call yang salah, mungkin saya yang salah mengatur oMLX atau Opencode
    • Bagus
      Di 4080 Super, saya bolak-balik memakai Qwen 3.5 9B Q6_M dan Gemma4 12B Q4_K_M
      Keduanya punya kecepatan mirip dan bisa saling diminta meninjau rencana atau perubahan
      Untuk proyek kecil keduanya cukup mampu, dan untuk tugas yang sedikit lebih sulit bisa dinaikkan ke kuantisasi yang lebih baik
  • Sebelum membeli komputer dengan memori terpadu, perlu diketahui bahwa pada perangkat seperti DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo, model dense umumnya lambat
    GPU khusus menjalankan model dense jauh lebih baik
    Sebaiknya cari benchmark perangkat yang akan dibeli, dan jika benar-benar menginginkan perangkat semacam ini, lebih baik menjalankan Qwen 3.6 35B atau model sparse MoE lainnya

  • Saya telah menjalankan qwen 3.6 35b a3b dengan opencode di MacBook Pro 16 inci M3 Max RAM 64GB, dan itu sangat bagus untuk perencanaan serta coding lokal
    Jujur, melihat 64GB sekuat ini, kadang saya merasa seharusnya memilih 128GB agar lebih future-proof
    Di sisi lain, saya juga belum pernah mentok karena model yang sedikit lebih besar daripada qwen

    • Saya juga menjalankan Qwen 3.6 35B A3b di laptop Windows, dan dengan kombinasi RAM 64GB serta GPU 4GB, setidaknya masih bisa ditoleransi
      Tidak cepat, hanya beberapa token per detik, lebih lambat daripada kecepatan membaca, tetapi bisa diberi tugas lalu ditinggal dan kembali lagi nanti
      Itu laptop $600 yang saya beli di eBay beberapa tahun lalu, bukan mesin seharga $6000
      Saya penasaran apakah Mac dengan memori terpadu atau GPU desktop besar 24GB benar-benar menghasilkan puluhan hingga ratusan token per detik yang sepadan dengan biaya 10~20 kali lipat
    • Saya penasaran seberapa cepat responsnya, dalam token per detik
      Dari pengalaman, model 20~35GB plus key-value cache saja sudah banyak memakan 64GB bawaan, jadi jika ingin tetap membuka browser, editor, dan lain-lain, keseluruhan 128GB jelas membantu