Menjalankan model lokal dengan memori M4 24GB

(jola.dev)

1 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp

Bahkan pada M4 MacBook Pro 24GB, konfigurasi model lokal untuk pekerjaan dasar, riset, dan perencanaan tetap memungkinkan
Qwen 3.5-9B Q4 memenuhi sekitar 40 token/detik, mode berpikir, penggunaan alat, dan konteks 128K
Model ini tidak mampu menyelesaikan masalah kompleks secara mandiri dalam waktu lama seperti model papan atas, sehingga memerlukan instruksi bertahap
Model ini berhasil memperbaiki peringatan Elixir Credo, tetapi gagal menyelesaikan konflik rebase tanpa mengubah file
Keunggulan model lokal adalah bisa dipakai offline dan tanpa langganan, tetapi ada trade-off besar pada performa dan pengaturan

Lingkungan menjalankan model lokal dan kriteria pemilihan

Penulis bereksperimen dengan pengaturan menjalankan model lokal di lingkungan M4 MacBook Pro dengan memori 24GB, dan meskipun hasilnya berbeda dari keluaran model papan atas (SOTA), tetap dimungkinkan membuat konfigurasi yang bisa menangani pekerjaan dasar, riset, dan perencanaan tanpa koneksi internet
Alat untuk menjalankan secara lokal mencakup Ollama, llama.cpp, dan LM Studio, masing-masing dengan batasan dan model yang tersedia berbeda-beda
Dalam memilih model, model tersebut harus muat di memori sambil tetap menyisakan ruang untuk menjalankan aplikasi Electron umum, serta membutuhkan jendela konteks minimal 64K, idealnya 128K atau lebih
Qwen 3.6 Q3, GPT-OSS 20B, dan Devstral Small 24B yang baru dicoba memang muat di memori tetapi sulit dipakai secara nyata, sedangkan Gemma 4B berjalan baik tetapi mengalami kesulitan dalam penggunaan alat
Item pengaturan beragam, mulai dari nilai yang sudah umum seperti temperature hingga opsi khusus seperti K Cache Quantization Type, dan nilai yang sesuai bisa berbeda tergantung apakah mode berpikir (thinking) diaktifkan atau tidak

Konfigurasi kuantisasi 4-bit Qwen 3.5-9B

qwen3.5-9b@q4_k_s adalah model terbaik saat dijalankan di LM Studio karena secara bersamaan memenuhi sekitar 40 token/detik, thinking aktif, penggunaan alat yang berhasil, dan jendela konteks 128K
Dibanding model papan atas, model ini lebih mudah terdistraksi, kadang masuk ke loop, dan sesekali salah menafsirkan permintaan, tetapi untuk model yang masih bisa berjalan di MacBook Pro 24GB sambil menyisakan ruang kerja lain, performanya cukup baik
Pengaturan yang direkomendasikan untuk mode berpikir dan pekerjaan coding adalah sebagai berikut

temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

Untuk mengaktifkan thinking, setelah memilih model di LM Studio, buka configuration lalu tambahkan nilai berikut ke Prompt Template di bagian bawah tab Inference

{%- set enable_thinking = true %}

Model ini digunakan di pi dan OpenCode; pi terasa lebih responsif, tetapi terlepas dari kelebihan bisa membangun dan menyesuaikan harness sendiri, pi kurang memiliki nilai default yang masuk akal
Bisa saja waktu yang dihabiskan untuk menyesuaikan pengaturan pi justru lebih banyak daripada waktu yang dipakai untuk proyek sebenarnya

Pengaturan pi

Di ~/.pi/agent/models.json, endpoint kompatibel OpenAI milik LM Studio dan model qwen3.5-9b@q4_k_s didaftarkan

{
  "providers": {
    "lmstudio": {
      "baseUrl": "http://localhost:1234/v1";,
      "api": "openai-completions",
      "apiKey": "lm-studio",
      "models": [
        {
          "id": "qwen3.5-9b@q4_k_s",
          "reasoning": true,
          "compat": { "thinkingFormat": "qwen-chat-template" }
        }
      ]
    }
  }
}

Untuk menyembunyikan blok thinking yang mudah terdistraksi, tambahkan "hideThinkingBlock": true ke ~/.pi/agent/settings.json

Pengaturan OpenCode

Di ~/.config/opencode/opencode.json, LM Studio didaftarkan sebagai provider lokal yang kompatibel dengan OpenAI, lalu diatur penggunaan alat, panjang konteks 131072, dan token maksimum 32768

{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "lmstudio": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "LM Studio (local)",
      "options": {
        "baseURL": "http://127.0.0.1:1234/v1";
      },
      "models": {
        "qwen3.5-9b@q4_k_s": {
          "name": "Qwen 3.5 9B Q4_K_S",
          "tools": true,
          "context_length": 131072,
          "max_tokens": 32768
        }
      }
    }
  },
  "model": "lmstudio/qwen3.5-9b@q4_k_s"
}

Perbedaan dengan model papan atas

Model seperti Qwen 3.5 9B Q4 belum berada pada tingkat yang bisa menyelesaikan masalah kompleks secara mandiri dalam waktu lama seperti model papan atas
Pendekatan meminta model membuat seluruh aplikasi sekaligus tidak cocok, dan hasilnya bisa saja nihil sementara laptop hanya menjadi panas
Pendekatan yang lebih cocok adalah alur kerja interaktif dengan komunikasi yang jelas per langkah dan banyak arahan
Saat memakai model lokal, pengguna harus mengambil lebih banyak peran dalam berpikir dan merencanakan sendiri serta memberi instruksi yang lebih spesifik, tetapi model ini tetap berguna sebagai asisten riset, rubber duck, dan asisten yang bisa segera mengingat detail bahasa pemrograman serta pemanggilan command line
Ini memang bukan peningkatan produktivitas 10x seperti yang dipromosikan perusahaan AI besar, tetapi tetap memberi bantuan yang bermakna dan pengalaman penggunaan yang menarik

Tugas yang berhasil dan tugas yang gagal

Memperbaiki peringatan Elixir Credo
- Setelah linter Elixir credo dinaikkan ke versi terbaru, muncul peringatan di kode, dan Qwen diminta menjalankan mix credo --strict untuk menyarankan cara memperbaikinya tanpa melakukan edit
- Qwen menemukan masalah penggunaan length/1 untuk memeriksa apakah list tidak kosong di empat file test, lalu menyarankan memakai list != [] alih-alih length(list) > 0
- Setelah diminta melakukan edit, Qwen menyelesaikan empat edit paralel dengan rapi
- Tugas ini memang sederhana dan bisa dilakukan sendiri sambil bolak-balik antara terminal dan editor, tetapi model ini memberi peran pendamping yang nyaman
Menangani konflik rebase pada PR Dependabot
- Setelah pembaruan dependensi, muncul konflik git di PR Dependabot, Dependabot menolak melakukan rebase, sehingga penulis mengunduhnya sendiri, melakukan rebase, lalu meminta Qwen memeriksanya
- Konfliknya sederhana, cukup memilih versi yang lebih baru untuk tiap dependensi, dan Qwen merekomendasikan pilihan mempertahankan sentry di 13.0.1 dan tailwind di 0.4.1
- Namun saat diminta menerapkan perubahan sebenarnya, Qwen mencoba menjalankan git add mix.lock && git rebase --continue tanpa mengubah file, sehingga penanda konflik masih tertinggal
- Qwen juga tidak mengenali bahwa git rebase --continue akan membuka editor, dan OpenCode berhenti; fenomena ini mungkin saja kejadian satu kali

Kelebihan dan keterbatasan model lokal

Model lokal memiliki trade-off besar, tetapi kelebihannya adalah tetap bisa dipakai bekerja di pesawat tanpa koneksi internet
Jika menganggap komputer memang akan dibeli juga, biayanya terbatas pada listrik yang dipakai, dan tidak memerlukan langganan
Pelatihan model tetap memiliki biaya lingkungan yang besar, tetapi perusahaan model terbuka masih jauh dari kelompok dengan dampak lingkungan tertinggi, dan memakai perangkat keras pribadi mengurangi ketergantungan pada data center
Ada kesenangan tersendiri dalam melakukan penyetelan dan eksperimen langsung
LLM sudah membawa dampak besar dan juga memiliki banyak sisi negatif, tetapi tampaknya akan tetap bertahan, dan bereksperimen dengan model lokal terasa seperti cara berinteraksi dengan teknologi ini dengan cara yang lebih berkelanjutan dan positif

1 komentar

GN⁺ 2 jam lalu

Pendapat Hacker News

Menjalankan LLM secara lokal itu menyenangkan dan kuat, tetapi untuk benar-benar menyelesaikan pekerjaan, rasanya cukup merepotkan
Harus merencanakan, membuat spesifikasi, dan menyiapkan semuanya terlebih dahulu, sementara model besar seperti OpenAI atau Claude cenderung langsung paham hanya dengan beberapa kalimat
- Benar. Terutama dalam 6 bulan terakhir, bagi banyak orang biaya langganan model frontier sudah menjadi biaya kerja
  Kalau sudah melakukan pekerjaan serius dengan model besar, ya tinggal terus pakai saja
  Namun untuk pekerjaan vision/OCR, saya melihatnya berbeda. Model bobot terbuka kecil dan menengah juga sudah mirip level mutakhir, dan biaya token prefill pada pekerjaan batch besar cukup terasa sayang
  Selain itu, orang juga sering lupa bahwa bahkan untuk memakai LLM kecil seperti layanan pribadi yang stabil, kita tetap harus menyediakan 16~24GB RAM/VRAM khusus dan membiarkannya terus berjalan
- Sekarang secara teknis sudah mudah menjalankan model besar di rumah untuk penggunaan offline. Ini banyak berkat pihak Tiongkok yang merilis model kelas atas secara terbuka
  Masalah utamanya pada akhirnya tetap uang
Menurut saya ini sudah hampir sampai level yang benar-benar berguna
Gemma 4 31B terasa seperti baseline baru untuk model lokal. Jelas masih di bawah model frontier, tetapi dibanding model lokal yang pernah saya jalankan sejauh ini, termasuk GPT OSS 120B atau Nemotron Super 120B, rasanya jauh lebih sedikit seperti eksperimen sains
Di M5 Max 128GB RAM, kalau memakai jendela konteks penuh 256K, penggunaan RAM melonjak hingga sekitar 70GB, dan overhead sistem terlihat sekitar 14GB
Mesin 64GB Panther Lake dengan Arc B390 penuh, atau mesin 48GB Snapdragon X2 Elite, tampaknya bisa menjalankannya dengan jendela konteks 128K~256K, dan di 32GB mungkin masih bisa dipaksakan dengan jendela konteks 32K
Baru tahun lalu, melihat performa seperti ini pada konfigurasi kelas atas yang nyaris mainstream terasa seperti mimpi kosong
- Gemma 4 benar-benar bagus. Kadang ia berhasil menangkap hal yang dilewatkan Opus 4.7, dan meski masih ada sisi kasar, saya terus menemukan use case yang pada praktiknya setara untuk dipakai
  Pada akhirnya, patokannya adalah “apa yang bisa saya percayakan secara stabil ke model ini?” Opus jelas tahu lebih banyak dan bisa mengerjakan tugas yang lebih rumit, tetapi kalau konteksnya dimasukkan dengan baik, Gemma mengejutkan bagusnya
  Perbedaan cakupan tugas yang saya percaya bisa diberikan ke dua model itu ternyata lebih kecil dari yang saya kira. Di alat pribadi dan beberapa proyek, hasilnya belakangan sangat bagus, dan ini model lokal pertama yang bisa saya percaya untuk mengimplementasikan fitur dalam mode agen pada proyek yang tidak sepele
  https://thot-experiment.github.io/gradient-gemma4-31b/
  Ini alat yang relatif kompleks yang hampir seluruhnya dibuat Gemma 4 di dalam OpenCode, dan selama beberapa jam intervensi manual hanya sekitar 4 kali
  Q6_K_XL, konteks 128K @ q8, baca sekitar 800tok/s, tulis sekitar 16tok/s
  Saya sedang menunggu turboquant dan MTP di llama.cpp, dan kalau rumor itu benar, sepertinya bisa sampai 256K dan 25~30tok/s
- Model kecil Qwen 3.6 sedikit lebih baik daripada Gemma 4 dalam penanganan konteks, tetapi khususnya Gemma 4 26B cerdas karena menghadirkan solusi yang sangat kecil dan efisien di kelas ukurannya
  Tepat setelah rilis saya juga menulis artikel terkait karena performa benchmark-nya mengesankan [0]. Namun setelah dijalankan di lingkungan agentic coding dengan konteks yang lebih panjang, posisinya di papan peringkat agak turun
  [0] https://gertlabs.com/blog/gemma-4-economics
- Untuk sebagian besar pekerjaan penyuntingan saya memakai Gemma E2B yang lebih kecil, dan kerjanya ternyata lumayan bagus
  Alurnya adalah membuat rencana dengan model terbaru lalu mengeksekusinya dengan model kecil. Kalau perencanaannya rapi sehingga tidak menyisakan ambiguitas yang harus ditafsirkan model kecil, hasilnya bekerja baik
- Akan bagus kalau bisa berbagi waktu sampai token pertama dan jumlah token per detik
- Saya penasaran apakah secara rasa Gemma bekerja lebih baik daripada qwen3
Rasanya saya berharap sudah melihat tulisan ini sebelum menghabiskan akhir pekan dan sampai pada kesimpulan yang sama
Di laptop yang sama, saya melakukan tes buatan: menyuruhnya memperbaiki sekitar 50 error lint di repositori C++ vibe coding kecil. Saya berharap ia bisa menangani banyak tugas kecil tanpa terlalu sering macet
GPT OSS 20B masih bisa dipakai, tetapi lambat, sering menambahkan kalimat yang tidak perlu atau mengulang, dan kerap membuat kesalahan dengan mengklaim sudah memperbaiki sesuatu tanpa benar-benar mengubah kodenya
Qwen 3.5 9B yang dipakai bersama Opencode jauh lebih cepat, dan bahkan saat melalui kompresi ia bisa menangani sebagian besar peringatan lint tanpa macet serta memperbaiki semuanya dengan benar
Saya juga mencoba kuantisasi MLX 4-bit untuk Qwen 3.5 9B, tetapi akhirnya crash karena kehabisan memori, dan setelah diganti ke GGUF yang dijalankan lewat llama.cpp, ia berjalan tanpa crash
Ini sama sekali tidak bisa dibandingkan dengan model frontier. Jauh lebih lambat, informasi dasarnya pun salah, dan tidak mampu menangani tugas yang tidak sepele dalam sekali jalan
Ketika saya minta merangkum arsitektur proyek, ia malah mengklaim memakai library yang tidak ada di mana pun dalam repositori. Mungkin tiap orang berbeda, tetapi tetap ada sisi yang berguna, dan saya berharap seiring waktu lingkungan LLM lokal di perangkat keras yang masuk akal bisa menjadi jauh lebih baik
- Pernyataan “sama sekali tidak bisa dibandingkan dengan model frontier” tidak cukup sering diucapkan
  LLM lokal itu hebat, tetapi kalau terlalu banyak membaca tulisan tentangnya, kita bisa mendapat kesan seolah sudah hampir menyamai Opus 4.7
  Di HN ada kelompok yang sangat kecil, sangat berisik, dan sangat antusias yang sangat melebih-lebihkan kemampuan LLM lokal
- Sebaiknya coba qwen3.6.35 a3b alih-alih qwen3.5 9b. Benar-benar beda
- Cukup mengejutkan bahwa GPT OSS 20B berjalan lambat di perangkat keras Mac
  Di antara model seukuran itu, ini termasuk yang tercepat yang pernah saya jalankan di GPU lokal, walau saya hanya mengujinya di kartu Nvidia
  Belakangan saya sadar itu MoE dan parameter aktifnya cuma 3.6B, jadi banyak hal jadi masuk akal
Berguna untuk melihat secara realistis apa yang bisa dilakukan model lokal, terutama model kecil seperti 9B yang dipakai penulis
Model 9B ada di kisaran level Sonnet 3.6, jadi bisa untuk autocomplete dan fungsi kecil, tetapi ketika harus memahami masalah besar, ia mulai kehilangan alur
Meski begitu tetap menarik dan menyenangkan untuk dimainkan. Saya sendiri banyak membuat agent harness lokal terutama untuk seru-seruan
Proyek saya saat ini adalah agen tanpa instalasi: https://gemma-agent-explainer.nicklothian.com/
Python, SQL, dan React semuanya berjalan sepenuhnya di dalam browser. Untuk pengalaman terbaik saya merekomendasikan Gemma E4B
Masih aktif dikembangkan, dan saat ini butuh Chrome karena dukungan HTML5 Filesystem API dan LiteRT. Namun kemungkinan besar bisa dibuat berjalan juga di sebagian besar browser berbasis Chromium
Perbedaannya dengan kebanyakan agen lain adalah sifatnya tanpa instalasi. Model dijalankan di browser dengan LiteRT/LiteLLM, dan performanya lebih baik daripada Transformers.js. Dengan Filesystem API, akses baca ke direktori sandbox juga bisa diberikan secara opsional
Sistem ini mendokumentasikan dirinya sendiri, jadi dari panel bantuan real-time Anda bisa menanyakan hal seperti “bagaimana system prompt digunakan” dan ia dapat menjawab dengan mengakses source code-nya sendiri
Tekan “Tour” untuk melihat semuanya, dan minggu depan rencananya akan dirilis sebagai open source
- Dengan Sonnet 3.5, saya mengerjakan jauh lebih banyak daripada sekadar autocomplete dan fungsi kecil
- Bukan mau mengoreksi, tetapi banyak model 4~12B ada di antara GPT-3.5 dan GPT-4o-mini
  Hanya saja benchmark yang dipakai orang untuk menilai model terlalu sering berubah, jadi sulit mencari perbandingan yang bagus. Sebagai referensi, Sonnet 3.6 keluar sekitar 1 tahun setelah GPT-3.5
Kalau dilihat kritis, memang benar model-model ini belum setara dengan level terbaik mutakhir untuk tugas coding kompleks
Tetapi cukup banyak pekerjaan kantoran itu berupa pengolahan Excel, memindahkan file, menerjemahkan dokumen hukum yang kaku, membuat draft email, atau pekerjaan remeh PPT
Untuk tugas-tugas seperti ini, model 30~35B ke atas sudah cukup, dan ada keuntungan tambahan karena data perusahaan bisa tetap privat
- Kesimpulannya terasa agak keliru. Wajar kalau qwen3.5 9b jauh dari model terbaru. Itu 9B dan bukankah model dari setahun lalu?
  Yang dibayangkan orang ketika membahas model lokal adalah model yang keluar April tahun ini. Targetnya adalah Qwen 3.6 27B dan, kalau GPU lemah, qwen 35b a3b
  Model-model ini layak dibandingkan secara serius dengan model mutakhir
- Justru Excel dan urusan hukum bisa lebih buruk daripada kode. Karena kesalahannya bisa lebih sulit dideteksi
  Contoh terkenalnya, insiden London Whale di JPMorgan menyebabkan kerugian 6 miliar dolar karena kesalahan Excel
Saya sedang mempertimbangkan MacBook M5 Pro 18/20-core 64GB RAM, tetapi sangat sulit menemukan benchmark model di dunia nyata
Misalnya, saya ingin ada yang memberi tahu kira-kira berapa token per detik untuk kuantisasi Q4 dan Q6 dari Qwen 3.6 35B/A3B
- Jangan hanya lihat token per detik, tetapi lihat juga waktu sampai token pertama
  Inferensi lokal sekarang cenderung mengarah ke model MoE, dan cukup banyak yang angka token per detiknya lumayan tetapi waktu sampai token pertamanya mengerikan
Saya menulis pengaturan acak yang saya pakai di Bluesky untuk M2 Studio 32GB, dan ingin mendapat masukan
Saya tipe orang yang kurang bisa kalau tidak melihat langsung, jadi saya bagikan dengan harapan ada yang membantu
https://bsky.app/profile/mooresolutions.io/post/3mliilyf2i22...
Di M4 Pro 48GB saya menjalankan model kuantisasi qwen 3.6 9b, dan rasanya baru nyaris cukup berguna untuk pengembangan dasar berbasis pi.dev/cc
Untuk benar-benar melakukan pekerjaan yang berarti, tampaknya desktop 128GB adalah sweet spot. Hanya saja sekarang sulit mendapatkan mesin seperti itu
Menjalankan secara lokal memang menyenangkan, tetapi jangan lupa waktu kita juga tidak gratis
Untuk proyek pribadi, saya makin beralih ke OpenRouter, dan bahkan kalau memakai model qwen terbesar dengan serius pun biayanya kurang dari 2~3 dolar per hari
- Saya penasaran apakah Anda memilih model sekecil itu karena mengejar token per detik yang tinggi
  Dengan M4 Pro 48GB, Anda sebenarnya bisa menjalankan model yang lebih besar, jadi kalau kecerdasan model adalah kunci kegunaan, mungkin lebih masuk akal memakai model yang lebih besar
- Di spesifikasi yang sama, saya memakai model MoE 30B dengan 65K token sebagai sub-agen yang punya tool, dan ia menulis kode yang cukup bagus
  Saya setuju bahwa 9B dense memang kurang bagus
- Terlalu banyak omong kosong di internet yang bilang model lokal lebih baik daripada Opus 4.7 dan semacamnya. Bagi pengguna biasa, itu tidak benar
  Saya juga memakai MacBook Pro M5 spesifikasi tertinggi terbaru dan sudah mencoba model lokal, tetapi levelnya nyaris hanya sekadar berjalan
- Saya penasaran bagaimana versi OpenRouter dibandingkan dengan ChatGPT 5.5 atau Claude Opus 4.6
Di 4090 24GB saya menjalankan qwen3.6:27B dengan konteks sekitar 128K memakai optimisasi memori activation terbaru turboquant/rotorquant
Sangat saya sarankan naik ke model sekelas itu. Kombinasi q4_xl+rotorquant cukup bagus
Ada juga kode referensi yang bisa dilempar ke agen
https://github.com/rapatel0/rq-models
Menurut saya lebih baik menghabiskan ribuan dolar untuk Mac daripada untuk langganan API
Model lokal memungkinkan bekerja kapan saja dan di mana saja tanpa khawatir kebocoran privasi

Menjalankan model lokal dengan memori M4 24GB

Lingkungan menjalankan model lokal dan kriteria pemilihan

Konfigurasi kuantisasi 4-bit Qwen 3.5-9B

Pengaturan pi

Pengaturan OpenCode

Perbedaan dengan model papan atas

Tugas yang berhasil dan tugas yang gagal

Memperbaiki peringatan Elixir Credo

Menangani konflik rebase pada PR Dependabot

Kelebihan dan keterbatasan model lokal

Bacaan terkait

1 komentar

Pendapat Hacker News