Menjalankan model lokal kini sudah bagus
(vickiboykis.com)- Bahkan di lingkungan M2 Mac keluaran 2022, performa LLM lokal sudah cukup baik hingga praktis dipakai untuk pertanyaan pengembangan, pekerjaan kode, dan pengecekan dokumen
- Model lokal awalnya lambat, sulit digunakan, dan akurasinya rendah untuk tugas pemrograman, tetapi sejak GPT-OSS frekuensi memeriksa ulang ke model API berkurang
- Dengan rilis terbaru lini Gemma 4, loop coding agen lokal berjalan dengan sekitar 75% akurasi dan kecepatan dibanding model frontier
- Kombinasi Pi dan LM Studio menjalankan workflow agen melalui endpoint inferensi lokal, artefak model, dan konfigurasi isolasi Docker
- Model lokal masih memiliki keterbatasan seperti latensi inferensi, context window kecil, dan batasan hardware, tetapi kita bisa langsung mengamati dan mengubah pemrosesan token, system prompt, kuantisasi, dan harness
Posisi model lokal saat ini
- Model lokal awal pada sebagian besar tugas pemrograman terasa lambat, sulit digunakan, dan tidak akurat
- Penilaian bahwa model lokal tertinggal jauh pada umumnya benar untuk penggunaan pribadi hingga sebelum rilis GPT-OSS
- Standar pribadi untuk “model yang cukup bagus” adalah apakah masih perlu memverifikasi ulang ke model API, dan GPT-OSS adalah model pertama yang sangat mengurangi frekuensi pengecekan itu
- Hingga belakangan ini, model lokal terutama dipakai seperti Google yang cepat dan dipersonalisasi untuk pertanyaan pengembangan yang tidak memerlukan informasi terbaru
- Setelah rilis terbaru lini Gemma 4, loop coding agen di lokal berjalan dengan sekitar 75% akurasi dan kecepatan dibanding model frontier {p:75}
Model dan lingkungan eksekusi yang digunakan
- Berbagai model lokal dijalankan pada M2 Mac keluaran 2022 dengan RAM 64GB dan penyimpanan 1TB
- Model yang digunakan antara lain Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE, Qwen 2.5 Coder
- Konfigurasi eksekusi sempat melalui raw llama.cpp, Open WebUI, llama-cpp-python, Ollama, llamafiles, dan LM Studio
- Model lokal default yang dipakai adalah implementasi
gemma-4-26b-a4bdi LM Studio
Contoh pekerjaan agen lokal di dunia nyata
- Sebuah notebook di-refactor menjadi repositori Python script dengan 5~6 modul
- Modul tersebut di-lint agar menggunakan generic type hint sesuai standar PEP 585
- Pengaturan lokal juga dipakai untuk menyunting tulisan blog, menulis unit test, dan menyiapkan konfigurasi awal repositori model two-tower untuk rekomendasi
- Repositori model two-tower yang dibuat agen dari keadaan kosong memang masih dasar, tetapi sudah melampaui hal yang tahun lalu terasa mungkin
- Semua workflow agen dijalankan di dalam container Docker dengan hak akses eksekusi yang dibatasi
Penggunaan sumber daya dan model kecil terbaru
- Tugas yang dijalankan lebih mirip Google yang dipersonalisasi atau pencarian dokumentasi daripada pekerjaan yang benar-benar terobosan
- Saat bekerja, penggunaan GPU dan RAM membesar dan K-V cache meningkat hingga 64GB RAM
- Bahkan pekerjaan sederhana seperti ini tidak mungkin dilakukan dengan model lokal hanya 6 bulan lalu
Gemma-4-12b-qatsudah mengesankan dari sisi rasio ukuran terhadap performa sejak segera setelah rilis- Arsitektur model memunculkan pertanyaan tentang kompromi arsitektural apa yang diperlukan saat ada batasan performa dan biaya
Konfigurasi menjalankan model agen lokal
- Untuk menjalankan alur agen lokal, dibutuhkan mesin inferensi model lokal, harness agen, dan artefak model lokal
- Harness harus dikonfigurasi agar mengarah ke endpoint inferensi lokal, dan artefak model yang diunduh harus disajikan melalui mesin inferensi
- Konfigurasi lokal saat ini menggunakan Pi sebagai harness agen dan LM Studio sebagai server inferensi
- Pengaturan ini mengikuti panduan menyiapkan coding agen Gemma 4 dengan Pi dan LM Studio dengan beberapa perubahan
- Alih-alih
Gemma 26B A4Bseperti di tulisan tersebut, digunakangemma-4-12b-qatyang lebih baru, lebih kecil, dan lebih cepat, dengan kehilangan akurasi yang tidak besar - Demi keamanan, semua sesi Pi dijalankan di container Docker dan hanya diberi izin bash sehingga eksekusi kode Python dan penjelajahan web diblokir
- Untuk image terpisah bagi pekerjaan riset, ada rencana untuk mengizinkan
curl - Karena dijalankan di dalam Docker,
models.jsonmilik Pi diubah agar Pi dapat berkomunikasi dengan model
- Alih-alih
Metode isolasi berbasis Docker
- Pada konfigurasi Pi,
baseUrldiatur kehttp://host.docker.internal:1234/v1dan API diatur sebagaiopenai-completions - Konfigurasi Docker Compose me-mount
models.json, direktori kerja, konfigurasi Pi, dan direktori sesi ke dalam container - Script eksekusi menghubungkan direktori kerja saat ini ke workspace container, dan bila perlu menambahkan file Compose sandbox yang lebih aman
- Pi berjalan di repositori yang sedang dikerjakan dan menyalakan Docker, sehingga tidak bisa langsung menghapus file atau direktori di disk fisik
- Konfigurasi model
jsonkustom dapat diteruskan ke dalam container, dan ini bekerja cukup baik di lingkungan eksperimen
Keterbatasan yang masih tersisa
- Model lokal masih bisa lambat saat inferensi, context window-nya kecil, dan context yang bisa dipakai dibatasi oleh hardware yang tersedia
- Ekosistemnya sudah jauh lebih mudah berkat alat seperti LM Studio dan tombol Use This Model dari Hugging Face
- Rilis awal kadang mengalami masalah ketidakcocokan prompt template, tetapi masalah seperti ini biasanya ditambal sangat cepat
- Masih sulit untuk yakin bahwa ini sudah siap langsung dipakai dalam pengembangan software produksi
Kelebihan model lokal dan ruang eksperimen
- Pada model lokal, hampir semua hal bisa diinspeksi, dan proses inferensi token bisa dilihat secara real time
- Aliran token input dan output bisa diperiksa langsung
- Kita bisa mengubah context window lokal dan melihat bagaimana performanya membaik atau memburuk
- Kita bisa menggali bagaimana token diproses di GPU, serta mengubah system prompt dan pengaturan kuantisasi
- Model bisa diadu satu sama lain, atau pengaturan di sisi harness bisa diubah lalu diamati, sehingga kemungkinan eksperimen terus meluas
1 komentar
Komentar Hacker News
Tidak yakin ini sudah bagus. Saya sering memakai model lokal, tetapi menjalankannya secara lokal masih cukup menyakitkan
Model dense seperti Qwen 27B dan Gemma 31B memang cukup pintar tetapi lambat, sedangkan model campuran pakar (MoE) seperti Gemma 26B, Qwen 35B, dan North Mini Code 30B cepat tetapi sering salah
Agar benar-benar berjalan baik, butuh banyak memori, dan kalau dikuantisasi kemampuan pemanggilan tool jadi melemah. Kebanyakan orang menjalankannya dengan kuantisasi 4-bit lalu bertanya kenapa hasilnya kurang bagus, padahal itu pada dasarnya seperti melobotomi modelnya. Saya merekomendasikan kuantisasi Unsloth, dan menyarankan 6-bit untuk MoE, 5-bit untuk model dense
Agar prefill cepat, butuh performa komputasi; agar decode cepat, butuh bandwidth; dan agar semuanya muat, juga butuh banyak memori. Selain itu, laptop akan berubah menjadi mesin yang panas dan berisik sehingga tidak nyaman dipakai bekerja
Jadi apakah ini bagus? Tidak juga. Tapi memang bisa jalan
Tambahan, saya percaya model terbuka adalah masa depan dan saya juga terus berkontribusi ke ekosistemnya. Akan bagus jika orang-orang bisa mencoba model seperti ini dan memakai
piuntuk belajar cara kerjanya, tetapi jangan berharap hanya dengan mengunduh model semuanya langsung bagus. Untuk menggantikan “agen coding” yang diinginkan kebanyakan orang, masih perlu banyak tuning dan pengaturanModel yang tidak khusus untuk coding sering mentok karena tidak benar-benar melakukan pemanggilan tool, hanya mengatakan “saya akan melakukan tindakan ini”, dan ketika saya tanya apa yang harus diatur untuk mengubah perilaku itu, jawabannya juga tidak membantu. Qwen bersikeras bahwa ia tidak berjalan di ollama, melainkan di cloud Alibaba, dan tidak punya izin mengakses sistem lokal
Bahkan model untuk coding pun hanya berpikir sedikit lebih cepat daripada kecepatan saya mengetik, dan dalam kasus yang bisa menampilkan proses berpikir pun kemampuannya terbatas
Pengalaman “gratis” terbaik yang saya temukan sejauh ini adalah OpenCode + Big Pickle. Tidak terlalu pintar sehingga hasil pertama sering salah, tetapi tier gratisnya cukup longgar sehingga walau dipakai beberapa jam cukup sering selama sekitar sebulan, saya hanya mentok batas kira-kira dua kali. Kalau targetnya benar-benar eksekusi lokal, ini memang tidak cocok, tetapi jika targetnya adalah “pengalaman terbaik tanpa biaya langganan atau token”, sejauh ini inilah pilihan yang paling tidak buruk
Mencoba menjalankannya di Mac dengan unified memory, prosesor AMD AI Max, atau perangkat mirip DGX Spark itu nyaris sama saja dengan mencari susah sendiri. Prefill menghancurkan performa
Dengan GPU yang tepat, hasilnya memang jauh lebih baik, tetapi tetap belum menyamai Sonnet atau DeepSeek 4 Flash, apalagi Opus / DeepSeek Pro atau Mythos/Fable/GPT-5.5
Jika anggaran, daya, dan pendinginan Anda cukup, Anda bisa menjalankan pipeline data yang lumayan bagus, tetapi untuk kode, dalam banyak kasus masih lebih masuk akal membayar penyedia API
Meski begitu, tetap layak dicoba jika tujuannya mengurangi ketergantungan besar pada layanan terpusat
Dari pengalaman saya, untuk kepatuhan pada aturan atau pekerjaan bergaya otomasi, ia mengungguli model-model Qwen, bahkan yang 100B+, dan interpretasi gambarnya juga sangat bagus, bahkan di benchmark skornya lebih tinggi daripada Opus
Qwen cenderung mengabaikan instruksi, dan jika format generasi token tidak dibatasi secara eksplisit, ia terus-menerus menghasilkan format yang salah
Namun di DGX Spark, Gemma 31B Q4 + MTP hanya sekitar 20 token/detik, dan Gemma 26B A4B sekitar 60 token/detik, jadi tetap cukup lambat. Di kartu Nvidia kelas atas, kemungkinan akan berjalan jauh lebih cepat dan juga muat di memori
Untuk orang yang baru mulai dengan model lokal, saya sarankan fokus pada bandwidth memori daripada RAM. Sekarang model di bawah 100B pun sudah cukup dan sangat berguna untuk otomasi
Saya setuju bahwa untuk coding/kreasi, masih belum ada alasan kuat memakai model lokal. Tetapi untuk tugas seperti menelusuri daftar saham dan melakukan high-pass filtering berita, interpretasi log, atau interpretasi tangkapan layar, model lokal sudah lebih dari cukup
Sepertinya bisa dibenarkan membeli M6 Mac Studio dengan RAM sekitar 256GB, lalu memberi beberapa orang akses ke satu model yang disepakati bersama. Laptop tampaknya terlalu panas dan terlalu lambat untuk tujuan ini
Setelah beberapa minggu memakai Qwen3.6-27B dengan puas, sekarang saya harus memakai Claude Sonnet 4.6 karena sedang jauh dari perangkat keras saya, dan rasanya seperti penurunan besar
Saya tidak mengerti bagaimana ini bisa terjadi. Terlalu banyak opini kuat yang tidak diminta, terlalu banyak bicara, dan secara keseluruhan terasa lebih bodoh
Tentu ini model yang jauh lebih besar jadi mungkin mengenkode lebih banyak pengetahuan, tetapi itu tidak membantu kalau tidak enak diajak berbicara. Lagi pula, berbicara dengannya juga benar-benar menghabiskan uang
Saya penasaran kenapa saya begitu tidak suka. Mungkin karena ia melihat dirinya bukan sebagai alat melainkan hampir seperti entitas setara. Seolah-olah pendapatnya punya bobot
Qwen juga kadang bisa bertingkah seperti intern yang terlalu bersemangat, tetapi kalau diberi tahu bahwa ia bodoh, ia menurunkan egonya. Dalam pengalaman saya, Claude tidak begitu
Singkatnya, saya sepenuhnya setuju dengan judulnya
Selama satu setengah bulan terakhir saya memakainya hampir setiap hari di mesin M2 Ultra atau RTX 5090. Saya memakainya untuk pekerjaan kecil dan biasa-biasa saja di ggml-org [0], tidak ada yang spektakuler, tetapi jelas merupakan alat yang membantu maintainer
Saya mungkin akan memakainya jauh lebih banyak kalau tidak menghabiskan banyak waktu untuk review PR. Saat ini saya memakai harness yang sangat ringan, kira-kira hanya agen pi yang sudah dibersihkan dari semuanya (
pi -nc --offline) dan prompt sistem pendek [1] untuk menyesuaikannya dengan gaya sayaKecepatan generasinya sekitar 100~150 token/detik di RTX 5090, dan sekitar 40 token/detik di Mac. Saya jelas lebih suka menjalankannya di mesin RTX karena jauh lebih cepat, tetapi saya juga sering menjalankannya di Mac untuk menguji setup lokal dan mendapatkan pengalaman yang lebih luas
[0] - https://github.com/search?q=%22Assisted-by%22+user%3Aggml-or...
[1] - https://github.com/ggml-org/llama.cpp/blob/master/.pi/gg/SYS...
Mungkin ini kurang bagus untuk permintaan seperti Opus, misalnya “tolong tambahkan fitur besar X”, tetapi saya memang tidak menginginkan hal seperti itu dari model. Saya yang berpikir, modelnya yang mengetik. Qwen 3.6 27B sepenuhnya cukup untuk tujuan itu. Dalam pengalaman saya, 35A3B atau keluarga Gemma adalah penurunan yang cukup besar
Selain itu, tidak ada kekhawatiran soal batas kecepatan, kuota, atau antrean jam sibuk. Anda selalu bisa melihat seluruh proses berpikirnya, tidak perlu khawatir data dikirim ke mana, dan tidak akan tiba-tiba diam-diam diturunkan performanya
Saya menjalankannya dengan llama.cpp pada 2×3090 memakai setup Q6_K_XL + MTP, dengan prefill 500~1000 token/detik, output 60 token/detik, dan context window 220 ribu token. Setelah melewati 160 ribu token, modelnya mulai agak membodoh, dan saya tidak memakai kuantisasi KV
Ini mungkin efek samping dari fitur berpikir, tetapi saya ingin rangkuman proses berpikir yang jauh lebih singkat. Bahkan dalam situasi ketika jawaban satu kalimat sudah cukup, model-model mutakhir malah menulis minimal 5 paragraf dan mencoba mengusulkan 3~5 arah baru
Bahkan kalau sudah diminta untuk hanya satu langkah pada satu waktu, hanya satu opsi pada satu waktu, dan jangan proaktif mengusulkan arah selanjutnya, tetap saja sangat sulit mengendalikannya dengan prompt
Tapi barusan saya juga melakukan persis hal yang saya keluhkan
Programmer terbiasa tidak membayar uang untuk alat. Laptop dasar saja (SSD, multicore, RAM 16GB) sudah sangat kuat untuk pengembangan C/C++/Rust, bahkan Python
Lalu tiba-tiba itu tidak lagi cukup, dan kita kembali ke situasi memakai komputer orang lain serta menyewa alat setiap hari. Lebih buruk lagi, kita memakai model yang berbeda-beda tiap hari, dan pada hari tertentu mungkin bahkan tidak bisa menyewa alat yang bagus karena semacam kekuatan mirip mafia menekan produsennya
Kebanyakan profesi lain memang harus berinvestasi cukup besar pada alat kerja. Kalau menginginkan alat yang bagus, Anda butuh memori GPU 64GB (misalnya 2×5090) dan sekitar 96GB RAM. Jika Anda membayar insinyur spesialis 200 ribu dolar, menghabiskan 50 ribu dolar untuk alat setiap dua tahun sekali juga tampak cukup masuk akal
Ini adalah tren yang perlu dikhawatirkan oleh perusahaan seperti Anthropic. Semakin mudah menjalankan model lokal, semakin rendah batas harga yang bisa mereka tetapkan
Mungkin tidak akan sampai tak ada lagi orang yang mau membayar $$$$$ per bulan, tetapi banyak orang akan mengalikan biaya bulanan dengan 12 atau 24 lalu bertanya, “Apakah saya bisa membangun model lokal lebih murah dari ini dan balik modal dalam 1–2 tahun?”
Jika sebagian besar pelanggan memilih membeli alih-alih menyewa, perusahaan dengan model bisnis yang berpusat pada sewa bisa tiba-tiba mengalami kekurangan pelanggan
Ini nyaris sudah tertanam dalam model bisnis ala Amerika. Semuanya di-outsource. Tidak ada yang ingin mengelola ruang server sendiri, dan meski harus membayar 2–3 kali lebih mahal, mereka tetap ingin meng-outsource kerepotan dan tanggung jawab itu
AI pun akan sama. Entah premiumnya dibayar ke Anthropic atau ke AWS, hasilnya sama saja
Saya bekerja di perusahaan yang relatif kecil, dan baru-baru ini kami mengalami gangguan terkait infrastruktur lokal. Meskipun total downtime internal selama 5 tahun terakhir jauh lebih sedikit daripada satu gangguan AWS besar yang baru-baru ini terjadi, CEO tetap menekan bahwa hosting infrastruktur sendiri sekarang dianggap tidak dapat diandalkan
Semua orang ingin lepas dari pekerjaan remeh dan tanggung jawab
Pengguna arus utama pada umumnya tampaknya lebih mungkin membayar untuk sesuatu yang sudah siap pakai dan langsung bisa digunakan. Orang yang lebih teknis atau lebih bertekad akan melakukannya sendiri, tetapi saya penasaran berapa rasio antara dua kelompok itu
Saya tidak tahu apakah ide menjual mesin 4GPU yang bisa ditaruh tim engineering di lemari suatu tempat lalu dipakai menjalankan model yang mereka mau sudah pernah ada
Ini mungkin tidak menarik bagi semua orang, tetapi dalam situasi ketika ada masalah kepercayaan bahwa hyperscaler menyedot data orang untuk melatih model mereka, pasti ada pihak yang menghargai mesin dan model yang bisa dikendalikan secara transparan, dan bila perlu bisa didatangi langsung untuk mencabut colokannya
Dengan hanya memakai Sonnet 4.6, saya hampir bisa bekerja seharian penuh dengan paket $20 per bulan. Dan Sonnet masih jauh lebih kuat daripada model yang bisa di-host sendiri di Mac M2
Mungkin saya akan berpikir berbeda kalau semuanya beralih ke penagihan berdasarkan penggunaan token, tetapi dengan dasar langganan, menurut saya ini tidak masuk akal secara finansial
Ini memang menyenangkan. Tetapi tidak layak secara ekonomis
OpenAI membeli habis RAM di pasar spot sehingga harga RAM/VRAM naik 6 kali lipat, dan GPU serta komputer yang layak menjadi sulit dijangkau oleh kebanyakan orang
Segelintir orang kaya mungkin bisa membeli Mac Studio 512GB atau satu RTX Pro 6000 seharga $13.000 lalu menjalankan model lokal yang cukup bagus, tetapi sebagian besar orang tetap harus memakai API
Pada titik tertentu Nvidia bisa saja berkata, “Kami tidak menjual 6000 sebanyak itu, dan kami bisa mendapat untung 4 kali lipat dari GPU khusus data center, jadi batalkan saja.” Kalau itu terjadi, barang itu bisa menjadi mustahil didapat, dan orang perorangan mungkin tidak lagi bisa menjalankan model lokal yang cukup layak, meski tertinggal sekitar 1 tahun dari state of the art
Saya ingin melihat kode yang dihasilkan dengan itu. Saya ingin memakai model lokal dan juga punya perangkat kerasnya, tetapi ketika dicoba sebagai pengganti model state of the art seperti GPT 5.5 xhigh atau Opus, saat ini model lokal masih belum siap menggantikannya
Karena kualitas dan berbagai hambatan, alur kerja jadi terlalu lambat, dan kadang bahkan merusak sintaks pemanggilan tool
Meski begitu, untuk alur yang lebih kecil dan terdefinisi jelas atau edit seperti “ubah bagian ini persis seperti ini”, sepertinya sudah cukup. Saya menunggu sampai ini cukup matang untuk menggantikan state of the art saat ini, dan menurut saya itulah titik peralihannya
Kalau bicara model lokal, DiffusionGemma dan model difusi secara umum tidak boleh diremehkan untuk penggunaan lokal. Biasanya masalah lokal adalah LLM tidak bisa memakai hardware secara efisien kecuali permintaan dibundel dalam batch dan dijalankan beberapa sekaligus, tetapi itu menuntut pendekatan yang berbeda sejak awal. Sebaliknya, model difusi jauh lebih cepat untuk satu prompt, dan selisihnya tidak kecil
Kebetulan hari ini saya mem-port dukungan diffusiongemma-26B-A4B-it dari Transformers ke Candle, lalu menambahkan beberapa optimasi, sehingga saat inferensi performanya melesat di Candle sekitar 450 token/detik (sekitar 19 iterasi/detik). Di pustaka HF Transformers angkanya sekitar 180 token/detik (sekitar 11 iterasi/detik). Bahkan saat menjalankan LLM berukuran mirip di vLLM, saya rasa saya belum pernah menembus 250 token/detik untuk satu prompt, jadi ini cukup menarik untuk model lokal
Dengan $2600, Anda bisa membeli dua GPU AMD 9700 dengan RAM 32GB per kartu dan daya sekitar 285W. Biaya maupun konsumsi dayanya sama-sama lebih rendah daripada 5090
Jika memakai build VLLM dengan patch AITER, Anda bisa menjalankan Qwen3.6 27B FP8 pada jendela konteks penuh dengan sekitar 45–50 TPS dalam sesi coding nyata di Opencode atau PI
Saya benar-benar berharap akan terus muncul lebih banyak model dense kelas 30B, tetapi bahkan hanya dengan Qwen3.6 saja sudah bisa menangani cukup banyak pekerjaan agen
Hanya saja, stack ROCm tidak cocok untuk orang yang tidak mau menggali sendiri dan memasang patch secara manual
Saya penasaran kenapa standar tiap orang tentang agentic coding yang “bagus” bisa berbeda sejauh itu
Di satu sisi, sungguh mengejutkan bahwa kita sudah sampai dari tingkat kecerdasan seperti “putar ‘Set a Timer’ di Apple Music” hingga tingkat yang mungkin bisa lolos Turing test, tetapi secara praktis model kecil masih jauh dari layak disebut “bagus” lebih dari sekadar demo teknis
Bagi saya, model 7B hanyalah gema buram Wikipedia. Model Gemma 4-bit bahkan terlalu buruk untuk secara stabil menghasilkan JSON pemanggilan alat atau sekadar menyalin satu baris kode untuk menerapkan patch
Qwen membutuhkan terlalu banyak instruksi detail dan pengawasan agar tidak masuk ke loop kehancuran atau kehilangan konteks, sampai-sampai instruksi yang harus saya berikan sering kali lebih panjang daripada kode akhir yang dihasilkannya
Apakah ada prompt ajaib yang tidak saya ketahui? Atau orang lain memang jauh lebih sabar atau ekspektasinya jauh lebih rendah?
Pada skrip kecil, glue code, dan perubahan CRUD sederhana, model kecil seperti Qwen3.6-27B bisa bekerja jauh lebih baik daripada di codebase yang lebih besar dan berantakan
Jika menjalankan Qwen/Gemma kelas 27/35B di FP8, hasilnya lebih baik daripada gemini-2.5 tetapi masih di bawah gemini-3.1. DS4-flash FP8 bisa dijalankan di dua DGX Spark, dan kondisinya terus membaik. DiffusionGemma baru-baru ini mencatat kecepatan generasi token 4x
Singkatnya, model yang dipakai tampaknya terlalu kecil atau terlalu dikuantisasi
Saya suka menjalankan dua model secara lokal. Yaitu qwen3.6 27B 8-bit (dense) dan qwen3.6 35B 4-bit (mixture of experts)
27B lebih pintar dan lebih bisa diandalkan, tetapi lambat. 35B lebih cepat dan tetap sangat pintar, tetapi berada di bawah 27B dan sedikit kurang stabil. Alasannya adalah arsitektur mixture of experts (MoE) yang hanya mengaktifkan sebagian parameter sehingga model jauh lebih cepat
Saya menjalankan 27B di MacBook Pro M5 Max + 40 GPU core + RAM 128GB. Di monster ini, 27B dan 35B bisa dimuat bersamaan di memori dan masih ada sisa untuk pekerjaan lain. Tetapi karena ini laptop, tidak mungkin menjalankan LLM lokal terus-menerus. Terlalu panas dan berisik
Yang lebih menarik adalah menjalankan model 35B di MacMini M4 RAM 64GB. Cepat dan bisa menangani banyak pekerjaan. Misalnya memindai, mengekstrak, dan mengklasifikasikan email, lalu terus memantau mailbox sambil bekerja. Saya juga memakainya sebagai asisten Hermes pribadi untuk pertanyaan seperti “Kapan peluncuran Starship berikutnya?”, “Siapa yang bermain di Piala Dunia hari ini? Sekalian kasih trivia”
Rencana berikutnya adalah workstation RTX Pro 6000 Blackwell yang akan saya taruh di basement. Saya ingin menjalankan Qwen dengan sangat cepat, secara bersamaan dengan banyak thread/prompt/agent. Kalau anggaran memungkinkan, saya ingin konfigurasi 2×RTX Pro 6000 untuk menjalankan DeepSeek v4 flash dan memakainya untuk riset
Untuk penggunaan harian, saya meng-host Qwen3.6:27b, tetapi saya benar-benar ingin meng-host deepseekv4 flash. Itu model yang terlalu “bagus” untuk ukuran/kecepatan/harganya
Saya penasaran kapan perusahaan akan mulai meng-host model untuk pekerjaan sehari-hari secara on-premises alih-alih membayar langganan untuk setiap developer. Sudah cukup bagus dan relatif murah
Tidak ditanya sih, tetapi menurut kami tidak seorang pun seharusnya memakai model terbaru dan terbaik untuk menulis kode atau hampir pekerjaan apa pun
Sebaliknya, kita perlu mengembangkan model terbuka untuk tugas tertentu, dan belajar menulis kode, menulis, dan menggambar dengan jari bertulang dan otak berdaging kita sendiri
Perusahaan besar dan fasilitas riset mungkin bisa memakainya untuk menghasilkan kode, matematika, dan sebagainya, dengan menempatkan para ahli untuk memverifikasi apakah output-nya benar, tetapi bahkan begitu pun mungkin tidak sepadan dengan biayanya. Misalnya, OpenAI tahun lalu mencatat rugi bersih 36 miliar dolar, model terbuka sudah cukup mendekat, dan keseluruhan rencana AI mulai kehabisan penipuan untuk diperah
Ada banyak hal yang bisa dilakukan bahkan dengan model yang sangat kecil, dan banyak juga tugas yang tidak membutuhkan tingkat komputasi dan memori yang gila, tetapi terlalu sedikit orang yang benar-benar meneliti arah itu