Cara Menjalankan GLM-5.2 Secara Lokal
(unsloth.ai)- Model open baru dari Z.ai, GLM-5.2, menonjol sebagai contoh menjalankan model besar secara lokal dengan 744B parameter, 40B parameter aktif, dan jendela konteks 1M
- Unsloth menyediakan jalur menjalankan secara lokal lewat Dynamic GGUF, dan quant 2-bit
UD-IQ2_Myang direkomendasikan memerlukan disk 239GB serta lingkungan dengan RAM minimal sekitar 245GB - Dynamic 1-bit menunjukkan sekitar 76.2% top-1 accuracy dengan pengurangan ukuran 86%, sementara Dynamic 2-bit menunjukkan sekitar 82% accuracy dengan pengurangan ukuran 84%, sehingga tidak sama dengan tafsir “kinerjanya memburuk sebesar rasio ukurannya mengecil”
- Cara menjalankannya terbagi dua, yaitu Unsloth Studio dan
llama.cpp; Studio mendukung pencarian, pengunduhan, dan eksekusi model, RAM offloading, serta deteksi multiGPU di MacOS, Windows, dan Linux - Untuk benar-benar memakai konteks panjang, penggunaan memori perlu dikurangi dengan KV cache quantization di
llama.cpp;q4_0memungkinkan konteks sekitar 3.5x lebih panjang, danq4_1sekitar 3.2x lebih panjang
Gambaran model GLM-5.2
- GLM-5.2 adalah model open baru dari Z.ai, dan dapat dijalankan di hardware lokal melalui Unsloth Dynamic GGUF
- Spesifikasi modelnya adalah sebagai berikut
- Total parameter: 744B
- Parameter aktif: 40B
- Jendela konteks maksimum: 1,048,576
- Model ini diperkenalkan sebagai penyedia performa SOTA untuk long-horizon coding, reasoning, dan agentic tasks
- Menurut Artificial Analysis dan beberapa benchmark, model ini dikatakan menunjukkan performa setara Claude 4.8 Opus, GPT-5.5, dan Gemini 3.1 Pro
- Unsloth menyatakan telah menerima day-zero access dari Z.ai
- File model GGUF untuk GLM-5.2 bisa diunduh dari Hugging Face di GLM-5.2-GGUF
Quant yang direkomendasikan dan kebutuhan memori
- Untuk keseimbangan aksesibilitas dan akurasi, disarankan memakai 2-bit dynamic quant
UD-IQ2_M- Penggunaan disk: 239GB
- Muat langsung pada Mac dengan 256GB unified memory
- Dengan MoE offloading, model ini juga dikatakan berjalan baik pada 1x24GB GPU + 256GB RAM
- Quant 1-bit muat dalam 223GB RAM, sedangkan 8-bit memerlukan 810GB RAM
- Dalam tabel kebutuhan hardware inferensi, total memori berarti RAM + VRAM atau unified memory
- Angka total memori yang ditampilkan: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
- Untuk performa optimal, total memori yang tersedia dari VRAM dan RAM sistem harus cukup jauh melebihi quantized model file size
Mode Thinking dan pengaturan sampling
- GLM-5.2 menyediakan 3 thinking mode
- non-thinking
- thinking High
- thinking Max
- Untuk tugas kompleks, disarankan menggunakan Max Thinking
- Di Unsloth Studio, High/Max Thinking dan non-Thinking dapat di-toggle melalui UI
- Pengaturan untuk sebagian besar use case adalah sebagai berikut
temperature = 1.0top_p = 0.95- Pada mode lain,
top_p = 1.0
- Secara default GLM-5.2 menggunakan reasoning, dan
reasoning_effortdapat dipilih sebagai"high","max", atau dinonaktifkan - Contoh menonaktifkan thinking adalah sebagai berikut
- Shell biasa:
--chat-template-kwargs '{"enable_thinking":false}' - Windows PowerShell:
--chat-template-kwargs "{\"enable_thinking\":false}"
- Shell biasa:
- Di
llama.cpp, Anda juga dapat menggunakan--reasoning onatau--reasoning off - Contoh pengaturan reasoning effort adalah sebagai berikut
--chat-template-kwargs '{"reasoning_effort":"max"}'--chat-template-kwargs '{"reasoning_effort":"high"}'--chat-template-kwargs '{"enable_thinking":false}'
Akurasi Dynamic GGUF dan interpretasi KLD
- Unsloth menggunakan benchmark KLD(KL Divergence) untuk mengevaluasi akurasi quantization GLM-5.2-GGUF
- Dynamic 4-bit
UD-Q4_K_XLdan Dynamic 5-bitUD-Q5_K_XLdiinformasikan sebagai hampir lossless dalam sebagian besar kasus - Quant yang lebih kecil pun bekerja dengan pendekatan penempatan presisi dinamis, yaitu menjaga layer penting pada presisi lebih tinggi dan layer yang kurang penting pada bit rendah
- Angka berdasarkan pure top-1% accuracy adalah sebagai berikut
- Dynamic 1-bit: sekitar 76.2% accuracy, pengurangan ukuran 86%
- Dynamic 2-bit: sekitar 82% accuracy, pengurangan ukuran 84%
- Perbandingan akurasi:
- Ukuran 86% lebih kecil tidak berarti 86% lebih buruk; untuk Dynamic 1-bit, diberi interpretasi sekitar 24% lebih rendah akurasinya dibanding model penuh 1.5TB
- “76% accuracy” bukan berarti pada pertanyaan seperti “The capital of France is” model memilih Paris 76% dan Sydney 24%
- Dalam contoh itu, Paris dikatakan tetap 100% dan Sydney 0%
- Angka 76% tersebut juga mencakup perubahan distribusi filler words dan stop words di seluruh corpus
- Untuk prompt seperti “Create a novel”, di mana ada banyak awal yang sama-sama benar, distribusi token antara model baseline dan model yang di-quantize bisa berbeda
- Baseline bisa memilih
[I]100%, sementara model quantized membagi distribusi seperti[I]76% dan[The]24% - Angka ini tidak berarti ada peluang 24% menghasilkan gibberish atau output yang salah
- Baseline bisa memilih
- KLD adalah jarak antara probabilitas baseline BF16 atau Q8_0 dan probabilitas versi quantized
- Tujuan quantization adalah meminimalkan rata-rata KL divergence antara
f(q(W))danf(W) fadalah forward language model,qadalah operasi quantization, danWadalah parameter atau weights model- Jika KLD bernilai 0, berarti model direkonstruksi dengan sempurna
- Tujuan quantization adalah meminimalkan rata-rata KL divergence antara
- Menjalankan KLD pada seluruh contoh corpus pelatihan sebesar 15T tokens sangat mahal, sehingga Unsloth mengoptimalkannya dengan mean KLD dan sampling subset representatif kecil
- KLD 99.9% juga umumnya dianggap baik, dan karena ada uplift yang lebih besar mulai dari 4bit ke atas, Dynamic 4-bit kemungkinan paling cocok untuk massive out-of-distribution tasks
Menjalankan dengan Unsloth Studio
- Unsloth Studio adalah web UI open-source untuk AI lokal dan mendukung menjalankan GLM-5.2
- Fitur utamanya adalah sebagai berikut
- Menjalankan model lokal di MacOS, Windows, dan Linux
- Mencari, mengunduh, dan menjalankan model GGUF dan safetensor
- Deteksi otomatis RAM offloading dan setup multiGPU
- Inferensi CPU + GPU cepat melalui
llama.cpp
- Perintah instalasinya adalah sebagai berikut
- MacOS, Linux, WSL:
curl -fsSL https://unsloth.ai/install.sh | sh - Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
- MacOS, Linux, WSL:
- Perintah menjalankannya adalah sebagai berikut
unsloth studio -H 0.0.0.0 -p 8888- Setelah dijalankan, buka
http://127.0.0.1:8888atau URL khusus pengguna di browser
- Cara menjalankan Studio dengan aman melalui HTTPS juga disediakan
- Di Windows, Mac, Linux:
unsloth studio --secure - Menggunakan Cloudflare tunnel gratis
- Di Windows, Mac, Linux:
- Saat pertama kali dijalankan, Anda perlu membuat password untuk keamanan akun lalu sign in kembali
- Di tab Studio Chat, cari
GLM-5.2pada kolom pencarian lalu unduh model dan quant yang diinginkan - Sebelum menjalankan model, pastikan tersedia compute yang cukup
- Di Studio, inference parameters seharusnya diatur otomatis, tetapi pengguna juga dapat mengubah context length, chat template, dan pengaturan lain secara manual
- Informasi tambahan tersedia di Unsloth Studio inference guide
Menjalankan dengan llama.cpp
- Tutorial llama.cpp membahas menjalankan quant
UD-IQ2_M, yang memerlukan minimal 245GB RAM - Untuk inferensi lokal yang cepat, digunakan llama.cpp
- Jika tidak memiliki GPU atau hanya ingin inferensi CPU, ubah
-DGGML_CUDA=ONmenjadi-DGGML_CUDA=OFF - Untuk perangkat Apple Mac / Metal, lanjutkan dengan
-DGGML_CUDA=OFF, dan dukungan Metal sudah aktif secara default - Prosedur build-nya mengikuti alur berikut
apt-get updateapt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -ygit clone https://github.com/ggml-org/llama.cppcmake ... -DGGML_CUDA=ONcmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-splitcp llama.cpp/build/bin/llama-* llama.cpp
llama.cppdapat digunakan untuk load dan download model secara langsung sepertiollama run- Sebagai contoh, Anda bisa memilih tipe quantization
UD-IQ2_M, dan memaksa lokasi penyimpanan denganexport LLAMA_CACHE="unsloth/GLM-5.2-GGUF" - Proses download langsung dari
llama.cppbisa sangat lambat, sehingga cara unduh manual disarankan sebagai opsi yang lebih baik
Contoh unduh manual dan eksekusi
- Untuk unduh manual yang lebih cepat, digunakan huggingface_hub
pip install huggingface_hubhf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
- Untuk near full precision, Anda dapat memakai
--include "*UD-Q8_K_XL*" - Jika unduhan macet, disarankan memeriksa Hugging Face Hub, XET debugging
- Perintah unduh Dynamic 1-bit adalah sebagai berikut
hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
- Path model untuk conversation mode adalah sebagai berikut
- 2-bit:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf - 1-bit:
unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
- 2-bit:
- Contoh menjalankan
llama-climenetapkan shard pertama GGUF 2-bit ke--modeldan menggunakan parameter berikut--temp 1.0--top-p 0.95--min-p 0.01
- Dalam contoh eksekusi langsung,
-hf unsloth/GLM-5.2-GGUF:UD-IQ2_Mjuga digunakan
Perilaku yang dikonfirmasi lewat contoh generasi
- Dokumen tersebut memuat contoh 2-bit GLM-5.2 yang melakukan tool-calling dan pembuatan SVG
- Setelah menjalankan
llama-cli, hasil untuk permintaan membuat “short Flappy Bird game” ditampilkan - Game HTML/JavaScript tunggal yang dihasilkan memakai nama
Sunset Flier- Mencakup
canvas, layar mulai, layar game over, skor HUD, tombolNEW BEST!, danRETRY - Tanpa aset eksternal, efek suara
flap,score,hit, dandiedibuat menggunakan Web Audio API - Status game dikelola dalam empat tahap:
READY,PLAYING,DYING,OVER - Skor terbaik disimpan dengan
localStorage.getItem('sunsetFlierBest')danlocalStorage.setItem()
- Mencakup
- Logika game mencakup gravitasi, impuls flap, pipe acak, tabrakan, partikel, guncangan layar, dan sistem medali
GRAVITY = 0.42MAX_FALL = 9PIPE_W = 68PIPE_GAP = 180PIPE_SPEED = 2.6PIPE_SPACING = 220
- Input mendukung mouse, sentuh, serta keyboard
Space,ArrowUp,Enter - Contoh game ini disajikan dalam konteks bahwa 1-bit quantization juga bekerja dengan baik dan suaranya berjalan normal
Konteks panjang dan KV cache quantization
- Untuk memanfaatkan konteks panjang di
llama.cpp, penggunaan memori perlu dikurangi dengan KV cache quantization llama.cppbaru-baru ini menambahkan teknik untuk akurasi yang lebih tinggi pada KV cache quantization, dengan PR terkait dihttps://github.com/ggml-org/llama.cpp/pull/21038- Tipe data KV cache yang didukung adalah sebagai berikut
f32f16bf16q8_0q4_0q4_1iq4_nlq5_0q5_1
- Nilai default-nya adalah
f16 q4_0memiliki sekitar 4.5 bit per weight, sehingga panjang konteks bisa ditingkatkan sebesar16 / 4.5, yaitu sekitar 3.5x- Sebagai contoh, model yang sebelumnya mendukung 10K bisa masuk ke kisaran hingga 35K
q4_1menambahkan shifting parameter sehingga mungkin lebih baik, dan dengan 5 bit per weight memberikan konteks sekitar 3.2x lebih panjang- Contoh menjalankan KV cache quantization menetapkan model GLM-5.2 GGUF dan parameter sampling berikut
- Path model:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0--top-p 0.95--min-p 0.01--cache-type-k q4_1--cache-type-v q4_1
- Path model:
Angka yang bisa dikonfirmasi dari tabel benchmark
- Dokumen tersebut dilanjutkan dengan tabel benchmark GLM-5.2, tetapi dalam konten yang diberikan tidak ada header kolom, sehingga tidak dapat dipastikan angka mana yang cocok dengan model atau pengaturan tertentu
- Benchmark reasoning mencakup baris dan angka berikut
HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
- Benchmark coding mencakup baris dan angka berikut
SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
- Benchmark agentic mencakup baris dan angka berikut
MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8
1 komentar
Komentar Hacker News
Sedang menjalankan Q4_K_XL. Untuk mendapatkan sekitar 6tk/dtk, RAM 512GB dan 2 buah RTX 3090 dengan
llama.cpp -cmoesudah cukupSaat ini karena masih pakai DDR4 2400MHz yang jelek, tetapi kalau 3200MHz mungkin bisa naik sampai sekitar 9tk/dtk. CPU-nya juga EPYC 32-core jadi cukup oke, tetapi dengan 64-core yang lebih bagus sepertinya bisa mencapai 11tk/dtk
Saya merakitnya sebagai opsi hemat sebelum harga hardware makin gila, dan menyesalinya setiap hari, tetapi tetap luar biasa bahwa model ini bisa dijalankan di rumah. Cocok untuk perencanaan atau setelah semua konteks yang dibutuhkan dikumpulkan lalu dimasukkan ke prompt sekali jalan
Total biaya hardware saat dirakit adalah 2.400 dolar, dan kalau rajin berburu barang masih ada cara untuk menjalankan model seperti ini di rumah. Saya sering ditanya kenapa repot-repot, atau berapa banyak yang bisa dihemat kalau pakai API cloud, tetapi menurut saya insiden Fable menunjukkan nilai dari mengoperasikan sendiri secara independen
Terima kasih untuk tim unsloth, dan Q4_K_XL memang solid. Kalau mau mengunduh model terkuantisasi, selama muat masuk, sebaiknya ambil varian K_XL
Para peneliti yang berusaha menyisipkan model open source ke sikat gigi elektrik atau Tamagotchi juga sama kerennya
Kalau privasi atau kepuasan memiliki sendiri bukan kebutuhan mutlak, membayar hyperscaler akan lebih murah, lebih praktis, dan token per detiknya juga jauh lebih cepat
Meski begitu, saya suka arah perkembangannya, dan penasaran hardware self-hosting seperti apa yang akan muncul 2 tahun lagi
Saya cukup senang memakainya dan ingin cepat-cepat mencoba model ini juga
Selain menjalankan model lokal, saya juga memakai mesin ini sebagai platform pengembangan jarak jauh utama. Semua sesi Claude Code sekarang saya jalankan di sana lewat
tmuxJari saya senang karena tidak perlu lagi terus-menerus menyentuh laptop yang panas. Claude Code juga memang sangat boros baterai
[0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
RAM saja hampir 5.000 dolar, dan GPU masing-masing sekitar 2.000 dolar, jadi menurut harga saat ini ini adalah hardware yang cukup mahal
llama.cppuntuk model ini masih belum mendukung DSA sparse attention, jadi masih cukup belum matangKarena itu model dijalankan dengan mekanisme lain yang tidak digunakan saat pelatihan, dan ada hasil yang menunjukkan kualitas serta performanya menurun
Bagaimanapun, menurut saya GLM 5.2 dalam banyak hal tidak semenarik keluarga DeepSeek V4. DeepSeek V4 memakai mekanisme attention yang lebih maju sehingga bisa jauh menghemat memori KV cache, terutama pada konteks panjang
Hasilnya, pemrosesan batch yang luas jadi memungkinkan bahkan di platform konsumen. GLM tidak punya itu, dan dari sisi struktur performa dasarnya terasa kurang lebih mirip dengan Kimi 2.6. Keduanya sedikit terlalu berat untuk dijalankan secara masuk akal pada kualitas penuh di hardware umum
Hampir bisa. Perangkat saya RAM 192GB + RTX 3090 24GB, dan saya nyaris bisa menjalankannya
Untuk offloading MoE, tertulis perlu VRAM 24GB dan RAM 256GB
https://unsloth.ai/docs/models/glm-5.2#usage-guide
Di thread sebelumnya ada yang bilang hardware-nya menelan biaya 500 ribu dolar
https://news.ycombinator.com/item?id=48629970
Dengan NVFP4, kecepatan yang lumayan, sekitar 120 tok/dtk, beserta konkurensi masih bisa dicapai di kisaran 80 ribu~90 ribu dolar pada harga saat ini, bahkan mungkin lebih rendah
Dengan uang sebanyak itu, Anda bisa membeli 6 buah RTX 6000 PRO Blackwell, CPU dan motherboard yang layak, serta power supply. Total VRAM-nya 576GB
Jika decode 40 tok/dtk dan prefill sekitar 1200 tok/dtk sudah cukup, biayanya bisa di bawah 50 ribu dolar
Salah satu alasan hardware relatif stagnan selama 20 tahun terakhir, menurut saya, adalah karena perusahaan kekurangan use case untuk membenarkan penggantian hardware
Selama 15 tahun terakhir, sebagian besar uang dan energi mengalir ke mobile
Inferensi lokal yang murah mungkin bisa menjadi sumber pendapatan yang dibutuhkan agar produsen server, desktop, dan laptop bergerak lagi
Saya agak tergoda membeli satu GPU yang punya RAM 24GB
Istilah “muat” berarti muat di RAM 256GB, tetapi dalam keadaan terkuantisasi berat dan tetap akan berjalan sangat lambat
Angka di judul bukan kecepatan generasi token melainkan kecepatan pemrosesan prompt
Kalau hasilnya 10 tok/s dan API 20~30 tok/s, sekilas memang tidak terlihat terlalu buruk, tetapi Mac Studio atau perangkat yang tidak menaruh semuanya di GPU memiliki pemrosesan prompt 20~50 kali lebih lambat dibanding konfigurasi GPU murni
Pada akhirnya, inilah bagian yang membuatnya praktis tidak bisa dipakai kecuali Anda menghabiskan 50 ribu dolar untuk GPU. Dan bahkan begitu pun Anda masih memakai model yang terkuantisasi berat
Ada juga versi dual-port untuk perangkat seperti ini: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
Jadi ini 2 x 100GB/s port, dan mungkin juga 2 x 200GB/s. Mungkin akan lebih jelas setelah ada yang benar-benar memegangnya langsung
Perangkat seperti ini juga bisa di-cluster. Untuk 2 atau 3 unit, kalau memakai 2 subnet IP, tampaknya cukup jelas. Untuk 4 unit atau lebih, mungkin perlu switch tergantung seberapa besar latensi jaringan berpengaruh
Apple sepertinya melupakan seri M dengan RAM besar. Di Apple Store saya tidak bisa menemukan konfigurasi dengan RAM terpadu di atas 96GB, dan itu pun harganya seperti menjual ginjal
Mereka mendorong dari banyak arah sekaligus: desktop AI baru yang memakai GB10 relatif murah, dan lewat clustering bisa membentuk VRAM 1TB
Nvidia, AMD, Intel, Cerebras, dan lainnya sedang mendorong hardware baru, dan model open source seperti GLM 5.2 berkembang dengan sangat gila
Model flash seperti DeepSeek V4 Flash juga makin bagus, dan kuantisasi juga terus berkembang
Harness untuk memakai model yang berbeda-beda juga mulai memungkinkan, misalnya model besar untuk pekerjaan sulit dan model kecil untuk kerjaan remeh
Jadi orang-orang yang ingin lepas dari API berharap sebentar lagi bisa meng-host cluster desktop AI dengan harga masuk akal di rumah sambil mendapatkan performa kelas Opus
Memang murah dibanding H200 setara, tetapi untuk homelab yang tidak didukung pendanaan dari RSU OpenAI atau Anthropic, itu tetap di luar jangkauan
Rasanya jaraknya makin menyempit hingga level di mana model yang cukup bagus untuk dijalankan lokal, termasuk untuk coding, mulai memungkinkan, dan saya rasa beberapa perusahaan mungkin mulai agak gelisah. Apa saya salah?
Tetapi untuk saat ini, sangat sedikit orang yang mampu membeli perangkat yang bisa menjalankan model ini secara efektif. Saya rasa ini tidak akan banyak berubah dalam beberapa tahun ke depan
Kalau Z.ai merilis versi seperti GLM-5.2 Flash yang dioptimalkan untuk coding di kisaran 80B parameter, lab riset garis depan di AS akan lebih khawatir
Secara umum, perusahaan AI Tiongkok sedang menunjukkan cara melakukan hal yang sama dengan sumber daya lebih sedikit, kadang jauh lebih sedikit, dan kalau tren ini berlanjut, itu akan membuat lab garis depan gelisah
Namun, perusahaan AI Tiongkok juga kemungkinan akan mencoba menjaga moat mereka sendiri dengan tidak merilis model yang jauh lebih kecil tetapi kuat dibanding model andalan mereka saat ini
Alibaba Qwen tampaknya sekarang berada di posisi itu. Belakangan ini mereka cukup sunyi, dan model 395B terbaru terlalu besar untuk dijalankan kebanyakan orang di rumah. Kali ini juga belum terlihat tanda-tanda mereka akan merilis model yang lebih kecil
Kalau tim pengembangnya sekitar 10 orang, opsi investasi sekali jalan 50 ribu dolar untuk server LLM bisa jadi cukup menarik
Ada token tanpa batas, performa yang lumayan, opsi upgrade, dan kemungkinan integrasi ke produk
Secara umum, kalau sebuah perusahaan ingin memasukkan LLM ke produknya, pendekatan LLM lokal akan terasa lebih menarik lagi. Bahkan model yang agak bodoh pun sudah cukup bagus untuk banyak penggunaan integrasi produk
Tetapi pilihannya adalah build CPU yang sangat lambat dan RAM senilai 10 ribu dolar, GPU senilai 90 ribu dolar, atau model terkuantisasi berat yang kualitasnya sulit dibandingkan
Anda bisa merakit satu untuk seru-seruan, tetapi itu sendiri tidak mengubah keekonomiannya. Meski begitu, fakta bahwa ini memungkinkan tetap menarik
OpenAI dan Anthropic tampaknya akan tidak suka dengan waktu rilis GLM 5.2
Ini cukup menunjukkan bahwa yang mereka punya bukan moat ajaib, melainkan sekadar keuntungan sebagai yang start lebih dulu
Ada Mac Studio RAM 192GB yang bisa dipakai, meski di bawah RAM minimum yang disebutkan
Apalagi karena ini MoE, mungkinkah dengan swap ke disk cepat bisa dipaksa jalan entah bagaimana?
Performanya juga akan mengenaskan, di level sekitar 0,1 tok/s
Saya sangat menghargai kerja unsloth yang membantu jutaan orang mulai menggunakan AI lokal, tetapi tulisan ini agak terlihat seperti umpan unduhan
Kalau terlalu banyak layer di-offload ke CPU, hasilnya benar-benar tidak bagus. Saya sudah mencobanya berkali-kali, dan akhirnya harus
rm -rffolder cache Hugging Face yang berat-berat ituSaya juga ragu menjalankan kuantisasi 1-bit atau 2-bit GLM 5.2 yang sebagian besar berada di luar VRAM akan lebih berguna daripada Qwen3.6-27B Q8_0 yang sepenuhnya muat di VRAM
Apa pun yang dikatakan artikelnya, saya rasa orang yang mencoba menjalankan ini di mesin RAM 256GB tidak akan mendapat pengalaman yang menyenangkan
Batas minimum yang jauh lebih realistis adalah 512GB
Untungnya, saya punya dua workstation dual Xeon dengan RAM 512GB di home office yang saya beli murah sebelum harga naik, jadi saya bisa bereksperimen dengan berbagai hal