- GLM-4.7-Flash adalah model bahasa besar dengan arsitektur 30B-A3B MoE yang menghadirkan keseimbangan antara performa dan efisiensi sebagai model ringan untuk deployment
- Mencatat skor tinggi dalam berbagai benchmark test seperti AIME 25, GPQA, dan SWE-bench, dengan hasil yang kompetitif dibanding model sekelas (Qwen3-30B/GPT-OSS-20B)
- Menargetkan performa tingkat teratas di kelas model 30B, serta menjadi langkah penting untuk riset AI berbasis open source dan peningkatan efisiensi deployment
Pengenalan (Introduction)
- GLM-4.7-Flash adalah model 30B-A3B Mixture-of-Experts (MoE) yang menargetkan performa paling kuat di antara model kelas 30B
- Menyediakan opsi deployment ringan dengan fokus pada keseimbangan performa dan efisiensi
- Dirancang agar model berskala besar dapat dimanfaatkan dengan lebih efisien
Performa Benchmark (Performances on Benchmarks)
- Menampilkan metrik performa GLM-4.7-Flash pada berbagai benchmark standar
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 mendapat 85.0, GPT-OSS-20B mendapat 91.7)
- GPQA: 75.2 (lebih tinggi daripada model pembanding)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (selisih besar dibanding model lain)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- Pada banyak kategori, hasilnya lebih baik daripada Qwen3-30B-A3B-Thinking-2507 dan GPT-OSS-20B
Deployment Lokal (Serve GLM-4.7-Flash Locally)
- GLM-4.7-Flash mendukung framework inferensi vLLM dan SGLang
3 komentar
Karena ini 30B A3B, model ini tidak terlalu berat.
Memang perlu menyediakan ruang untuk 30B, tetapi begitu ruangnya tersedia, parameter aktifnya hanya 3B jadi kecepatannya tinggi.
Jadi, sepertinya saya juga pernah melihat cara optimasi dengan hanya memuat layer yang sering digunakan ke VRAM.
VRAM 24GB..? Atau kalau pakai Mac, sepertinya minimal RAM 32GB.
Komentar Hacker News
VRAM-nya cukup, jadi konteks 128k juga bisa dipakai dengan leluasa
Sejauh ini Qwen3-coder memberi hasil terbaik. Nemotron 3 Nano katanya lebih bagus di benchmark, tetapi untuk pekerjaan utama saya yaitu “menulis kode pengujian”, saya tidak merasakan perbedaan besar
Kalau ada yang mengkuantisasi ke 4bit GGUF, saya akan mencobanya. Codex kualitasnya tinggi, tetapi terlalu lambat. Saya berharap model-model kecil makin membaik bukan hanya di benchmark sederhana, tetapi juga dalam kualitas nyata
Saya memakai claude-code dan opencode bersama, tetapi belakangan lebih sering memakai opencode. claude-code memang dioptimalkan untuk model Anthropic
Rilis kali ini adalah versi “-Flash”, langsung naik setelah melewati 4.6-Flash dari 4.5-Flash. Menurut dokumentasinya, model ini setara dengan Haiku, dan ditetapkan sebagai
ANTHROPIC_DEFAULT_HAIKU_MODELModel terbuka masih tertinggal sekitar 1 tahun di benchmark, tetapi tetap menarik dalam jangka panjang
GLM memiliki 355B parameter dengan hanya 31B yang aktif, jadi self-host sulit, tetapi menurut saya tetap kandidat yang layak untuk dipakai lewat endpoint Cerebras
Token yang di-cache juga dikenai biaya, jadi saya menghabiskan $4 hanya untuk satu tugas sederhana. Dengan GPT-5.2-Codex mungkin biayanya bahkan tidak sampai $0.5
Dalam dua prompt kode, keduanya menghasilkan kode yang salah dan loop tak berujung. Mungkin ini masalah cara kuantisasi di LMStudio, tetapi kesan pertama saya buruk
Tautan terkait: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends Setelah itu Anda bisa mengobrol di http://127.0.0.1:8080 atau mengaksesnya lewat API yang kompatibel dengan OpenAI
Namun, tepat setelah model baru dirilis mungkin masih ada bug, jadi sebaiknya tunggu beberapa hari lalu perbarui
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. Cepat, tetapi templatenya belum selesai sehingga keluarannya berantakan. Saya sedang menunggu template resmi muncul di ollama.com“GLM-4.7-Flash adalah model ringan dan efisien, versi gratis dari GLM-4.7, yang menawarkan latensi rendah dan throughput tinggi untuk tugas coding, penalaran, dan generasi.
Model ini juga menunjukkan performa kuat dalam terjemahan, roleplay, dan generasi estetis.”
Detail lebih lanjut bisa dilihat di catatan rilis resmi
sekarang AI setingkat GPT-5-mini bisa dijalankan secara lokal bahkan di MacBook RAM 32GB
Selain itu, biaya LLM-as-a-service juga jadi jauh lebih murah — sekitar 1/10 harga dibanding Haiku 4.5
GLM 4.7 cukup untuk penggunaan sehari-hari, tetapi kadang kurang dalam pemahaman instruksi, dan itu membuat frustrasi