11 poin oleh GN⁺ 2026-01-20 | 3 komentar | Bagikan ke WhatsApp
  • GLM-4.7-Flash adalah model bahasa besar dengan arsitektur 30B-A3B MoE yang menghadirkan keseimbangan antara performa dan efisiensi sebagai model ringan untuk deployment
  • Mencatat skor tinggi dalam berbagai benchmark test seperti AIME 25, GPQA, dan SWE-bench, dengan hasil yang kompetitif dibanding model sekelas (Qwen3-30B/GPT-OSS-20B)
  • Menargetkan performa tingkat teratas di kelas model 30B, serta menjadi langkah penting untuk riset AI berbasis open source dan peningkatan efisiensi deployment

Pengenalan (Introduction)

  • GLM-4.7-Flash adalah model 30B-A3B Mixture-of-Experts (MoE) yang menargetkan performa paling kuat di antara model kelas 30B
    • Menyediakan opsi deployment ringan dengan fokus pada keseimbangan performa dan efisiensi
    • Dirancang agar model berskala besar dapat dimanfaatkan dengan lebih efisien

Performa Benchmark (Performances on Benchmarks)

  • Menampilkan metrik performa GLM-4.7-Flash pada berbagai benchmark standar
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 mendapat 85.0, GPT-OSS-20B mendapat 91.7)
    • GPQA: 75.2 (lebih tinggi daripada model pembanding)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (selisih besar dibanding model lain)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
  • Pada banyak kategori, hasilnya lebih baik daripada Qwen3-30B-A3B-Thinking-2507 dan GPT-OSS-20B

Deployment Lokal (Serve GLM-4.7-Flash Locally)

3 komentar

 
crawler 2026-01-21

Karena ini 30B A3B, model ini tidak terlalu berat.
Memang perlu menyediakan ruang untuk 30B, tetapi begitu ruangnya tersedia, parameter aktifnya hanya 3B jadi kecepatannya tinggi.

Jadi, sepertinya saya juga pernah melihat cara optimasi dengan hanya memuat layer yang sering digunakan ke VRAM.

 
geekygeek 2026-01-20

VRAM 24GB..? Atau kalau pakai Mac, sepertinya minimal RAM 32GB.

 
GN⁺ 2026-01-20
Komentar Hacker News
  • Saya belakangan ini bereksperimen dengan OpenCode, dan menjalankan model 30B-A3B di GPU 32GB memakai llama.cpp (4bit)
    VRAM-nya cukup, jadi konteks 128k juga bisa dipakai dengan leluasa
    Sejauh ini Qwen3-coder memberi hasil terbaik. Nemotron 3 Nano katanya lebih bagus di benchmark, tetapi untuk pekerjaan utama saya yaitu “menulis kode pengujian”, saya tidak merasakan perbedaan besar
    Kalau ada yang mengkuantisasi ke 4bit GGUF, saya akan mencobanya. Codex kualitasnya tinggi, tetapi terlalu lambat. Saya berharap model-model kecil makin membaik bukan hanya di benchmark sederhana, tetapi juga dalam kualitas nyata
    • Saya merekomendasikan model GLM-4.7-GGUF. Kuantisasi bagus lainnya juga bisa dilihat di 0xSero
    • Codex biasanya memang menghasilkan kualitas yang lebih tinggi, tetapi kadang malah memberi hasil setingkat AI slop, sehingga saya menunggu lama untuk sesuatu yang sebenarnya bisa diselesaikan Opus dalam beberapa menit
  • Saya menggunakan GLM-4.7 lewat paket coding z.ai, dan performa terhadap harganya sangat mengejutkan
    Saya memakai claude-code dan opencode bersama, tetapi belakangan lebih sering memakai opencode. claude-code memang dioptimalkan untuk model Anthropic
    Rilis kali ini adalah versi “-Flash”, langsung naik setelah melewati 4.6-Flash dari 4.5-Flash. Menurut dokumentasinya, model ini setara dengan Haiku, dan ditetapkan sebagai ANTHROPIC_DEFAULT_HAIKU_MODEL
    • Saya penasaran bagaimana performanya belakangan ini. Saya dengar beberapa pengguna bilang batasannya berubah sehingga hampir tidak bisa dipakai
    • Saya juga memakai paket yang sama. Saya membelinya saat promo 12 bulan seharga $28, dan memberi 5x kuota pemakaian dibanding Claude Pro. Sekarang saya hanya memakai claude code
  • GLM-4.7 adalah peningkatan bertahap, tetapi terlihat cukup solid. Demo UI oneshot jauh lebih baik daripada 4.6
    Model terbuka masih tertinggal sekitar 1 tahun di benchmark, tetapi tetap menarik dalam jangka panjang
    GLM memiliki 355B parameter dengan hanya 31B yang aktif, jadi self-host sulit, tetapi menurut saya tetap kandidat yang layak untuk dipakai lewat endpoint Cerebras
    • Kemarin saya menguji GLM-4.7 di Cerebras (bukan Flash) dengan kredit $10. Kecepatannya 1000 token per detik, tetapi rate limit membuatnya tidak nyaman untuk penggunaan nyata. Token yang di-cache juga dihitung ke dalam batasan, jadi saya sering terblokir di awal setiap menit lalu harus menunggu
      Token yang di-cache juga dikenai biaya, jadi saya menghabiskan $4 hanya untuk satu tugas sederhana. Dengan GPT-5.2-Codex mungkin biayanya bahkan tidak sampai $0.5
    • Banyak pembicaraan soal benchmark, tetapi itu berbeda dari beban kerja nyata. Saya menghentikan claude dan pindah ke minimax m2.1. Setelah mencobanya bersama open code, saya justru lebih suka. Paket $10 sudah cukup
    • Model terbuka pada akhirnya hanya mengikuti lewat distillation, jadi tanpa inovasi mereka akan selalu tertinggal. Bukan “mengejar ketertinggalan”, melainkan seperti trailer yang terseret di belakang truk
    • Menilai kualitas model dari demo UI itu tidak tepat. Jika UI berada di luar distribusi, sebagian besar akan gagal. Bahkan Codex pun tidak sempurna
  • Saya mencoba menjalankannya di LMStudio pada M4 MacBook Pro, dan hasilnya jauh lebih buruk daripada gpt-oss-20b
    Dalam dua prompt kode, keduanya menghasilkan kode yang salah dan loop tak berujung. Mungkin ini masalah cara kuantisasi di LMStudio, tetapi kesan pertama saya buruk
    • Apakah Anda memakai model penuh BF16, atau versi kuantisasi mlx4?
  • Saya ingin bertanya kepada yang sudah menjalankannya secara lokal — saat ini pengaturan paling sederhana (tooling + format kuantisasi) yang tersedia apa? Kalau ada contoh perintah yang benar-benar berfungsi, mohon dibagikan
    • Saya memakai llama-server yang dikompilasi dengan backend CUDA dari llama.cpp. Di lingkungan Lubuntu + RTX 3090, saya menjalankan versi Q4_K_M quant
      Tautan terkait: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
      llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
      
      Setelah itu Anda bisa mengobrol di http://127.0.0.1:8080 atau mengaksesnya lewat API yang kompatibel dengan OpenAI
      Namun, tepat setelah model baru dirilis mungkin masih ada bug, jadi sebaiknya tunggu beberapa hari lalu perbarui
    • Bisa juga dijalankan dengan perintah ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. Cepat, tetapi templatenya belum selesai sehingga keluarannya berantakan. Saya sedang menunggu template resmi muncul di ollama.com
    • Di LM Studio, cukup cari “4.7-flash” lalu instal versi komunitas mlx
    • Secara pribadi, saya merekomendasikan llama.cpp 4bit quant atau wrapper-nya
  • Menurut penjelasan rilis kali ini,
    “GLM-4.7-Flash adalah model ringan dan efisien, versi gratis dari GLM-4.7, yang menawarkan latensi rendah dan throughput tinggi untuk tugas coding, penalaran, dan generasi.
    Model ini juga menunjukkan performa kuat dalam terjemahan, roleplay, dan generasi estetis.”
    Detail lebih lanjut bisa dilihat di catatan rilis resmi
    • Dua catatan yang diposting tahun ini secara keliru ditandai sebagai 2025. Mungkin halamannya ditulis secara manual
  • Untuk menjelaskan kepada orang yang penasaran kenapa rilis ini penting,
    sekarang AI setingkat GPT-5-mini bisa dijalankan secara lokal bahkan di MacBook RAM 32GB
    Selain itu, biaya LLM-as-a-service juga jadi jauh lebih murah — sekitar 1/10 harga dibanding Haiku 4.5
  • Skor SWE-bench Verified-nya 59.2, cukup mengesankan untuk model 30B. Itu lebih tinggi daripada 55.4 milik Qwen3-Coder 480B
    • Devstral 2 Small (24B) lebih tinggi lagi dengan 68.0%. Tautan resmi
    • Namun SWE-Bench Verified sekarang sulit dipercaya. Repositori dan bahasanya terbatas, dan ada juga masalah hafalan data. SWE-Bench Pro lebih menjanjikan, tetapi tetap tidak sempurna
  • Kalau saya butuh pekerjaan yang cepat, saya memakai Gemini atau Cerebras. Lihat blog Cerebras
    GLM 4.7 cukup untuk penggunaan sehari-hari, tetapi kadang kurang dalam pemahaman instruksi, dan itu membuat frustrasi
    • Bagi saya, alasan Opus 4.5 bagus justru karena kemampuan memproses instruksi itu. Semoga membaik di versi berikutnya
  • Perbandingan GLM 4.7 dengan GPT-OSS-20B terasa kurang meyakinkan. Jika memang setingkat Sonnet 4/4.5, menurut saya versi Flash seharusnya mengalahkan GPT-OSS-120B dengan jelas. Saya juga ingin hasil Aider ikut disertakan
    • Mengharapkan 30-A3B mengungguli 117-A5.1B adalah harapan berlebihan. Namun, untuk agent calling, tampaknya memang lebih baik daripada GPT-20B
    • Setelah benar-benar saya coba, benchmark-nya terasa dibesar-besarkan. Untuk tugas sederhana cukup oke, tetapi masih jauh dari Sonnet. Meski begitu, value for money-nya bagus
    • Berdasarkan kualitas kode, ini setara Sonnet 3.5. Masih jauh dari Sonnet 4/4.5