GLM-5 dirilis: model yang menargetkan rekayasa sistem kompleks dan tugas agen jangka panjang

(z.ai)

6 poin oleh GN⁺ 2026-02-12 | 4 komentar | Bagikan ke WhatsApp

Model bahasa skala besar yang meningkatkan efisiensi AI dan kemampuan menjalankan tugas jangka panjang
Dibanding pendahulunya, diperluas menjadi 744 miliar parameter (40 miliar aktif), dengan 28,5 triliun token data pralatih
Mengintegrasikan DeepSeek Sparse Attention (DSA) untuk mempertahankan kemampuan memproses konteks panjang sekaligus mengurangi biaya deployment
Melalui infrastruktur reinforcement learning asinkron baru slime, efisiensi pelatihan ditingkatkan dan performa tingkat atas dicatat di berbagai benchmark
Dirilis sebagai open source dan dapat diakses melalui Hugging Face, ModelScope, platform Z.ai dan lainnya, serta kompatibel dengan Claude Code dan OpenClaw

Ikhtisar GLM-5

GLM-5 adalah model yang dirancang untuk menjalankan rekayasa sistem kompleks dan tugas agen jangka panjang
- Dibanding GLM-4.5, parameter meningkat dari 355 miliar (32 miliar aktif) menjadi 744 miliar (40 miliar aktif)
- Data pralatih diperluas dari 23 triliun menjadi 28,5 triliun token
Dengan mengintegrasikan DeepSeek Sparse Attention (DSA), model ini mempertahankan kemampuan memproses konteks panjang sekaligus secara signifikan menekan biaya deployment
Memperkenalkan infrastruktur reinforcement learning asinkron bernama slime untuk meningkatkan throughput dan efisiensi pelatihan, serta memungkinkan iterasi post-training yang lebih rinci

Peningkatan performa dan hasil benchmark

GLM-5 menunjukkan peningkatan performa keseluruhan dibanding GLM-4.7, dan mendekati level Claude Opus 4.5
Pada set evaluasi internal CC-Bench-V2, model ini mencatat hasil unggul di frontend, backend, dan tugas jangka panjang
Di Vending Bench 2, meraih peringkat 1 di antara model open source, dengan saldo akhir $4.432 dalam simulasi bisnis mesin penjual otomatis selama 1 tahun
Memiliki performa open source kelas dunia di penalaran, coding, dan tugas agen secara menyeluruh
- Contoh: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
Memperkecil jarak dengan model papan atas seperti GPT-5.2 dan Gemini 3.0 Pro

Rilis open source dan jalur akses

GLM-5 dirilis dengan lisensi MIT, dan bobot model dapat diunduh dari Hugging Face dan ModelScope
Dapat digunakan dalam bentuk API melalui Z.ai, BigModel.cn, api.z.ai, dan lainnya
Kompatibel dengan Claude Code dan OpenClaw, sehingga dapat diintegrasikan di berbagai lingkungan pengembangan
Platform Z.ai menyediakan uji coba gratis

Fitur office dan pembuatan dokumen

GLM-5 mengusung peralihan dari “chat” ke “work”, dan berperan sebagai alat office untuk pekerja pengetahuan dan engineer
Dapat langsung mengubah teks atau materi sumber menjadi format .docx, .pdf, .xlsx untuk menghasilkan dokumen jadi seperti PRD, lembar ujian, laporan keuangan, menu, dan lainnya
Aplikasi Z.ai menyediakan mode Agent yang mendukung pembuatan PDF/Word/Excel, serta memungkinkan kolaborasi multi-putaran

Dukungan untuk developer dan deployment

Pelanggan GLM Coding Plan bisa mendapatkan akses ke GLM-5 secara bertahap
- Pengguna paket Max dapat langsung mengaktifkannya dengan nama model "GLM-5"
- Permintaan GLM-5 menghabiskan kuota lebih banyak daripada GLM-4.7
Untuk pengguna yang lebih menyukai lingkungan GUI, tersedia lingkungan pengembangan agen Z Code
Melalui framework OpenClaw, GLM-5 dapat dimanfaatkan sebagai agen asisten pribadi yang bekerja di berbagai aplikasi dan perangkat

Deployment lokal dan kompatibilitas hardware

GLM-5 mendukung framework inferensi seperti vLLM, SGLang, dan panduan deployment tersedia di GitHub resmi
Juga dapat dijalankan pada chipset non-NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, dll.)
- Melalui optimasi kernel dan kuantisasi model, throughput yang wajar dapat dicapai

4 komentar

GN⁺ 2026-02-12

Komentar Hacker News

Melihat hasil yang dihasilkan Pelican lewat OpenRouter
Burungnya sendiri terlihat seperti unggas yang kokoh, tapi kurang cocok sebagai rangka sepeda
Tautan terkait
- Terima kasih kepada Simon yang menjaga satu-satunya sistem benchmark yang benar-benar bermakna
  Konteks uji sepeda Pelican bisa dilihat di sini
- Menurutku ini benar-benar pengujian yang penting, salut untuk Simon
- Sekarang benchmark Pelican terasa sudah ketinggalan zaman
  SVG sudah ada di mana-mana, jadi perlu skenario baru yang lebih realistis
- Aku jadi penasaran, sebelum tes ini ada berapa banyak SVG pelican bersepeda
  Khawatirnya, jangan-jangan hasil seperti ini malah sedang mencemari data pelatihan
- Menyebut burung tanpa sayap sebagai ‘burung yang kokoh’ menurutku adalah contoh simbolis dari kesenjangan ekspektasi AI
  Menarik juga bahwa AI sendiri bilang ‘perlu kaki berselaput’ tetapi itu tidak ada di gambar aslinya
  Sikap yang menganggap akurasi 90% seperti pada MMLU atau AIME sebagai ‘masalah yang sudah selesai’ terasa mengkhawatirkan
  Kalau benar-benar AGI, seharusnya mencapai akurasi 100%, tapi kita terlalu mudah merasa puas
Ke depan, replikasi cepat berbasis distillation di pasar abu-abu terasa tak terelakkan
Dulu kupikir model N-1, N-2 tidak akan menarik, tapi sekarang bahkan preferensi pengguna pun tampaknya sudah jenuh, jadi itu pun mungkin sudah cukup memuaskan
Opus 4.5 jelas lompatan besar, tapi 4.6 tidak mengubah workflow-ku
Pada akhirnya, setelah ‘pencurian terbesar umat manusia’, sepertinya akan datang ‘balasan karma terbesar’
Para pengguna sama sekali tidak akan peduli bahwa AI buatan Tiongkok mencuri dari big tech AS
- Jika perusahaan LLM membenarkan penggunaan data pelatihan, maka distiller yang melatih dari keluaran LLM juga seharusnya sah secara logika yang sama
  Orang bisa berargumen, “itu cuma belajar seperti manusia, jadi kenapa ilegal?”
- Menghalangi distillation justru seharusnya ilegal
  Cukup buat ribuan situs konten hasil AI, lalu publikasikan prompt dan info model di tiap post
  Orang lain kemudian ‘secara kebetulan’ meng-crawl itu dan memakainya untuk pelatihan
- Opus 4.6 menonjol dalam ketahanan kerja panjang
  Rasanya bisa melangkah dua kali lebih jauh dibanding sebelumnya, jadi aku tidak ingin kembali lagi
- Tapi konsumsi token-nya terlalu besar, jadi terasa seperti kemunduran dari sisi efisiensi
Benchmark terbaru memang mengesankan, tapi pembandingnya model generasi lama (Opus 4.5, GPT-5.2)
Model terbuka yang rilis belakangan ini sering punya skor benchmark tinggi, tetapi pengalaman penggunaan nyatanya di bawah ekspektasi
benchmaxxing jelas ada
- Kritik terhadap model open-weight terasa terlalu agresif
  Menjalankan 20 benchmark juga bukan hal mudah, dan model generasi baru ini baru rilis 5 hari lalu
  Banyak developer terjebak dalam pemujaan model tertutup, dan tidak sadar bahwa prompt yang sama tidak bekerja di keluarga model lain
  Aku sering memakai GLM-4.7, levelnya setara Sonnet 4.5, dan GLM-5 mungkin akan setara Opus 4.5
- Kalau GLM-4.7 memang setara 4.5 atau 5.2, itu sendiri sudah merupakan lompatan besar
- Model sekarang pada akhirnya terasa cuma generator token
  Dalam blind test, mirip sampai sulit dibedakan
  Bahkan kalau membandingkan jawaban Claude dan ChatGPT pun hasilnya hampir sama
  Pada akhirnya untuk kebanyakan penggunaan, model kelas Toyota sudah cukup
- Masalahnya ada pada keterbatasan RLHF (reinforcement learning from human feedback)
  Inovasi algoritmik mungkin saja terjadi, tetapi biaya pembuatan data manusia terlalu tinggi sehingga tidak bisa diskalakan
  Model open source masih sering menghasilkan error sintaks, sementara model frontier nyaris sudah menyelesaikan masalah itu
- Anthropic, OpenAI, dan Google meningkatkan model mereka dengan data pengguna nyata,
  sedangkan lab Tiongkok lebih berfokus pada benchmark, maka muncullah perbedaan itu
  self-hosting dan perbaikan berkelanjutan sulit untuk berjalan bersamaan
Berkat open source dari Tiongkok, sepertinya kita akan bisa punya kecerdasan self-hosted
Dari sisi biaya memang tidak efisien, tapi aku suka bahwa sistem itu bisa berjalan mandiri tanpa koneksi internet
Pada akhirnya macOS adalah satu-satunya pilihan konsumen untuk menjalankan model besar secara lokal
- Aku sering melewati batas langganan Claude Max, jadi sekarang bertahan dengan 2x RTX3090 dan model kuantisasi Qwen3
  Dari sisi privasi dan ketersediaan juga, self-hosting punya nilai
  Terutama sebagai antisipasi kalau regulasi digital AS makin ketat, kita butuh alternatif
- Walaupun modelnya open-weight, data pelatihan dan standar sensor tetap tidak dibuka
  Meski begitu, kelebihannya adalah biasnya masih bisa diperbaiki lewat fine-tuning
- Mesin Strix Halo dengan 128GB VRAM ada di kisaran 3 ribu dolar, dan itu sudah bisa menjalankan model yang lumayan bagus secara lokal
  Rekomendasinya GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash, dan lainnya
  Dalam 1~2 tahun, ada harapan bahwa hardware konsumen juga bisa menjalankan model kelas 512GB
- Selain macOS, menaruh kotak inferensi headless Linux di rumah juga ide yang bagus
  Kembalinya jaringan rumahan
- Menurutku yang lebih penting daripada hosting sendiri adalah komoditisasi hosting
  Intinya adalah kebebasan untuk mengganti penyedia kapan saja
Aku sudah memakai GLM-4.7 beberapa minggu, dan levelnya mirip Sonnet
Hanya saja butuh instruksi yang lebih jelas
Untuk pekerjaan besar aku masih pakai lini Anthropic, tetapi untuk tugas kecil dan jelas, GLM paling unggul dari sisi harga-performa
- Pengalamanku juga mirip
  GLM-4.7 kalau dibiarkan sendiri punya kecenderungan membangun dunia yang tidak perlu
  Tapi untuk tugas kecil, kemampuannya mirip Sonnet, dan karena harganya sangat murah, berguna sebagai model pendamping
- Selama 6~8 bulan terakhir aku cuma memakai Sonnet, sedangkan Opus sering kena bug rakus token
  Kalau model terbuka berkembang sekitar 6 bulan lagi, aku bersedia pindah
MiniMax M2.5 juga mulai hari ini tersedia di Chat UI
GLM lebih baik untuk coding, tapi MiniMax sering kupakai untuk tugas harian berkat kecepatan dan kemampuan tool calling-nya
Model baru sudah tersedia di OpenRouter
Dalam benchmark pribadiku, kemampuan mengikuti instruksi-nya sangat lemah
Tesnya mengikuti format chat.md + mcps, tetapi gagal menjalankannya dengan benar
- Format tool calling kustom dilatih berbeda-beda di tiap model, jadi rasanya sulit mendapatkan konsistensi
  Aku penasaran hasil seperti apa yang didapat di model frontier lain
- Aku suka ide chat.md
  Aku juga sedang membuat editor teks berbasis keybinding vim, dan pendekatan ini sepertinya bisa jadi inspirasi UI
  Aku kepikiran menambahkan fitur untuk melipat teks yang tidak perlu
- Masalahnya mungkin juga ada pada kualitas penyedia OpenRouter
  Kadang performanya memang buruk
- OpenRouter kadang meng-host model terkuantisasi, jadi kualitasnya turun
  Kalau bisa, lebih baik langsung pakai penyedia aslinya
GLM-4.7-Flash terasa sebagai model cerdas pertama yang layak dipakai untuk coding lokal
Levelnya mirip Claude 4.5 Haiku, dan proses penalarannya transparan, jadi kita bisa memahami kenapa ia mengambil keputusan seperti itu
Jauh lebih baik daripada Devstral 2 Small atau Qwen-Coder-Next
- minimax-m.2 juga cukup dekat levelnya
Aku memakai GLM 4.7 di opencode
Bukan yang terbaik, tetapi berkat batas penggunaan yang longgar aku bisa memakainya seharian
Model barunya masih terbatas aksesnya, tapi aku menantikannya
Aku sempat mencoba model baru itu sebentar di opencode dan cukup terkesan
Memang bukan inovasi besar-besaran, tetapi jelas lebih baik daripada 4.7
Daya ingat dan stabilitas untuk pekerjaan jangka panjang meningkat dengan jelas

jinifor 2026-02-12

Harga langganannya naik ya.

princox 2026-02-13

Diskon 50% yang diberikan saat pertama kali mendaftar sudah dihapus..

fanotify 2026-02-12

Harga promo super early-bird untuk paket Max tadinya $360 per tahun, sekarang jadi $672...