- Model bahasa skala besar yang meningkatkan efisiensi AI dan kemampuan menjalankan tugas jangka panjang
- Dibanding pendahulunya, diperluas menjadi 744 miliar parameter (40 miliar aktif), dengan 28,5 triliun token data pralatih
- Mengintegrasikan DeepSeek Sparse Attention (DSA) untuk mempertahankan kemampuan memproses konteks panjang sekaligus mengurangi biaya deployment
- Melalui infrastruktur reinforcement learning asinkron baru
slime, efisiensi pelatihan ditingkatkan dan performa tingkat atas dicatat di berbagai benchmark
- Dirilis sebagai open source dan dapat diakses melalui Hugging Face, ModelScope, platform Z.ai dan lainnya, serta kompatibel dengan Claude Code dan OpenClaw
Ikhtisar GLM-5
- GLM-5 adalah model yang dirancang untuk menjalankan rekayasa sistem kompleks dan tugas agen jangka panjang
- Dibanding GLM-4.5, parameter meningkat dari 355 miliar (32 miliar aktif) menjadi 744 miliar (40 miliar aktif)
- Data pralatih diperluas dari 23 triliun menjadi 28,5 triliun token
- Dengan mengintegrasikan DeepSeek Sparse Attention (DSA), model ini mempertahankan kemampuan memproses konteks panjang sekaligus secara signifikan menekan biaya deployment
- Memperkenalkan infrastruktur reinforcement learning asinkron bernama slime untuk meningkatkan throughput dan efisiensi pelatihan, serta memungkinkan iterasi post-training yang lebih rinci
Peningkatan performa dan hasil benchmark
- GLM-5 menunjukkan peningkatan performa keseluruhan dibanding GLM-4.7, dan mendekati level Claude Opus 4.5
- Pada set evaluasi internal CC-Bench-V2, model ini mencatat hasil unggul di frontend, backend, dan tugas jangka panjang
- Di Vending Bench 2, meraih peringkat 1 di antara model open source, dengan saldo akhir $4.432 dalam simulasi bisnis mesin penjual otomatis selama 1 tahun
- Memiliki performa open source kelas dunia di penalaran, coding, dan tugas agen secara menyeluruh
- Contoh: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
- Memperkecil jarak dengan model papan atas seperti GPT-5.2 dan Gemini 3.0 Pro
Rilis open source dan jalur akses
- GLM-5 dirilis dengan lisensi MIT, dan bobot model dapat diunduh dari Hugging Face dan ModelScope
- Dapat digunakan dalam bentuk API melalui Z.ai, BigModel.cn, api.z.ai, dan lainnya
- Kompatibel dengan Claude Code dan OpenClaw, sehingga dapat diintegrasikan di berbagai lingkungan pengembangan
- Platform Z.ai menyediakan uji coba gratis
Fitur office dan pembuatan dokumen
- GLM-5 mengusung peralihan dari “chat” ke “work”, dan berperan sebagai alat office untuk pekerja pengetahuan dan engineer
- Dapat langsung mengubah teks atau materi sumber menjadi format .docx, .pdf, .xlsx untuk menghasilkan dokumen jadi seperti PRD, lembar ujian, laporan keuangan, menu, dan lainnya
- Aplikasi Z.ai menyediakan mode Agent yang mendukung pembuatan PDF/Word/Excel, serta memungkinkan kolaborasi multi-putaran
Dukungan untuk developer dan deployment
- Pelanggan GLM Coding Plan bisa mendapatkan akses ke GLM-5 secara bertahap
- Pengguna paket Max dapat langsung mengaktifkannya dengan nama model
"GLM-5"
- Permintaan GLM-5 menghabiskan kuota lebih banyak daripada GLM-4.7
- Untuk pengguna yang lebih menyukai lingkungan GUI, tersedia lingkungan pengembangan agen Z Code
- Melalui framework OpenClaw, GLM-5 dapat dimanfaatkan sebagai agen asisten pribadi yang bekerja di berbagai aplikasi dan perangkat
Deployment lokal dan kompatibilitas hardware
- GLM-5 mendukung framework inferensi seperti vLLM, SGLang, dan panduan deployment tersedia di GitHub resmi
- Juga dapat dijalankan pada chipset non-NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, dll.)
- Melalui optimasi kernel dan kuantisasi model, throughput yang wajar dapat dicapai
4 komentar
Komentar Hacker News
Melihat hasil yang dihasilkan Pelican lewat OpenRouter
Burungnya sendiri terlihat seperti unggas yang kokoh, tapi kurang cocok sebagai rangka sepeda
Tautan terkait
Konteks uji sepeda Pelican bisa dilihat di sini
SVG sudah ada di mana-mana, jadi perlu skenario baru yang lebih realistis
Khawatirnya, jangan-jangan hasil seperti ini malah sedang mencemari data pelatihan
Menarik juga bahwa AI sendiri bilang ‘perlu kaki berselaput’ tetapi itu tidak ada di gambar aslinya
Sikap yang menganggap akurasi 90% seperti pada MMLU atau AIME sebagai ‘masalah yang sudah selesai’ terasa mengkhawatirkan
Kalau benar-benar AGI, seharusnya mencapai akurasi 100%, tapi kita terlalu mudah merasa puas
Ke depan, replikasi cepat berbasis distillation di pasar abu-abu terasa tak terelakkan
Dulu kupikir model N-1, N-2 tidak akan menarik, tapi sekarang bahkan preferensi pengguna pun tampaknya sudah jenuh, jadi itu pun mungkin sudah cukup memuaskan
Opus 4.5 jelas lompatan besar, tapi 4.6 tidak mengubah workflow-ku
Pada akhirnya, setelah ‘pencurian terbesar umat manusia’, sepertinya akan datang ‘balasan karma terbesar’
Para pengguna sama sekali tidak akan peduli bahwa AI buatan Tiongkok mencuri dari big tech AS
Orang bisa berargumen, “itu cuma belajar seperti manusia, jadi kenapa ilegal?”
Cukup buat ribuan situs konten hasil AI, lalu publikasikan prompt dan info model di tiap post
Orang lain kemudian ‘secara kebetulan’ meng-crawl itu dan memakainya untuk pelatihan
Rasanya bisa melangkah dua kali lebih jauh dibanding sebelumnya, jadi aku tidak ingin kembali lagi
Benchmark terbaru memang mengesankan, tapi pembandingnya model generasi lama (Opus 4.5, GPT-5.2)
Model terbuka yang rilis belakangan ini sering punya skor benchmark tinggi, tetapi pengalaman penggunaan nyatanya di bawah ekspektasi
benchmaxxing jelas ada
Menjalankan 20 benchmark juga bukan hal mudah, dan model generasi baru ini baru rilis 5 hari lalu
Banyak developer terjebak dalam pemujaan model tertutup, dan tidak sadar bahwa prompt yang sama tidak bekerja di keluarga model lain
Aku sering memakai GLM-4.7, levelnya setara Sonnet 4.5, dan GLM-5 mungkin akan setara Opus 4.5
Dalam blind test, mirip sampai sulit dibedakan
Bahkan kalau membandingkan jawaban Claude dan ChatGPT pun hasilnya hampir sama
Pada akhirnya untuk kebanyakan penggunaan, model kelas Toyota sudah cukup
Inovasi algoritmik mungkin saja terjadi, tetapi biaya pembuatan data manusia terlalu tinggi sehingga tidak bisa diskalakan
Model open source masih sering menghasilkan error sintaks, sementara model frontier nyaris sudah menyelesaikan masalah itu
sedangkan lab Tiongkok lebih berfokus pada benchmark, maka muncullah perbedaan itu
self-hosting dan perbaikan berkelanjutan sulit untuk berjalan bersamaan
Berkat open source dari Tiongkok, sepertinya kita akan bisa punya kecerdasan self-hosted
Dari sisi biaya memang tidak efisien, tapi aku suka bahwa sistem itu bisa berjalan mandiri tanpa koneksi internet
Pada akhirnya macOS adalah satu-satunya pilihan konsumen untuk menjalankan model besar secara lokal
Dari sisi privasi dan ketersediaan juga, self-hosting punya nilai
Terutama sebagai antisipasi kalau regulasi digital AS makin ketat, kita butuh alternatif
Meski begitu, kelebihannya adalah biasnya masih bisa diperbaiki lewat fine-tuning
Rekomendasinya GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash, dan lainnya
Dalam 1~2 tahun, ada harapan bahwa hardware konsumen juga bisa menjalankan model kelas 512GB
Kembalinya jaringan rumahan
Intinya adalah kebebasan untuk mengganti penyedia kapan saja
Aku sudah memakai GLM-4.7 beberapa minggu, dan levelnya mirip Sonnet
Hanya saja butuh instruksi yang lebih jelas
Untuk pekerjaan besar aku masih pakai lini Anthropic, tetapi untuk tugas kecil dan jelas, GLM paling unggul dari sisi harga-performa
GLM-4.7 kalau dibiarkan sendiri punya kecenderungan membangun dunia yang tidak perlu
Tapi untuk tugas kecil, kemampuannya mirip Sonnet, dan karena harganya sangat murah, berguna sebagai model pendamping
Kalau model terbuka berkembang sekitar 6 bulan lagi, aku bersedia pindah
MiniMax M2.5 juga mulai hari ini tersedia di Chat UI
GLM lebih baik untuk coding, tapi MiniMax sering kupakai untuk tugas harian berkat kecepatan dan kemampuan tool calling-nya
Model baru sudah tersedia di OpenRouter
Dalam benchmark pribadiku, kemampuan mengikuti instruksi-nya sangat lemah
Tesnya mengikuti format chat.md + mcps, tetapi gagal menjalankannya dengan benar
Aku penasaran hasil seperti apa yang didapat di model frontier lain
Aku juga sedang membuat editor teks berbasis keybinding vim, dan pendekatan ini sepertinya bisa jadi inspirasi UI
Aku kepikiran menambahkan fitur untuk melipat teks yang tidak perlu
Kadang performanya memang buruk
Kalau bisa, lebih baik langsung pakai penyedia aslinya
GLM-4.7-Flash terasa sebagai model cerdas pertama yang layak dipakai untuk coding lokal
Levelnya mirip Claude 4.5 Haiku, dan proses penalarannya transparan, jadi kita bisa memahami kenapa ia mengambil keputusan seperti itu
Jauh lebih baik daripada Devstral 2 Small atau Qwen-Coder-Next
Aku memakai GLM 4.7 di opencode
Bukan yang terbaik, tetapi berkat batas penggunaan yang longgar aku bisa memakainya seharian
Model barunya masih terbatas aksesnya, tapi aku menantikannya
Aku sempat mencoba model baru itu sebentar di opencode dan cukup terkesan
Memang bukan inovasi besar-besaran, tetapi jelas lebih baik daripada 4.7
Daya ingat dan stabilitas untuk pekerjaan jangka panjang meningkat dengan jelas
Harga langganannya naik ya.
Diskon 50% yang diberikan saat pertama kali mendaftar sudah dihapus..
Harga promo super early-bird untuk paket Max tadinya $360 per tahun, sekarang jadi $672...