- GLM-5.1, model agentic engineering generasi berikutnya, adalah versi flagship yang secara signifikan memperkuat kemampuan coding dan pemecahan masalah, dirancang dengan fokus pada optimisasi jangka panjang dan perbaikan berkelanjutan
- Mencatat performa tingkat tertinggi pada benchmark utama seperti SWE-Bench Pro, NL2Repo, dan Terminal-Bench 2.0, serta mempertahankan persistensi produktif bahkan dalam eksekusi berulang dalam waktu lama
- Pada VectorDBBench, KernelBench, dan skenario pembangunan web app, performanya terus meningkat melalui ratusan hingga ribuan iterasi, dengan menghilangkan bottleneck lewat analisis log internal dan revisi strategi
- Model ini bekerja efisien bahkan pada tugas software engineering yang kompleks melalui evaluasi diri dan transisi struktural, dan kualitas hasilnya terus membaik selama eksekusi jangka panjang
- Dirilis sebagai open source berlisensi MIT, dapat digunakan di berbagai platform dan framework, serta diposisikan sebagai standar baru untuk model AI berorientasi optimisasi jangka panjang
Ikhtisar GLM-5.1
- GLM-5.1 adalah model agentic engineering generasi berikutnya, sebuah model flagship dengan performa coding yang jauh meningkat dibanding versi sebelumnya
- Mencatat performa terbaik di SWE-Bench Pro, serta unggul dengan selisih besar dibanding GLM-5 pada NL2Repo (pembuatan repositori) dan Terminal-Bench 2.0 (pekerjaan terminal nyata)
- Dirancang dengan penekanan pada kemampuan optimisasi jangka panjang dan daya pemecahan masalah berkelanjutan, melampaui performa eksekusi satu kali semata
- Lebih baik dalam menilai masalah yang ambigu, mempertahankan produktivitas dalam sesi panjang, dan melalui eksperimen berulang serta revisi strategi, terus meningkatkan performa bahkan setelah ratusan iterasi
- Memiliki struktur di mana hasil membaik semakin lama dijalankan, dengan kapabilitas jangka panjang (long-horizon capability) sebagai karakteristik utamanya
Tugas software engineering yang kompleks
- GLM-5.1 mencapai performa tingkat tertinggi dalam pekerjaan software engineering yang kompleks
- Sementara model-model sebelumnya cepat stagnan setelah peningkatan awal, GLM-5.1 tetap efisien bahkan dalam pekerjaan agentic jangka panjang
- Model memecah masalah menjadi bagian-bagian kecil, menjalankan eksperimen, menganalisis hasil untuk mengidentifikasi bottleneck, lalu merevisi strategi melalui penalaran iteratif
- Hal ini dibuktikan pada tiga tugas yang secara bertahap semakin minim struktur
- Masalah optimisasi pencarian vektor (berdasarkan satu metrik numerik)
- Benchmark kernel GPU (mengukur peningkatan kecepatan per masalah)
- Pembuatan aplikasi web (perbaikan berbasis penilaian internal tanpa metrik eksplisit)
Skenario 1: optimisasi database vektor melalui 600 iterasi
- VectorDBBench adalah challenge open source yang mengevaluasi kemampuan coding model dalam membangun database berperforma tinggi untuk approximate nearest neighbor search
- Model diberi skeleton code berbasis Rust dan endpoint HTTP API, lalu menjalankan baca/tulis file, kompilasi, pengujian, dan profiling dalam batas 50 tool-call
- Performa terbaik sebelumnya adalah 3.547 QPS (Recall ≥ 95%) milik Claude Opus 4.6
- GLM-5.1 menambahkan loop optimisasi eksternal untuk menjalankan lebih dari 600 iterasi (lebih dari 6.000 tool-call), dan akhirnya mencapai 21.5k QPS
- Ini sekitar 6× peningkatan dibanding satu sesi 50 kali saja
- Proses peningkatan performa menunjukkan pola staircase, dengan tuning bertahap dan transisi struktural yang saling bergantian
- Sekitar iterasi ke-90: penerapan IVF cluster probing + kompresi vektor f16 → 6.4k QPS
- Sekitar iterasi ke-240: penerapan pipeline dua tahap u8 pre-scoring + f16 re-ranking → 13.4k QPS
- Total terjadi 6 transisi struktural, masing-masing merupakan hasil analisis log internal model untuk mengidentifikasi bottleneck
- Titik saat Recall turun di bawah 95% terutama terkonsentrasi pada fase eksplorasi strategi baru
Skenario 2: optimisasi workload machine learning melalui lebih dari 1.000 iterasi
- KernelBench mengevaluasi kemampuan model untuk mengubah implementasi referensi PyTorch menjadi kernel GPU yang lebih cepat dengan output yang sama
- Terdiri dari tiga tahap (Level 1~3), dan Level 3 mencakup optimisasi pada level model penuh seperti MobileNet, VGG, MiniGPT, Mamba
- Konfigurasi default
torch.compilemencapai peningkatan kecepatan 1.15×, sedangkan max-autotune mencapai 1.49× - Di Level 3, GLM-5.1 mencatat peningkatan kecepatan 3.6×, sambil mempertahankan optimisasi efektif jauh lebih lama dibanding GLM-5
- GLM-5 stagnan setelah lonjakan awal, sedangkan Claude Opus 4.5 bertahan lebih lama namun melambat di fase akhir
- Claude Opus 4.6 pada akhirnya mempertahankan performa tertinggi di 4.2×, dan masih ada ruang untuk peningkatan tambahan
Skenario 3: membangun web app desktop Linux selama 8 jam
- Pembuatan website adalah tugas subjektif tanpa metrik numerik eksplisit, dengan tingkat kelengkapan, kualitas visual, dan kualitas interaksi sebagai kriteria evaluasi
- Prompt pengujian: “Bangun lingkungan desktop bergaya Linux sebagai aplikasi web”
- Dimulai tanpa kode awal, desain, atau umpan balik perantara
- Sebagian besar model hanya membuat UI dasar lalu berhenti, tetapi GLM-5.1 terus berkembang melalui loop peninjauan hasil dan perbaikan mandiri
- Dengan eksekusi berulang selama 8 jam, hasilnya berkembang dari layout sederhana awal menjadi lingkungan desktop yang semakin lengkap
- Menambahkan file browser, terminal, text editor, system monitor, kalkulator, game, dan lainnya
- Setiap fungsi terintegrasi dalam UI yang konsisten, sementara gaya dan kualitas interaksi membaik secara bertahap
- Hasil akhirnya adalah lingkungan desktop yang lengkap dan konsisten secara visual yang berjalan di dalam browser
Makna dan tantangan optimisasi jangka panjang
- Dalam ketiga skenario, variabel kuncinya bukan lamanya waktu eksekusi itu sendiri, melainkan apakah waktu tambahan benar-benar efektif
- Dibanding GLM-5, GLM-5.1 secara signifikan memperluas productive horizon
- Namun, pada beberapa tugas seperti KernelBench, masih ada ruang untuk peningkatan
- Tantangan yang tersisa
- Keluar dari optimum lokal ketika tuning bertahap mencapai batasnya
- Menjaga konsistensi sepanjang ribuan tool-call
- Evaluasi diri (self-evaluation) yang andal pada tugas tanpa metrik numerik eksplisit
- GLM-5.1 diposisikan sebagai langkah pertama menuju arah optimisasi jangka panjang semacam ini
Ringkasan perbandingan benchmark
- GLM-5.1 melampaui GLM-5 pada benchmark coding utama seperti SWE-Bench Pro 58.4, NL2Repo 42.7, dan Terminal-Bench 2.0 63.5
- Menunjukkan performa papan atas di berbagai kategori Reasoning, Coding, Agentic dibanding model pesaing
- Bahkan saat dibandingkan dengan model terbaru seperti Claude Opus 4.6, Gemini 3.1 Pro, dan GPT-5.4, model ini tetap mendekati atau unggul pada banyak metrik
Rilis dan cara penggunaan
- Dirilis sebagai open source dengan lisensi MIT
- Tersedia di api.z.ai dan BigModel.cn, serta kompatibel dengan Claude Code dan OpenClaw
- Pelanggan GLM Coding Plan dapat langsung menggunakannya dengan mengubah nama model menjadi
"GLM-5.1"- Pada jam sibuk (UTC+8 14:00–18:00), kuota terpakai 3×, dan pada jam non-sibuk 2×
- Hingga akhir April, jam non-sibuk mendapat promosi 1×
- Untuk lingkungan GUI, tersedia Z Code, dengan dukungan pengembangan jarak jauh via SSH dan pekerjaan mobile
- Bobot model dipublikasikan di HuggingFace dan ModelScope
- Mendukung framework inferensi utama seperti vLLM dan SGLang, dengan panduan deployment di GitHub
- Segera juga akan tersedia di platform chat Z.ai
Pengaturan evaluasi dan catatan
- HLE dan tugas penalaran lainnya: maksimum generasi 163.840 token, menggunakan GPT-5.2 sebagai model penilai
- SWE-Bench Pro: context window 200K, eksekusi berbasis OpenHands
- NL2Repo: mencakup deteksi dan pemblokiran perintah berbahaya
- Terminal-Bench 2.0: batas 16 CPU, RAM 32GB, timeout 3 jam
- KernelBench Level 3: lingkungan GPU H100, batas 1.200 tool-call, audit independen dilakukan
- Evaluasi independen juga dilakukan pada berbagai benchmark eksternal seperti CyberGym, MCP-Atlas, τ³-bench, dan Vending Bench 2
1 komentar
Komentar Hacker News
Setiap hari, ada tiga hal yang makin jelas
(1) OpenAI dan Anthropic kini tampaknya hampir tidak lagi kompetitif
(2) Inferensi lokal/pribadi adalah masa depan AI
(3) Karena belum ada ‘produk killer’, sekaranglah waktunya benar-benar membuatnya
Saya baru saja melihat tulisan tentang Claude Mythos, dan kali ini rasanya bukan sekadar peningkatan biasa, melainkan benar-benar sebuah lompatan. Saya belum tahu kapan akan dirilis, tapi saya juga menantikan rilis GLM berikutnya yang spesifikasinya tampak gila kuatnya
Versi Unsloth quantization juga sudah dirilis. IQ4_XS dari model GLM-5.1-GGUF memiliki 754B parameter dan ukuran 361GB, jadi terlalu berat untuk dijalankan oleh penggemar LLM lokal pada umumnya
Model ini bukan hanya menggambar pelikan yang bagus untuk saya, tapi juga membuatnya menjadi animasi
Tautan terkait
Jujur agak mengecewakan. GLM 5.1 menghasilkan TypeScript yang jauh lebih baik daripada Opus atau Codex, tetapi pada konteks panjang kadang masuk ke mode aneh. Meski begitu, ada juga sesi yang berjalan stabil sampai lebih dari 200k token
/compactGLM-5.0 benar-benar jagoan di antara model open source. Di benchmark internal selalu masuk papan atas, dan levelnya mirip GPT-5.2. Saya lebih sering memakainya untuk tugas tidak terstruktur daripada coding
Dalam pengujian saya, GLM 5.1 berkinerja lebih buruk daripada GLM 5
Tautan perbandingan
Tampaknya model ini sekarang dituning lebih ke arah agen/coding
Pendekatan menilai kualitas model berdasarkan kecepatan eksekusi kode yang dihasilkan agen terasa menarik. Saya mengujinya dengan cara seperti membuat benchmark, menetapkan baseline, lalu meningkatkan lebih dari 1,4x. Opus 4.6 menemukan optimisasi level rendah pada kode Rust dan membuatnya 6x lebih cepat dari sebelumnya sambil tetap meloloskan semua tes. Pendekatan seperti ini memungkinkan perbandingan performa nyata yang lebih praktis
Dari komentar-komentarnya, seolah semua orang sudah lama memakai model ini, jadi saya penasaran apakah memang begitu
Saya terutama memakai versi GLM 4.7 Flash secara lokal untuk agentic coding, dan hasilnya benar-benar bagus. Kali ini saya berharap ada juga versi Flash, tetapi sayangnya tidak disebutkan di catatan rilis. Meski begitu, saya yakin itu akan segera keluar