- GLM-5.1, model agentic engineering generasi berikutnya, adalah versi flagship yang secara signifikan memperkuat kemampuan coding dan pemecahan masalah, dirancang dengan fokus pada optimisasi jangka panjang dan perbaikan berkelanjutan
- Mencatat performa tingkat tertinggi pada benchmark utama seperti SWE-Bench Pro, NL2Repo, dan Terminal-Bench 2.0, serta mempertahankan persistensi produktif bahkan dalam eksekusi berulang dalam waktu lama
- Pada VectorDBBench, KernelBench, dan skenario pembangunan web app, performanya terus meningkat melalui ratusan hingga ribuan iterasi, dengan menghilangkan bottleneck lewat analisis log internal dan revisi strategi
- Model ini bekerja efisien bahkan pada tugas software engineering yang kompleks melalui evaluasi diri dan transisi struktural, dan kualitas hasilnya terus membaik selama eksekusi jangka panjang
- Dirilis sebagai open source berlisensi MIT, dapat digunakan di berbagai platform dan framework, serta diposisikan sebagai standar baru untuk model AI berorientasi optimisasi jangka panjang
Ikhtisar GLM-5.1
- GLM-5.1 adalah model agentic engineering generasi berikutnya, sebuah model flagship dengan performa coding yang jauh meningkat dibanding versi sebelumnya
- Mencatat performa terbaik di SWE-Bench Pro, serta unggul dengan selisih besar dibanding GLM-5 pada NL2Repo (pembuatan repositori) dan Terminal-Bench 2.0 (pekerjaan terminal nyata)
- Dirancang dengan penekanan pada kemampuan optimisasi jangka panjang dan daya pemecahan masalah berkelanjutan, melampaui performa eksekusi satu kali semata
- Lebih baik dalam menilai masalah yang ambigu, mempertahankan produktivitas dalam sesi panjang, dan melalui eksperimen berulang serta revisi strategi, terus meningkatkan performa bahkan setelah ratusan iterasi
- Memiliki struktur di mana hasil membaik semakin lama dijalankan, dengan kapabilitas jangka panjang (long-horizon capability) sebagai karakteristik utamanya
Tugas software engineering yang kompleks
- GLM-5.1 mencapai performa tingkat tertinggi dalam pekerjaan software engineering yang kompleks
- Sementara model-model sebelumnya cepat stagnan setelah peningkatan awal, GLM-5.1 tetap efisien bahkan dalam pekerjaan agentic jangka panjang
- Model memecah masalah menjadi bagian-bagian kecil, menjalankan eksperimen, menganalisis hasil untuk mengidentifikasi bottleneck, lalu merevisi strategi melalui penalaran iteratif
- Hal ini dibuktikan pada tiga tugas yang secara bertahap semakin minim struktur
- Masalah optimisasi pencarian vektor (berdasarkan satu metrik numerik)
- Benchmark kernel GPU (mengukur peningkatan kecepatan per masalah)
- Pembuatan aplikasi web (perbaikan berbasis penilaian internal tanpa metrik eksplisit)
Skenario 1: optimisasi database vektor melalui 600 iterasi
- VectorDBBench adalah challenge open source yang mengevaluasi kemampuan coding model dalam membangun database berperforma tinggi untuk approximate nearest neighbor search
- Model diberi skeleton code berbasis Rust dan endpoint HTTP API, lalu menjalankan baca/tulis file, kompilasi, pengujian, dan profiling dalam batas 50 tool-call
- Performa terbaik sebelumnya adalah 3.547 QPS (Recall ≥ 95%) milik Claude Opus 4.6
- GLM-5.1 menambahkan loop optimisasi eksternal untuk menjalankan lebih dari 600 iterasi (lebih dari 6.000 tool-call), dan akhirnya mencapai 21.5k QPS
- Ini sekitar 6× peningkatan dibanding satu sesi 50 kali saja
- Proses peningkatan performa menunjukkan pola staircase, dengan tuning bertahap dan transisi struktural yang saling bergantian
- Sekitar iterasi ke-90: penerapan IVF cluster probing + kompresi vektor f16 → 6.4k QPS
- Sekitar iterasi ke-240: penerapan pipeline dua tahap u8 pre-scoring + f16 re-ranking → 13.4k QPS
- Total terjadi 6 transisi struktural, masing-masing merupakan hasil analisis log internal model untuk mengidentifikasi bottleneck
- Titik saat Recall turun di bawah 95% terutama terkonsentrasi pada fase eksplorasi strategi baru
Skenario 2: optimisasi workload machine learning melalui lebih dari 1.000 iterasi
- KernelBench mengevaluasi kemampuan model untuk mengubah implementasi referensi PyTorch menjadi kernel GPU yang lebih cepat dengan output yang sama
- Terdiri dari tiga tahap (Level 1~3), dan Level 3 mencakup optimisasi pada level model penuh seperti MobileNet, VGG, MiniGPT, Mamba
- Konfigurasi default
torch.compile mencapai peningkatan kecepatan 1.15×, sedangkan max-autotune mencapai 1.49×
- Di Level 3, GLM-5.1 mencatat peningkatan kecepatan 3.6×, sambil mempertahankan optimisasi efektif jauh lebih lama dibanding GLM-5
- GLM-5 stagnan setelah lonjakan awal, sedangkan Claude Opus 4.5 bertahan lebih lama namun melambat di fase akhir
- Claude Opus 4.6 pada akhirnya mempertahankan performa tertinggi di 4.2×, dan masih ada ruang untuk peningkatan tambahan
Skenario 3: membangun web app desktop Linux selama 8 jam
- Pembuatan website adalah tugas subjektif tanpa metrik numerik eksplisit, dengan tingkat kelengkapan, kualitas visual, dan kualitas interaksi sebagai kriteria evaluasi
- Prompt pengujian: “Bangun lingkungan desktop bergaya Linux sebagai aplikasi web”
- Dimulai tanpa kode awal, desain, atau umpan balik perantara
- Sebagian besar model hanya membuat UI dasar lalu berhenti, tetapi GLM-5.1 terus berkembang melalui loop peninjauan hasil dan perbaikan mandiri
- Dengan eksekusi berulang selama 8 jam, hasilnya berkembang dari layout sederhana awal menjadi lingkungan desktop yang semakin lengkap
- Menambahkan file browser, terminal, text editor, system monitor, kalkulator, game, dan lainnya
- Setiap fungsi terintegrasi dalam UI yang konsisten, sementara gaya dan kualitas interaksi membaik secara bertahap
- Hasil akhirnya adalah lingkungan desktop yang lengkap dan konsisten secara visual yang berjalan di dalam browser
Makna dan tantangan optimisasi jangka panjang
- Dalam ketiga skenario, variabel kuncinya bukan lamanya waktu eksekusi itu sendiri, melainkan apakah waktu tambahan benar-benar efektif
- Dibanding GLM-5, GLM-5.1 secara signifikan memperluas productive horizon
- Namun, pada beberapa tugas seperti KernelBench, masih ada ruang untuk peningkatan
- Tantangan yang tersisa
- Keluar dari optimum lokal ketika tuning bertahap mencapai batasnya
- Menjaga konsistensi sepanjang ribuan tool-call
- Evaluasi diri (self-evaluation) yang andal pada tugas tanpa metrik numerik eksplisit
- GLM-5.1 diposisikan sebagai langkah pertama menuju arah optimisasi jangka panjang semacam ini
Ringkasan perbandingan benchmark
- GLM-5.1 melampaui GLM-5 pada benchmark coding utama seperti SWE-Bench Pro 58.4, NL2Repo 42.7, dan Terminal-Bench 2.0 63.5
- Menunjukkan performa papan atas di berbagai kategori Reasoning, Coding, Agentic dibanding model pesaing
- Bahkan saat dibandingkan dengan model terbaru seperti Claude Opus 4.6, Gemini 3.1 Pro, dan GPT-5.4, model ini tetap mendekati atau unggul pada banyak metrik
Rilis dan cara penggunaan
- Dirilis sebagai open source dengan lisensi MIT
- Tersedia di api.z.ai dan BigModel.cn, serta kompatibel dengan Claude Code dan OpenClaw
- Pelanggan GLM Coding Plan dapat langsung menggunakannya dengan mengubah nama model menjadi
"GLM-5.1"
- Pada jam sibuk (UTC+8 14:00–18:00), kuota terpakai 3×, dan pada jam non-sibuk 2×
- Hingga akhir April, jam non-sibuk mendapat promosi 1×
- Untuk lingkungan GUI, tersedia Z Code, dengan dukungan pengembangan jarak jauh via SSH dan pekerjaan mobile
- Bobot model dipublikasikan di HuggingFace dan ModelScope
- Mendukung framework inferensi utama seperti vLLM dan SGLang, dengan panduan deployment di GitHub
- Segera juga akan tersedia di platform chat Z.ai
Pengaturan evaluasi dan catatan
- HLE dan tugas penalaran lainnya: maksimum generasi 163.840 token, menggunakan GPT-5.2 sebagai model penilai
- SWE-Bench Pro: context window 200K, eksekusi berbasis OpenHands
- NL2Repo: mencakup deteksi dan pemblokiran perintah berbahaya
- Terminal-Bench 2.0: batas 16 CPU, RAM 32GB, timeout 3 jam
- KernelBench Level 3: lingkungan GPU H100, batas 1.200 tool-call, audit independen dilakukan
- Evaluasi independen juga dilakukan pada berbagai benchmark eksternal seperti CyberGym, MCP-Atlas, τ³-bench, dan Vending Bench 2
Belum ada komentar.