GLM-5.1: Evolusi Menuju Penyelesaian Tugas Jangka Panjang

(z.ai)

8 poin oleh GN⁺ 2026-04-08 | 1 komentar | Bagikan ke WhatsApp

GLM-5.1, model agentic engineering generasi berikutnya, adalah versi flagship yang secara signifikan memperkuat kemampuan coding dan pemecahan masalah, dirancang dengan fokus pada optimisasi jangka panjang dan perbaikan berkelanjutan
Mencatat performa tingkat tertinggi pada benchmark utama seperti SWE-Bench Pro, NL2Repo, dan Terminal-Bench 2.0, serta mempertahankan persistensi produktif bahkan dalam eksekusi berulang dalam waktu lama
Pada VectorDBBench, KernelBench, dan skenario pembangunan web app, performanya terus meningkat melalui ratusan hingga ribuan iterasi, dengan menghilangkan bottleneck lewat analisis log internal dan revisi strategi
Model ini bekerja efisien bahkan pada tugas software engineering yang kompleks melalui evaluasi diri dan transisi struktural, dan kualitas hasilnya terus membaik selama eksekusi jangka panjang
Dirilis sebagai open source berlisensi MIT, dapat digunakan di berbagai platform dan framework, serta diposisikan sebagai standar baru untuk model AI berorientasi optimisasi jangka panjang

Ikhtisar GLM-5.1

GLM-5.1 adalah model agentic engineering generasi berikutnya, sebuah model flagship dengan performa coding yang jauh meningkat dibanding versi sebelumnya
Mencatat performa terbaik di SWE-Bench Pro, serta unggul dengan selisih besar dibanding GLM-5 pada NL2Repo (pembuatan repositori) dan Terminal-Bench 2.0 (pekerjaan terminal nyata)
Dirancang dengan penekanan pada kemampuan optimisasi jangka panjang dan daya pemecahan masalah berkelanjutan, melampaui performa eksekusi satu kali semata
Lebih baik dalam menilai masalah yang ambigu, mempertahankan produktivitas dalam sesi panjang, dan melalui eksperimen berulang serta revisi strategi, terus meningkatkan performa bahkan setelah ratusan iterasi
Memiliki struktur di mana hasil membaik semakin lama dijalankan, dengan kapabilitas jangka panjang (long-horizon capability) sebagai karakteristik utamanya

Tugas software engineering yang kompleks

GLM-5.1 mencapai performa tingkat tertinggi dalam pekerjaan software engineering yang kompleks
Sementara model-model sebelumnya cepat stagnan setelah peningkatan awal, GLM-5.1 tetap efisien bahkan dalam pekerjaan agentic jangka panjang
Model memecah masalah menjadi bagian-bagian kecil, menjalankan eksperimen, menganalisis hasil untuk mengidentifikasi bottleneck, lalu merevisi strategi melalui penalaran iteratif
Hal ini dibuktikan pada tiga tugas yang secara bertahap semakin minim struktur
- Masalah optimisasi pencarian vektor (berdasarkan satu metrik numerik)
- Benchmark kernel GPU (mengukur peningkatan kecepatan per masalah)
- Pembuatan aplikasi web (perbaikan berbasis penilaian internal tanpa metrik eksplisit)

Skenario 1: optimisasi database vektor melalui 600 iterasi

VectorDBBench adalah challenge open source yang mengevaluasi kemampuan coding model dalam membangun database berperforma tinggi untuk approximate nearest neighbor search
Model diberi skeleton code berbasis Rust dan endpoint HTTP API, lalu menjalankan baca/tulis file, kompilasi, pengujian, dan profiling dalam batas 50 tool-call
Performa terbaik sebelumnya adalah 3.547 QPS (Recall ≥ 95%) milik Claude Opus 4.6
GLM-5.1 menambahkan loop optimisasi eksternal untuk menjalankan lebih dari 600 iterasi (lebih dari 6.000 tool-call), dan akhirnya mencapai 21.5k QPS
- Ini sekitar 6× peningkatan dibanding satu sesi 50 kali saja
Proses peningkatan performa menunjukkan pola staircase, dengan tuning bertahap dan transisi struktural yang saling bergantian
- Sekitar iterasi ke-90: penerapan IVF cluster probing + kompresi vektor f16 → 6.4k QPS
- Sekitar iterasi ke-240: penerapan pipeline dua tahap u8 pre-scoring + f16 re-ranking → 13.4k QPS
Total terjadi 6 transisi struktural, masing-masing merupakan hasil analisis log internal model untuk mengidentifikasi bottleneck
Titik saat Recall turun di bawah 95% terutama terkonsentrasi pada fase eksplorasi strategi baru

Skenario 2: optimisasi workload machine learning melalui lebih dari 1.000 iterasi

KernelBench mengevaluasi kemampuan model untuk mengubah implementasi referensi PyTorch menjadi kernel GPU yang lebih cepat dengan output yang sama
Terdiri dari tiga tahap (Level 1~3), dan Level 3 mencakup optimisasi pada level model penuh seperti MobileNet, VGG, MiniGPT, Mamba
Konfigurasi default torch.compile mencapai peningkatan kecepatan 1.15×, sedangkan max-autotune mencapai 1.49×
Di Level 3, GLM-5.1 mencatat peningkatan kecepatan 3.6×, sambil mempertahankan optimisasi efektif jauh lebih lama dibanding GLM-5
GLM-5 stagnan setelah lonjakan awal, sedangkan Claude Opus 4.5 bertahan lebih lama namun melambat di fase akhir
Claude Opus 4.6 pada akhirnya mempertahankan performa tertinggi di 4.2×, dan masih ada ruang untuk peningkatan tambahan

Skenario 3: membangun web app desktop Linux selama 8 jam

Pembuatan website adalah tugas subjektif tanpa metrik numerik eksplisit, dengan tingkat kelengkapan, kualitas visual, dan kualitas interaksi sebagai kriteria evaluasi
Prompt pengujian: “Bangun lingkungan desktop bergaya Linux sebagai aplikasi web”
- Dimulai tanpa kode awal, desain, atau umpan balik perantara
Sebagian besar model hanya membuat UI dasar lalu berhenti, tetapi GLM-5.1 terus berkembang melalui loop peninjauan hasil dan perbaikan mandiri
Dengan eksekusi berulang selama 8 jam, hasilnya berkembang dari layout sederhana awal menjadi lingkungan desktop yang semakin lengkap
- Menambahkan file browser, terminal, text editor, system monitor, kalkulator, game, dan lainnya
- Setiap fungsi terintegrasi dalam UI yang konsisten, sementara gaya dan kualitas interaksi membaik secara bertahap
Hasil akhirnya adalah lingkungan desktop yang lengkap dan konsisten secara visual yang berjalan di dalam browser

Makna dan tantangan optimisasi jangka panjang

Dalam ketiga skenario, variabel kuncinya bukan lamanya waktu eksekusi itu sendiri, melainkan apakah waktu tambahan benar-benar efektif
Dibanding GLM-5, GLM-5.1 secara signifikan memperluas productive horizon
Namun, pada beberapa tugas seperti KernelBench, masih ada ruang untuk peningkatan
Tantangan yang tersisa
- Keluar dari optimum lokal ketika tuning bertahap mencapai batasnya
- Menjaga konsistensi sepanjang ribuan tool-call
- Evaluasi diri (self-evaluation) yang andal pada tugas tanpa metrik numerik eksplisit
GLM-5.1 diposisikan sebagai langkah pertama menuju arah optimisasi jangka panjang semacam ini

Ringkasan perbandingan benchmark

GLM-5.1 melampaui GLM-5 pada benchmark coding utama seperti SWE-Bench Pro 58.4, NL2Repo 42.7, dan Terminal-Bench 2.0 63.5
Menunjukkan performa papan atas di berbagai kategori Reasoning, Coding, Agentic dibanding model pesaing
Bahkan saat dibandingkan dengan model terbaru seperti Claude Opus 4.6, Gemini 3.1 Pro, dan GPT-5.4, model ini tetap mendekati atau unggul pada banyak metrik

Rilis dan cara penggunaan

Dirilis sebagai open source dengan lisensi MIT
Tersedia di api.z.ai dan BigModel.cn, serta kompatibel dengan Claude Code dan OpenClaw
Pelanggan GLM Coding Plan dapat langsung menggunakannya dengan mengubah nama model menjadi "GLM-5.1"
- Pada jam sibuk (UTC+8 14:00–18:00), kuota terpakai 3×, dan pada jam non-sibuk 2×
- Hingga akhir April, jam non-sibuk mendapat promosi 1×
Untuk lingkungan GUI, tersedia Z Code, dengan dukungan pengembangan jarak jauh via SSH dan pekerjaan mobile
Bobot model dipublikasikan di HuggingFace dan ModelScope
Mendukung framework inferensi utama seperti vLLM dan SGLang, dengan panduan deployment di GitHub
Segera juga akan tersedia di platform chat Z.ai

Pengaturan evaluasi dan catatan

HLE dan tugas penalaran lainnya: maksimum generasi 163.840 token, menggunakan GPT-5.2 sebagai model penilai
SWE-Bench Pro: context window 200K, eksekusi berbasis OpenHands
NL2Repo: mencakup deteksi dan pemblokiran perintah berbahaya
Terminal-Bench 2.0: batas 16 CPU, RAM 32GB, timeout 3 jam
KernelBench Level 3: lingkungan GPU H100, batas 1.200 tool-call, audit independen dilakukan
Evaluasi independen juga dilakukan pada berbagai benchmark eksternal seperti CyberGym, MCP-Atlas, τ³-bench, dan Vending Bench 2

1 komentar

GN⁺ 2026-04-08

Komentar Hacker News

Setiap hari, ada tiga hal yang makin jelas
(1) OpenAI dan Anthropic kini tampaknya hampir tidak lagi kompetitif
(2) Inferensi lokal/pribadi adalah masa depan AI
(3) Karena belum ada ‘produk killer’, sekaranglah waktunya benar-benar membuatnya
- Saya tidak setuju dengan pernyataan ‘tidak ada produk killer’. Asisten coding dan LLM adalah pencapaian teknologi paling menakjubkan dalam hidup saya. Seperti sebelum dan sesudah revolusi industri, saya rasa sejarah manusia sebentar lagi akan terbagi menjadi sebelum AI dan sesudah AI
- Asisten coding AI adalah salah satu teknologi paling berguna yang pernah dibuat. Karena kualitas model adalah hal terpenting, saya rasa inferensi lokal akan sulit menjadi arus utama kecuali perangkat keras berubah secara fundamental
- Saya ragu ada manfaat praktis apa dari seseorang menghabiskan $50.000 untuk GPU dan menjalankannya sendiri, selain sebagai proyek hobi yang keren
Saya baru saja melihat tulisan tentang Claude Mythos, dan kali ini rasanya bukan sekadar peningkatan biasa, melainkan benar-benar sebuah lompatan. Saya belum tahu kapan akan dirilis, tapi saya juga menantikan rilis GLM berikutnya yang spesifikasinya tampak gila kuatnya
Versi Unsloth quantization juga sudah dirilis. IQ4_XS dari model GLM-5.1-GGUF memiliki 754B parameter dan ukuran 361GB, jadi terlalu berat untuk dijalankan oleh penggemar LLM lokal pada umumnya
- Dengan dukungan perangkat lunak yang baik, SSD offloading juga memungkinkan. Tentu saat itu levelnya lebih mirip ‘merangkak’ daripada ‘menjalankan’, tetapi tetap saja bisa mendapat respons secara lokal. Belakangan ini bahkan mulai muncul upaya merancang struktur engram, parameter embedding internal dengan mempertimbangkan SSD offloading sejak awal
Model ini bukan hanya menggambar pelikan yang bagus untuk saya, tapi juga membuatnya menjadi animasi
Tautan terkait
- Hasilnya jauh lebih realistis. Pelikan lebih wajar terbang di langit daripada mengendarai sepeda
- Simon, sekarang saatnya membuat benchmark yang lebih baik
Jujur agak mengecewakan. GLM 5.1 menghasilkan TypeScript yang jauh lebih baik daripada Opus atau Codex, tetapi pada konteks panjang kadang masuk ke mode aneh. Meski begitu, ada juga sesi yang berjalan stabil sampai lebih dari 200k token
- Kalau benar-benar bekerja baik dan kecepatannya lumayan, itu sangat mengesankan. Kemarin model ini memecahkan masalah yang gagal diselesaikan Kimi K2.5. Hanya saja kadang masih lambat. Rasanya mendekati level Opus 4.5
- Saya mengatur jendela konteks ke 100k dan secara berkala melakukan compact atau mendokumentasikan status lalu memulai sesi baru. Karena Opus 4.6 belakangan tidak stabil, saya biasanya memakai GLM 5.1 sebagai gantinya. Mengejutkan melihat kualitas model terbuka sudah sebagus ini
- Dari sudut pandang pengguna, kalau model open source lebih baik daripada model tertutup, itu keuntungan murni
- Kalau sudah sekitar 100k token, memang perlu membuka sesi baru atau memakai perintah /compact
- Karena kebiasaan dari masa Claude dan Codex dulu, saya masih sering merapikan konteks. Sehebat apa pun model terbaru, saya masih belum percaya pada konteks yang terlalu besar
GLM-5.0 benar-benar jagoan di antara model open source. Di benchmark internal selalu masuk papan atas, dan levelnya mirip GPT-5.2. Saya lebih sering memakainya untuk tugas tidak terstruktur daripada coding
- Saya belum mencoba 5.1, tetapi untuk coding PHP hasilnya 99% mirip Sonnet/Opus/GPT-5. Selain itu, model ini juga bisa dijalankan secara lokal
- Saya sedang membuat dataset untuk konversi Python ↔ Cython, dan model ini menunjukkan tingkat penerimaan tertinggi kedua (16%) setelah Gemini Pro 3.1. Model kelas menengah hanya di kisaran 6~7%, jadi perbandingannya jauh
- Kasus penggunaan saya lebih ke memahami codebase dan menganalisis dokumen daripada menulis kode, dan model ini bekerja lebih baik daripada model-model AS dengan harga setengahnya
Dalam pengujian saya, GLM 5.1 berkinerja lebih buruk daripada GLM 5
Tautan perbandingan
Tampaknya model ini sekarang dituning lebih ke arah agen/coding
- Penurunan performa terutama terlihat jelas pada versi (none)
Pendekatan menilai kualitas model berdasarkan kecepatan eksekusi kode yang dihasilkan agen terasa menarik. Saya mengujinya dengan cara seperti membuat benchmark, menetapkan baseline, lalu meningkatkan lebih dari 1,4x. Opus 4.6 menemukan optimisasi level rendah pada kode Rust dan membuatnya 6x lebih cepat dari sebelumnya sambil tetap meloloskan semua tes. Pendekatan seperti ini memungkinkan perbandingan performa nyata yang lebih praktis
Dari komentar-komentarnya, seolah semua orang sudah lama memakai model ini, jadi saya penasaran apakah memang begitu
- Tulisan blognya memang baru diposting, tetapi modelnya sudah dirilis sejak 2 minggu lalu
- Situs reservasi lapangan tenis di daerah saya rusak, jadi saya minta GLM-5.1 menganalisis API-nya, dan dalam 5 menit model itu menemukan endpoint /cancel.php lalu mengekstrak ID reservasi dengan blind SQL injection. Terlalu agresif, tapi benar-benar mengesankan
- Model ini memang sudah dibuka sejak cukup lama
Saya terutama memakai versi GLM 4.7 Flash secara lokal untuk agentic coding, dan hasilnya benar-benar bagus. Kali ini saya berharap ada juga versi Flash, tetapi sayangnya tidak disebutkan di catatan rilis. Meski begitu, saya yakin itu akan segera keluar

GLM-5.1: Evolusi Menuju Penyelesaian Tugas Jangka Panjang

Ikhtisar GLM-5.1

Tugas software engineering yang kompleks

Skenario 1: optimisasi database vektor melalui 600 iterasi

Skenario 2: optimisasi workload machine learning melalui lebih dari 1.000 iterasi

Skenario 3: membangun web app desktop Linux selama 8 jam

Makna dan tantangan optimisasi jangka panjang

Ringkasan perbandingan benchmark

Rilis dan cara penggunaan

Pengaturan evaluasi dan catatan

Bacaan terkait

1 komentar

Komentar Hacker News