8 poin oleh GN⁺ 12 hari lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • GLM-5.1, model agentic engineering generasi berikutnya, adalah versi flagship yang secara signifikan memperkuat kemampuan coding dan pemecahan masalah, dirancang dengan fokus pada optimisasi jangka panjang dan perbaikan berkelanjutan
  • Mencatat performa tingkat tertinggi pada benchmark utama seperti SWE-Bench Pro, NL2Repo, dan Terminal-Bench 2.0, serta mempertahankan persistensi produktif bahkan dalam eksekusi berulang dalam waktu lama
  • Pada VectorDBBench, KernelBench, dan skenario pembangunan web app, performanya terus meningkat melalui ratusan hingga ribuan iterasi, dengan menghilangkan bottleneck lewat analisis log internal dan revisi strategi
  • Model ini bekerja efisien bahkan pada tugas software engineering yang kompleks melalui evaluasi diri dan transisi struktural, dan kualitas hasilnya terus membaik selama eksekusi jangka panjang
  • Dirilis sebagai open source berlisensi MIT, dapat digunakan di berbagai platform dan framework, serta diposisikan sebagai standar baru untuk model AI berorientasi optimisasi jangka panjang

Ikhtisar GLM-5.1

  • GLM-5.1 adalah model agentic engineering generasi berikutnya, sebuah model flagship dengan performa coding yang jauh meningkat dibanding versi sebelumnya
  • Mencatat performa terbaik di SWE-Bench Pro, serta unggul dengan selisih besar dibanding GLM-5 pada NL2Repo (pembuatan repositori) dan Terminal-Bench 2.0 (pekerjaan terminal nyata)
  • Dirancang dengan penekanan pada kemampuan optimisasi jangka panjang dan daya pemecahan masalah berkelanjutan, melampaui performa eksekusi satu kali semata
  • Lebih baik dalam menilai masalah yang ambigu, mempertahankan produktivitas dalam sesi panjang, dan melalui eksperimen berulang serta revisi strategi, terus meningkatkan performa bahkan setelah ratusan iterasi
  • Memiliki struktur di mana hasil membaik semakin lama dijalankan, dengan kapabilitas jangka panjang (long-horizon capability) sebagai karakteristik utamanya

Tugas software engineering yang kompleks

  • GLM-5.1 mencapai performa tingkat tertinggi dalam pekerjaan software engineering yang kompleks
  • Sementara model-model sebelumnya cepat stagnan setelah peningkatan awal, GLM-5.1 tetap efisien bahkan dalam pekerjaan agentic jangka panjang
  • Model memecah masalah menjadi bagian-bagian kecil, menjalankan eksperimen, menganalisis hasil untuk mengidentifikasi bottleneck, lalu merevisi strategi melalui penalaran iteratif
  • Hal ini dibuktikan pada tiga tugas yang secara bertahap semakin minim struktur
    • Masalah optimisasi pencarian vektor (berdasarkan satu metrik numerik)
    • Benchmark kernel GPU (mengukur peningkatan kecepatan per masalah)
    • Pembuatan aplikasi web (perbaikan berbasis penilaian internal tanpa metrik eksplisit)

Skenario 1: optimisasi database vektor melalui 600 iterasi

  • VectorDBBench adalah challenge open source yang mengevaluasi kemampuan coding model dalam membangun database berperforma tinggi untuk approximate nearest neighbor search
  • Model diberi skeleton code berbasis Rust dan endpoint HTTP API, lalu menjalankan baca/tulis file, kompilasi, pengujian, dan profiling dalam batas 50 tool-call
  • Performa terbaik sebelumnya adalah 3.547 QPS (Recall ≥ 95%) milik Claude Opus 4.6
  • GLM-5.1 menambahkan loop optimisasi eksternal untuk menjalankan lebih dari 600 iterasi (lebih dari 6.000 tool-call), dan akhirnya mencapai 21.5k QPS
    • Ini sekitar 6× peningkatan dibanding satu sesi 50 kali saja
  • Proses peningkatan performa menunjukkan pola staircase, dengan tuning bertahap dan transisi struktural yang saling bergantian
    • Sekitar iterasi ke-90: penerapan IVF cluster probing + kompresi vektor f16 → 6.4k QPS
    • Sekitar iterasi ke-240: penerapan pipeline dua tahap u8 pre-scoring + f16 re-ranking → 13.4k QPS
  • Total terjadi 6 transisi struktural, masing-masing merupakan hasil analisis log internal model untuk mengidentifikasi bottleneck
  • Titik saat Recall turun di bawah 95% terutama terkonsentrasi pada fase eksplorasi strategi baru

Skenario 2: optimisasi workload machine learning melalui lebih dari 1.000 iterasi

  • KernelBench mengevaluasi kemampuan model untuk mengubah implementasi referensi PyTorch menjadi kernel GPU yang lebih cepat dengan output yang sama
  • Terdiri dari tiga tahap (Level 1~3), dan Level 3 mencakup optimisasi pada level model penuh seperti MobileNet, VGG, MiniGPT, Mamba
  • Konfigurasi default torch.compile mencapai peningkatan kecepatan 1.15×, sedangkan max-autotune mencapai 1.49×
  • Di Level 3, GLM-5.1 mencatat peningkatan kecepatan 3.6×, sambil mempertahankan optimisasi efektif jauh lebih lama dibanding GLM-5
  • GLM-5 stagnan setelah lonjakan awal, sedangkan Claude Opus 4.5 bertahan lebih lama namun melambat di fase akhir
  • Claude Opus 4.6 pada akhirnya mempertahankan performa tertinggi di 4.2×, dan masih ada ruang untuk peningkatan tambahan

Skenario 3: membangun web app desktop Linux selama 8 jam

  • Pembuatan website adalah tugas subjektif tanpa metrik numerik eksplisit, dengan tingkat kelengkapan, kualitas visual, dan kualitas interaksi sebagai kriteria evaluasi
  • Prompt pengujian: “Bangun lingkungan desktop bergaya Linux sebagai aplikasi web
    • Dimulai tanpa kode awal, desain, atau umpan balik perantara
  • Sebagian besar model hanya membuat UI dasar lalu berhenti, tetapi GLM-5.1 terus berkembang melalui loop peninjauan hasil dan perbaikan mandiri
  • Dengan eksekusi berulang selama 8 jam, hasilnya berkembang dari layout sederhana awal menjadi lingkungan desktop yang semakin lengkap
    • Menambahkan file browser, terminal, text editor, system monitor, kalkulator, game, dan lainnya
    • Setiap fungsi terintegrasi dalam UI yang konsisten, sementara gaya dan kualitas interaksi membaik secara bertahap
  • Hasil akhirnya adalah lingkungan desktop yang lengkap dan konsisten secara visual yang berjalan di dalam browser

Makna dan tantangan optimisasi jangka panjang

  • Dalam ketiga skenario, variabel kuncinya bukan lamanya waktu eksekusi itu sendiri, melainkan apakah waktu tambahan benar-benar efektif
  • Dibanding GLM-5, GLM-5.1 secara signifikan memperluas productive horizon
  • Namun, pada beberapa tugas seperti KernelBench, masih ada ruang untuk peningkatan
  • Tantangan yang tersisa
    • Keluar dari optimum lokal ketika tuning bertahap mencapai batasnya
    • Menjaga konsistensi sepanjang ribuan tool-call
    • Evaluasi diri (self-evaluation) yang andal pada tugas tanpa metrik numerik eksplisit
  • GLM-5.1 diposisikan sebagai langkah pertama menuju arah optimisasi jangka panjang semacam ini

Ringkasan perbandingan benchmark

  • GLM-5.1 melampaui GLM-5 pada benchmark coding utama seperti SWE-Bench Pro 58.4, NL2Repo 42.7, dan Terminal-Bench 2.0 63.5
  • Menunjukkan performa papan atas di berbagai kategori Reasoning, Coding, Agentic dibanding model pesaing
  • Bahkan saat dibandingkan dengan model terbaru seperti Claude Opus 4.6, Gemini 3.1 Pro, dan GPT-5.4, model ini tetap mendekati atau unggul pada banyak metrik

Rilis dan cara penggunaan

  • Dirilis sebagai open source dengan lisensi MIT
  • Tersedia di api.z.ai dan BigModel.cn, serta kompatibel dengan Claude Code dan OpenClaw
  • Pelanggan GLM Coding Plan dapat langsung menggunakannya dengan mengubah nama model menjadi "GLM-5.1"
    • Pada jam sibuk (UTC+8 14:00–18:00), kuota terpakai 3×, dan pada jam non-sibuk 2×
    • Hingga akhir April, jam non-sibuk mendapat promosi 1×
  • Untuk lingkungan GUI, tersedia Z Code, dengan dukungan pengembangan jarak jauh via SSH dan pekerjaan mobile
  • Bobot model dipublikasikan di HuggingFace dan ModelScope
  • Mendukung framework inferensi utama seperti vLLM dan SGLang, dengan panduan deployment di GitHub
  • Segera juga akan tersedia di platform chat Z.ai

Pengaturan evaluasi dan catatan

  • HLE dan tugas penalaran lainnya: maksimum generasi 163.840 token, menggunakan GPT-5.2 sebagai model penilai
  • SWE-Bench Pro: context window 200K, eksekusi berbasis OpenHands
  • NL2Repo: mencakup deteksi dan pemblokiran perintah berbahaya
  • Terminal-Bench 2.0: batas 16 CPU, RAM 32GB, timeout 3 jam
  • KernelBench Level 3: lingkungan GPU H100, batas 1.200 tool-call, audit independen dilakukan
  • Evaluasi independen juga dilakukan pada berbagai benchmark eksternal seperti CyberGym, MCP-Atlas, τ³-bench, dan Vending Bench 2

Belum ada komentar.

Belum ada komentar.