GLM-4.5: Model Fondasi Agentic, Penalaran, dan Coding (ARC)

(arxiv.org)

4 poin oleh GN⁺ 2025-08-13 | 2 komentar | Bagikan ke WhatsApp

GLM-4.5 adalah model bahasa besar open-source Mixture-of-Experts (MoE) dengan performa unggul dalam agentic, penalaran, dan coding
Model ini dikembangkan melalui pelatihan multi-tahap dengan 23T token, iterasi model ahli, dan reinforcement learning
Model ini mencatat hasil papan atas pada berbagai benchmark kunci seperti TAU-Bench, AIME 24, SWE-bench Verified
Bahkan dengan jumlah parameter yang lebih sedikit, model ini tetap memberikan performa efisien dan mendekati atau melampaui model komersial utama
GLM-4.5 dan versi kecilnya GLM-4.5-Air dirilis untuk dimanfaatkan dalam riset dan pengembangan sistem AI

Ikhtisar

GLM-4.5 adalah model bahasa besar open-source Mixture-of-Experts (MoE) dengan total 355 miliar parameter dan 32 miliar parameter aktif
Model ini menerapkan metode penalaran hibrida, sehingga mendukung mode berpikir mendalam (Thinking) dan mode respons instan (Direct Response)
Model ini melalui pelatihan multi-tahap menggunakan 23 triliun token, iterasi model ahli, serta post-training berbasis reinforcement learning
Hasilnya, model ini mencapai performa tinggi pada ranah tugas agentic, penalaran, dan coding (ARC)
- Mencatat TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2%
Dibanding model pesaing, GLM-4.5 menggunakan parameter lebih sedikit, menempati peringkat 3 secara keseluruhan, dan peringkat 2 pada benchmark agentic
Dua versi dirilis sekaligus: model besar GLM-4.5 (355 miliar parameter) dan versi ringkas GLM-4.5-Air (106 miliar parameter)
Seluruh kode, model, dan informasi detail tersedia di GitHub resmi (https://github.com/zai-org/GLM-4.5)

Evaluasi kinerja LLM: benchmark agentic, penalaran, dan coding

GLM-4.5 dan model global utama diuji pada 12 benchmark representatif, termasuk MMLU-Pro, AIME 24, dan SWE-Bench Verified
GLM-4.5 mencatat peringkat rata-rata keseluruhan ke-3, sementara GLM-4.5-Air berada di posisi ke-6
Berdasarkan skor agentic, model ini berada di posisi ke-2 setelah OpenAI o3, dan pada benchmark coding juga meraih posisi ke-3, dekat dengan Claude Sonnet 4
GLM-4.5 menunjukkan performa serupa dengan setengah parameter DeepSeek-R1 dan sepertiga parameter Kimi K2
Dalam rasio jumlah parameter terhadap performa pada SWE-bench Verified, GLM-4.5 dan GLM-4.5-Air juga berada di Pareto Frontier
Data performa ini berdasarkan kondisi per 28 Juli 2025

Pendahuluan

Model bahasa besar (LLM) sedang berkembang cepat dari gudang data umum menjadi pemecah masalah umum
Tujuan akhir AI, yakni AGI (Artificial General Intelligence), mengarah pada model yang memiliki kemampuan kognitif setara manusia di berbagai domain
Untuk mencapainya, kemampuan pemecahan masalah kompleks, generalisasi, dan perbaikan diri perlu terintegrasi
Tiga kemampuan inti yang penting untuk pekerjaan nyata dan pemecahan masalah profesional yang kompleks adalah sebagai berikut:
- Kemampuan agentic: interaksi dengan alat dan dunia luar
- Penalaran kompleks: pemecahan masalah bertahap yang rumit seperti matematika/sains
- Coding tingkat lanjut: kemampuan melakukan software engineering secara nyata
Model komersial SOTA yang ada saat ini (OpenAI, Anthropic) menunjukkan performa khusus di masing-masing bidang, tetapi di antara model open-source masih sedikit model terbuka yang unggul sekaligus di ketiga area utama ini

Pengenalan model GLM-4.5 dan GLM-4.5-Air

GLM-4.5/GLM-4.5-Air menunjukkan performa tingkat teratas open-source di seluruh bidang agentic, penalaran, dan coding
Kedua model mendukung mode penalaran hibrida
- Thinking Mode unggul untuk penalaran kompleks dan kemampuan agentic
- Non-thinking Mode dioptimalkan untuk respons cepat
Hasil utama GLM-4.5:
- Agentic: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (unggul dibanding model komersial pesaing)
- Penalaran: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
- Coding: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (unggul dibanding GPT-4.1 dan Gemini-2.5-pro, serta dekat dengan Claude Sonnet 4)
GLM-4.5-Air memiliki 106 miliar parameter, dan di antara model skala 100 miliar, setara atau unggul dibanding Qwen3-235B-A22B dan MiniMax-M1

Status dan karakteristik performa benchmark

Pada 12 benchmark utama, baik GLM-4.5 maupun GLM-4.5-Air sama-sama mencatat peringkat tinggi
GLM-4.5 menunjukkan performa yang seimbang di bidang agentic, penalaran, dan coding, dengan efisiensi parameter yang menonjol
Berdasarkan SWE-bench Verified, model ini mencapai area efisiensi tertinggi (Pareto Frontier) dalam rasio terhadap jumlah parameter
Perbandingan performa yang rinci dilakukan bersama berbagai model komersial dan open-source

Rilis dan dukungan open-source

Model GLM-4.5/GLM-4.5-Air dirilis di Z.ai, BigModel.cn, dan juga di Huggingface (https://huggingface.co/zai-org/GLM-4.5)
Untuk reproduksibilitas benchmark, toolkit evaluasi (https://github.com/zai-org/glm-simple-evals) juga disediakan sebagai open-source

Pretraining

Arsitektur

Seri GLM-4.5 mengadopsi arsitektur Mixture-of-Experts(MoE), yang secara signifikan meningkatkan efisiensi komputasi saat pelatihan dan inferensi
Pada layer MoE, diterapkan loss-free balance routing dan sigmoid gating
Berbeda dari DeepSeek-V3 dan Kimi K2, model ini mengurangi lebar model (dimensi hidden, jumlah route expert) dan menambah kedalaman (jumlah layer). Model yang lebih dalam lebih efektif untuk pertumbuhan kemampuan penalaran
Pada Self-Attention, diterapkan Grouped-Query Attention + partial RoPE, dengan 96 attention head yang membentuk konfigurasi attention head 2.5x terhadap dimensi hidden 5120
Peningkatan jumlah head tidak memengaruhi training loss, tetapi terbukti berdampak positif pada penalaran aktual dan performa benchmark
QK-Norm diterapkan untuk meningkatkan stabilitas nilai attention logit
Baik GLM-4.5 maupun GLM-4.5-Air menambahkan layer MTP (Multi-Token Prediction) berbasis layer MoE untuk mendukung speculative decoding saat inferensi
Dalam proses penghitungan parameter arsitektur, parameter layer MTP dihitung, sedangkan word embedding dan output layer tidak dihitung

Kesimpulan dan dampak yang diharapkan

GLM-4.5/GLM-4.5-Air adalah model bahasa generasi berikutnya di pasar AI open-source yang menggabungkan performa tinggi, efisiensi, dan fleksibilitas
Model ini menonjol dalam kemampuan terintegrasi lintas bidang/penyelesaian masalah tingkat tinggi, daya saing terhadap model komersial, dan efisiensi parameter
Potensinya untuk berkontribusi sebagai fondasi inovasi model bahasa besar open-source di kalangan akademik, industri, dan riset pengembang terus meluas

2 komentar

xguru 2025-08-13

Komentar di Hacker News juga begitu, dan di forum LocalLLaMA Reddit juga ada penilaian bahwa GLM cukup bagus
GLM 4.5 AIR IS SO FKING GOODDD

GLM 4.5 Air sangat amat cepat, dan kemampuan tool calling-nya juga unggul (bukan lokal, dites lewat Open Router)
Dibandingkan GPT-5 Mini, keunggulannya bisa terbagi tergantung jenis tugas
Model GLM lain seperti GLM 4.5V juga semuanya bagus
Untuk tugas tertentu (misalnya menulis novel, coding), GLM terasa lebih natural dan lebih tidak membatasi dibanding GPT

GN⁺ 2025-08-13

Komentar Hacker News

Sangat menyenangkan melihat paper ini membahas hal-hal yang mendalam, tidak seperti tulisan blog pengumuman model yang biasanya sering kita lihat
Tim Zhipu/Tsinghua menjelaskan bukan hanya "apa", tetapi juga "bagaimana" secara rinci, jadi ini sangat menarik terutama bagi orang yang ingin membangun atau memanfaatkan model seperti ini sendiri
Secara khusus, metodologi post-training di Bagian 3 sangat mengesankan
Pendekatan membuat dulu "model pakar" yang terspesialisasi untuk penalaran/agen/chat, lalu mendistilasi kemampuannya ke model terpadu akhir, terasa sangat menarik
Ini merupakan upaya yang jauh lebih sistematis untuk mengatasi keterbatasan model generalis yang hanya setengah-setengah dalam menangani banyak peran
Jadi bukan sekadar mencampur data, melainkan merancang agar model umum belajar dari sekelompok pakar
Salah satu hal menarik dari hasil eksperimen RL adalah bahwa menerapkan RL langsung pada keseluruhan konteks 64K sekaligus ternyata menghasilkan performa lebih baik daripada RL bertahap (lihat Fig 6)
Banyak tim mungkin akan mengira sebaliknya, tetapi hasil nyatanya berbeda
Dan penggunaan template XML untuk format function calling adalah pilihan kecil tapi cerdas yang menghindarkan mereka dari masalah escaping JSON (lihat Fig 4)
Dalam praktik nyata, meng-escape kode di dalam JSON memang sangat merepotkan
Performanya di SWE-bench juga sangat kuat, cukup untuk disejajarkan dengan model yang jauh lebih besar atau model komersial
Hal yang membuat penasaran ke depan adalah apakah metode pelatihan hibrida seperti ini juga akan berhasil di luar evaluasi bergaya ARC
Misalnya, apakah performa agen tetap terjaga dalam workflow kompleks seperti pekerjaan nyata, ketika tidak ada dokumentasi API, error sering terjadi, dan input juga ambigu
- Saya juga penasaran apakah tweak post/mid-training seperti ini benar-benar diperlukan untuk pembelajaran domain tertentu yang datanya dan labelnya sudah melimpah serta tervalidasi dengan baik
  Ingin tahu apakah tim kecil cukup dengan mengikuti stack pelatihan scale-up terbaru dengan baik, atau apakah tanpa teknik seperti ini hasilnya akan berbeda jauh
- Saya khawatir ini terdengar seperti mencari-cari kesalahan, tetapi gaya penulisannya terasa sangat khas LLM
  Saya pernah melihat kritik yang sama sebelumnya tautan
  Menurut saya, menyoroti hal seperti ini adalah cara untuk menjaga kesehatan lingkungan online
Saya sudah cukup lama memakai model coding GLM-4.5, dan performanya benar-benar luar biasa
Saat menjalankan GLM-4.5 di Octofriend, agen coding yang sedang saya kembangkan, saya bahkan pernah mengiranya sebagai Claude 4
Menurut pengalaman saya, Claude terasa sedikit lebih kuat ketika harus mempertimbangkan seluruh codebase sebagai konteks dan interaksi sistem
Sebaliknya, GLM-4.5 cenderung lebih "jujur", dan tidak terlalu sering melakukan hal seperti Claude yang kadang memperbaiki kode tes untuk diam-diam mengakali masalah
Keduanya sama-sama sangat bagus, tetapi GLM-4.5 pernah menemukan bug yang tidak tertangkap oleh Claude 4 Sonnet maupun 4.1 Opus
Khusus untuk debugging, Claude sedikit lebih sering unggul, tetapi selisihnya tidak besar
Jika dibandingkan dengan GPT-5, baik Claude maupun GLM sama-sama lebih konsisten
GPT-5 kadang menghasilkan sesuatu yang benar-benar mengesankan, tetapi begitu mulai melenceng, sangat sulit dan membuat frustrasi untuk membawanya kembali ke jalur yang benar
Referensi Octofriend: https://github.com/synthetic-lab/octofriend
- Setelah melihat komentar ini, saya mencoba menguji GLM-4.5 di Kilocode
  Sepanjang hari ini saya mencoba memburu bug sulit di kode compiler dengan Gemini CLI, tetapi tidak berhasil
  Namun GLM-4.5 langsung menunjuk inti masalahnya
  Gemini CLI hanya mencurigai fungsi yang salah dan berulang kali membuat perbaikan seadanya, padahal ujung-ujungnya bagian itu sama sekali tidak terkait
  Fokus GLM-4.5 terhadap masalah memang benar-benar menonjol
- Saya juga punya pengalaman bagus memakai GLM-4.5 untuk proyek kecil atau permintaan singkat
  Sayangnya, rasanya performanya menurun ketika konteks menjadi panjang, jadi sekarang saya memakainya sebagai cadangan untuk Sonnet 4
- Saya menggunakan mode architect di aider
  Saya memakainya dengan kombinasi Deepseek R1 (untuk desain tingkat atas) + Qwen3 480B (untuk coding level rendah, atau memakai qwen code API)
  Konfigurasi ini bekerja sangat baik
  Tingkatnya seperti bisa menyelesaikan 99.99% masalah sendirian
  Pemisahan peran di aider masih belum sempurna, jadi saya ingin membuat alat yang memperbaiki workflow ini secara langsung
- Saya setuju dengan poin pertama
  Saya juga merasa Claude bekerja lebih baik ketika konteksnya banyak, sedangkan GLM-4.5 hasilnya kurang bagus dalam situasi seperti itu
Dalam seri GLM-4.5, saat menghitung jumlah parameter total/aktif, mereka mengecualikan layer embedding dan output, lalu hanya memasukkan layer MTP
Ini sesuai dengan hitungan saya (355B A32B)
Seri GPT OSS memasukkan embedding/output ke parameter total, tetapi untuk parameter aktif hanya memasukkan output
Seri Qwen3 memasukkan embedding dan output ke total maupun aktif
Cara menghitung parameter berbeda-beda antar model, jadi saya penasaran mengapa tidak ada standar dan metode mana yang paling masuk akal
- Jumlah parameter total memang seharusnya menghitung semua parameter karena itu berhubungan langsung dengan kebutuhan memori
  Untuk parameter aktif, parameter unembedding digunakan semuanya pada setiap generasi token, sedangkan embedding hanya memakai satu kolom, jadi perhitungannya perlu mencerminkan karakteristik ini agar hubungan dengan bandwidth dan latensi bisa dipahami dengan benar
Menurut saya, dalam beberapa tahun ke depan, coding dengan model open lokal setingkat Sonnet 4 akan mungkin dilakukan di workstation PC sekitar 2000 dolar
Model cloud saat ini memang berguna, tetapi karena ini adalah alat yang akan menjadi inti dari pengalaman pengembang, saya ingin bisa menjalankannya secara lokal
- Menurut saya bukan dua tahun lagi, tetapi akhir tahun ini saja sudah cukup mungkin
- Dari sudut pandang open source, model seperti ini wajib ada
  Kalau tidak, pengembangan open source sendiri bisa menjadi tidak berkelanjutan
  Bahkan saya lebih berharap dalam 2 tahun kita bisa mendapatkan performa di atas Sonnet 4 pada PC seharga 2 ribu dolar
Rasanya ini adalah model open pertama yang benar-benar bisa dibandingkan hampir setara dengan model frontier komersial yang ada
Dari efisiensi parameternya saja sudah terlihat ada inovasi nyata dalam metode pelatihan
Saya juga penasaran dengan hasil verifikasi performa independen di Aider LLM Leaderboard
Bagi yang seperti saya ingin mulai dari membaca abstrak paper, ini tautannya https://www.arxiv.org/abs/2508.06471
Fakta bahwa ini juga dirilis dengan lisensi Apache membuatnya makin keren
Sangat menyenangkan melihat model open source terus menantang batasannya
Ada begitu banyak hal yang diamati dalam paper ini sampai rasanya masing-masing bisa jadi paper tersendiri
Khususnya, pengalamannya terkait proses pelatihan serta pengumpulan/sintesis data sangat kaya
Apakah ada yang tahu apakah para penulisnya pernah menulis paper keren lain dengan tingkat kualitas serupa sebelumnya?
Metrik grafik di paper ini membingungkan
Pada gambar pertama, skor swebench Sonnet 4 terlihat sekitar 53, tetapi setelah itu mendekati 70
Nilai sebenarnya lebih dekat ke 70 referensi
Saya penasaran mengapa Qwen3 tidak ada di benchmark coding, tetapi dimasukkan di benchmark lainnya
- Qwen3-Coder disertakan di Section 4.3.2
- Qwen masih belum matang dalam memahami codebase skala besar