- GLM-4.5 adalah model bahasa besar open-source Mixture-of-Experts (MoE) dengan performa unggul dalam agentic, penalaran, dan coding
- Model ini dikembangkan melalui pelatihan multi-tahap dengan 23T token, iterasi model ahli, dan reinforcement learning
- Model ini mencatat hasil papan atas pada berbagai benchmark kunci seperti TAU-Bench, AIME 24, SWE-bench Verified
- Bahkan dengan jumlah parameter yang lebih sedikit, model ini tetap memberikan performa efisien dan mendekati atau melampaui model komersial utama
- GLM-4.5 dan versi kecilnya GLM-4.5-Air dirilis untuk dimanfaatkan dalam riset dan pengembangan sistem AI
Ikhtisar
- GLM-4.5 adalah model bahasa besar open-source Mixture-of-Experts (MoE) dengan total 355 miliar parameter dan 32 miliar parameter aktif
- Model ini menerapkan metode penalaran hibrida, sehingga mendukung mode berpikir mendalam (Thinking) dan mode respons instan (Direct Response)
- Model ini melalui pelatihan multi-tahap menggunakan 23 triliun token, iterasi model ahli, serta post-training berbasis reinforcement learning
- Hasilnya, model ini mencapai performa tinggi pada ranah tugas agentic, penalaran, dan coding (ARC)
- Mencatat TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2%
- Dibanding model pesaing, GLM-4.5 menggunakan parameter lebih sedikit, menempati peringkat 3 secara keseluruhan, dan peringkat 2 pada benchmark agentic
- Dua versi dirilis sekaligus: model besar GLM-4.5 (355 miliar parameter) dan versi ringkas GLM-4.5-Air (106 miliar parameter)
- Seluruh kode, model, dan informasi detail tersedia di GitHub resmi (https://github.com/zai-org/GLM-4.5)
Evaluasi kinerja LLM: benchmark agentic, penalaran, dan coding
- GLM-4.5 dan model global utama diuji pada 12 benchmark representatif, termasuk MMLU-Pro, AIME 24, dan SWE-Bench Verified
- GLM-4.5 mencatat peringkat rata-rata keseluruhan ke-3, sementara GLM-4.5-Air berada di posisi ke-6
- Berdasarkan skor agentic, model ini berada di posisi ke-2 setelah OpenAI o3, dan pada benchmark coding juga meraih posisi ke-3, dekat dengan Claude Sonnet 4
- GLM-4.5 menunjukkan performa serupa dengan setengah parameter DeepSeek-R1 dan sepertiga parameter Kimi K2
- Dalam rasio jumlah parameter terhadap performa pada SWE-bench Verified, GLM-4.5 dan GLM-4.5-Air juga berada di Pareto Frontier
- Data performa ini berdasarkan kondisi per 28 Juli 2025
Pendahuluan
- Model bahasa besar (LLM) sedang berkembang cepat dari gudang data umum menjadi pemecah masalah umum
- Tujuan akhir AI, yakni AGI (Artificial General Intelligence), mengarah pada model yang memiliki kemampuan kognitif setara manusia di berbagai domain
- Untuk mencapainya, kemampuan pemecahan masalah kompleks, generalisasi, dan perbaikan diri perlu terintegrasi
- Tiga kemampuan inti yang penting untuk pekerjaan nyata dan pemecahan masalah profesional yang kompleks adalah sebagai berikut:
- Kemampuan agentic: interaksi dengan alat dan dunia luar
- Penalaran kompleks: pemecahan masalah bertahap yang rumit seperti matematika/sains
- Coding tingkat lanjut: kemampuan melakukan software engineering secara nyata
- Model komersial SOTA yang ada saat ini (OpenAI, Anthropic) menunjukkan performa khusus di masing-masing bidang, tetapi di antara model open-source masih sedikit model terbuka yang unggul sekaligus di ketiga area utama ini
Pengenalan model GLM-4.5 dan GLM-4.5-Air
- GLM-4.5/GLM-4.5-Air menunjukkan performa tingkat teratas open-source di seluruh bidang agentic, penalaran, dan coding
- Kedua model mendukung mode penalaran hibrida
- Thinking Mode unggul untuk penalaran kompleks dan kemampuan agentic
- Non-thinking Mode dioptimalkan untuk respons cepat
- Hasil utama GLM-4.5:
- Agentic: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (unggul dibanding model komersial pesaing)
- Penalaran: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
- Coding: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (unggul dibanding GPT-4.1 dan Gemini-2.5-pro, serta dekat dengan Claude Sonnet 4)
- GLM-4.5-Air memiliki 106 miliar parameter, dan di antara model skala 100 miliar, setara atau unggul dibanding Qwen3-235B-A22B dan MiniMax-M1
Status dan karakteristik performa benchmark
- Pada 12 benchmark utama, baik GLM-4.5 maupun GLM-4.5-Air sama-sama mencatat peringkat tinggi
- GLM-4.5 menunjukkan performa yang seimbang di bidang agentic, penalaran, dan coding, dengan efisiensi parameter yang menonjol
- Berdasarkan SWE-bench Verified, model ini mencapai area efisiensi tertinggi (Pareto Frontier) dalam rasio terhadap jumlah parameter
- Perbandingan performa yang rinci dilakukan bersama berbagai model komersial dan open-source
Rilis dan dukungan open-source
- Model GLM-4.5/GLM-4.5-Air dirilis di Z.ai, BigModel.cn, dan juga di Huggingface (https://huggingface.co/zai-org/GLM-4.5)
- Untuk reproduksibilitas benchmark, toolkit evaluasi (https://github.com/zai-org/glm-simple-evals) juga disediakan sebagai open-source
Pretraining
Arsitektur
- Seri GLM-4.5 mengadopsi arsitektur Mixture-of-Experts(MoE), yang secara signifikan meningkatkan efisiensi komputasi saat pelatihan dan inferensi
- Pada layer MoE, diterapkan loss-free balance routing dan sigmoid gating
- Berbeda dari DeepSeek-V3 dan Kimi K2, model ini mengurangi lebar model (dimensi hidden, jumlah route expert) dan menambah kedalaman (jumlah layer). Model yang lebih dalam lebih efektif untuk pertumbuhan kemampuan penalaran
- Pada Self-Attention, diterapkan Grouped-Query Attention + partial RoPE, dengan 96 attention head yang membentuk konfigurasi attention head 2.5x terhadap dimensi hidden 5120
- Peningkatan jumlah head tidak memengaruhi training loss, tetapi terbukti berdampak positif pada penalaran aktual dan performa benchmark
- QK-Norm diterapkan untuk meningkatkan stabilitas nilai attention logit
- Baik GLM-4.5 maupun GLM-4.5-Air menambahkan layer MTP (Multi-Token Prediction) berbasis layer MoE untuk mendukung speculative decoding saat inferensi
- Dalam proses penghitungan parameter arsitektur, parameter layer MTP dihitung, sedangkan word embedding dan output layer tidak dihitung
Kesimpulan dan dampak yang diharapkan
- GLM-4.5/GLM-4.5-Air adalah model bahasa generasi berikutnya di pasar AI open-source yang menggabungkan performa tinggi, efisiensi, dan fleksibilitas
- Model ini menonjol dalam kemampuan terintegrasi lintas bidang/penyelesaian masalah tingkat tinggi, daya saing terhadap model komersial, dan efisiensi parameter
- Potensinya untuk berkontribusi sebagai fondasi inovasi model bahasa besar open-source di kalangan akademik, industri, dan riset pengembang terus meluas
2 komentar
Komentar di Hacker News juga begitu, dan di forum LocalLLaMA Reddit juga ada penilaian bahwa GLM cukup bagus
GLM 4.5 AIR IS SO FKING GOODDD
Komentar Hacker News
Sangat menyenangkan melihat paper ini membahas hal-hal yang mendalam, tidak seperti tulisan blog pengumuman model yang biasanya sering kita lihat
Tim Zhipu/Tsinghua menjelaskan bukan hanya "apa", tetapi juga "bagaimana" secara rinci, jadi ini sangat menarik terutama bagi orang yang ingin membangun atau memanfaatkan model seperti ini sendiri
Secara khusus, metodologi post-training di Bagian 3 sangat mengesankan
Pendekatan membuat dulu "model pakar" yang terspesialisasi untuk penalaran/agen/chat, lalu mendistilasi kemampuannya ke model terpadu akhir, terasa sangat menarik
Ini merupakan upaya yang jauh lebih sistematis untuk mengatasi keterbatasan model generalis yang hanya setengah-setengah dalam menangani banyak peran
Jadi bukan sekadar mencampur data, melainkan merancang agar model umum belajar dari sekelompok pakar
Salah satu hal menarik dari hasil eksperimen RL adalah bahwa menerapkan RL langsung pada keseluruhan konteks 64K sekaligus ternyata menghasilkan performa lebih baik daripada RL bertahap (lihat Fig 6)
Banyak tim mungkin akan mengira sebaliknya, tetapi hasil nyatanya berbeda
Dan penggunaan template XML untuk format function calling adalah pilihan kecil tapi cerdas yang menghindarkan mereka dari masalah escaping JSON (lihat Fig 4)
Dalam praktik nyata, meng-escape kode di dalam JSON memang sangat merepotkan
Performanya di SWE-bench juga sangat kuat, cukup untuk disejajarkan dengan model yang jauh lebih besar atau model komersial
Hal yang membuat penasaran ke depan adalah apakah metode pelatihan hibrida seperti ini juga akan berhasil di luar evaluasi bergaya ARC
Misalnya, apakah performa agen tetap terjaga dalam workflow kompleks seperti pekerjaan nyata, ketika tidak ada dokumentasi API, error sering terjadi, dan input juga ambigu
Saya juga penasaran apakah tweak post/mid-training seperti ini benar-benar diperlukan untuk pembelajaran domain tertentu yang datanya dan labelnya sudah melimpah serta tervalidasi dengan baik
Ingin tahu apakah tim kecil cukup dengan mengikuti stack pelatihan scale-up terbaru dengan baik, atau apakah tanpa teknik seperti ini hasilnya akan berbeda jauh
Saya khawatir ini terdengar seperti mencari-cari kesalahan, tetapi gaya penulisannya terasa sangat khas LLM
Saya pernah melihat kritik yang sama sebelumnya tautan
Menurut saya, menyoroti hal seperti ini adalah cara untuk menjaga kesehatan lingkungan online
Saya sudah cukup lama memakai model coding GLM-4.5, dan performanya benar-benar luar biasa
Saat menjalankan GLM-4.5 di Octofriend, agen coding yang sedang saya kembangkan, saya bahkan pernah mengiranya sebagai Claude 4
Menurut pengalaman saya, Claude terasa sedikit lebih kuat ketika harus mempertimbangkan seluruh codebase sebagai konteks dan interaksi sistem
Sebaliknya, GLM-4.5 cenderung lebih "jujur", dan tidak terlalu sering melakukan hal seperti Claude yang kadang memperbaiki kode tes untuk diam-diam mengakali masalah
Keduanya sama-sama sangat bagus, tetapi GLM-4.5 pernah menemukan bug yang tidak tertangkap oleh Claude 4 Sonnet maupun 4.1 Opus
Khusus untuk debugging, Claude sedikit lebih sering unggul, tetapi selisihnya tidak besar
Jika dibandingkan dengan GPT-5, baik Claude maupun GLM sama-sama lebih konsisten
GPT-5 kadang menghasilkan sesuatu yang benar-benar mengesankan, tetapi begitu mulai melenceng, sangat sulit dan membuat frustrasi untuk membawanya kembali ke jalur yang benar
Referensi Octofriend: https://github.com/synthetic-lab/octofriend
Setelah melihat komentar ini, saya mencoba menguji GLM-4.5 di Kilocode
Sepanjang hari ini saya mencoba memburu bug sulit di kode compiler dengan Gemini CLI, tetapi tidak berhasil
Namun GLM-4.5 langsung menunjuk inti masalahnya
Gemini CLI hanya mencurigai fungsi yang salah dan berulang kali membuat perbaikan seadanya, padahal ujung-ujungnya bagian itu sama sekali tidak terkait
Fokus GLM-4.5 terhadap masalah memang benar-benar menonjol
Saya juga punya pengalaman bagus memakai GLM-4.5 untuk proyek kecil atau permintaan singkat
Sayangnya, rasanya performanya menurun ketika konteks menjadi panjang, jadi sekarang saya memakainya sebagai cadangan untuk Sonnet 4
Saya menggunakan mode architect di aider
Saya memakainya dengan kombinasi Deepseek R1 (untuk desain tingkat atas) + Qwen3 480B (untuk coding level rendah, atau memakai qwen code API)
Konfigurasi ini bekerja sangat baik
Tingkatnya seperti bisa menyelesaikan 99.99% masalah sendirian
Pemisahan peran di aider masih belum sempurna, jadi saya ingin membuat alat yang memperbaiki workflow ini secara langsung
Saya setuju dengan poin pertama
Saya juga merasa Claude bekerja lebih baik ketika konteksnya banyak, sedangkan GLM-4.5 hasilnya kurang bagus dalam situasi seperti itu
Dalam seri GLM-4.5, saat menghitung jumlah parameter total/aktif, mereka mengecualikan layer embedding dan output, lalu hanya memasukkan layer MTP
Ini sesuai dengan hitungan saya (355B A32B)
Seri GPT OSS memasukkan embedding/output ke parameter total, tetapi untuk parameter aktif hanya memasukkan output
Seri Qwen3 memasukkan embedding dan output ke total maupun aktif
Cara menghitung parameter berbeda-beda antar model, jadi saya penasaran mengapa tidak ada standar dan metode mana yang paling masuk akal
Untuk parameter aktif, parameter unembedding digunakan semuanya pada setiap generasi token, sedangkan embedding hanya memakai satu kolom, jadi perhitungannya perlu mencerminkan karakteristik ini agar hubungan dengan bandwidth dan latensi bisa dipahami dengan benar
Menurut saya, dalam beberapa tahun ke depan, coding dengan model open lokal setingkat Sonnet 4 akan mungkin dilakukan di workstation PC sekitar 2000 dolar
Model cloud saat ini memang berguna, tetapi karena ini adalah alat yang akan menjadi inti dari pengalaman pengembang, saya ingin bisa menjalankannya secara lokal
Menurut saya bukan dua tahun lagi, tetapi akhir tahun ini saja sudah cukup mungkin
Dari sudut pandang open source, model seperti ini wajib ada
Kalau tidak, pengembangan open source sendiri bisa menjadi tidak berkelanjutan
Bahkan saya lebih berharap dalam 2 tahun kita bisa mendapatkan performa di atas Sonnet 4 pada PC seharga 2 ribu dolar
Rasanya ini adalah model open pertama yang benar-benar bisa dibandingkan hampir setara dengan model frontier komersial yang ada
Dari efisiensi parameternya saja sudah terlihat ada inovasi nyata dalam metode pelatihan
Saya juga penasaran dengan hasil verifikasi performa independen di Aider LLM Leaderboard
Bagi yang seperti saya ingin mulai dari membaca abstrak paper, ini tautannya https://www.arxiv.org/abs/2508.06471
Fakta bahwa ini juga dirilis dengan lisensi Apache membuatnya makin keren
Sangat menyenangkan melihat model open source terus menantang batasannya
Ada begitu banyak hal yang diamati dalam paper ini sampai rasanya masing-masing bisa jadi paper tersendiri
Khususnya, pengalamannya terkait proses pelatihan serta pengumpulan/sintesis data sangat kaya
Apakah ada yang tahu apakah para penulisnya pernah menulis paper keren lain dengan tingkat kualitas serupa sebelumnya?
Metrik grafik di paper ini membingungkan
Pada gambar pertama, skor swebench Sonnet 4 terlihat sekitar 53, tetapi setelah itu mendekati 70
Nilai sebenarnya lebih dekat ke 70 referensi
Saya penasaran mengapa Qwen3 tidak ada di benchmark coding, tetapi dimasukkan di benchmark lainnya
Qwen3-Coder disertakan di Section 4.3.2
Qwen masih belum matang dalam memahami codebase skala besar