GLM-5.2, menjadi model open-weight peringkat 1 di Artificial Analysis
(artificialanalysis.ai)- GLM-5.2 dari Z ai mencatat skor 51 pada Artificial Analysis Intelligence Index v4.1, menjadikannya pemimpin di antara model open-weight, dan juga berada di Pareto frontier untuk performa dibanding biaya
- Ukuran modelnya sama dengan GLM-5.1, yaitu 744B total / 40B parameter aktif, tetapi skornya 11 poin lebih tinggi sehingga melampaui MiniMax-M3, DeepSeek V4 Pro(max), dan Kimi K2.6
- Besarnya peningkatan terlihat di sebagian besar evaluasi, terutama kenaikan yang menonjol pada CritPt dan HLE di area penalaran ilmiah
- Pada GDPval-AA v2, model ini mencetak 1524 poin, melampaui MiniMax-M3 dan DeepSeek V4 Pro(max), serta berada di level yang mirip dengan GPT-5.5(xhigh reasoning)
- Model ini menggunakan 43k output token per tugas sehingga efisiensi tokennya tergolong rendah, tetapi biaya per tugasnya termasuk yang paling rendah di antara model dengan tingkat kecerdasan serupa
Memimpin open-weight di Intelligence Index v4.1
- GLM-5.2 mencatat skor 51 pada Artificial Analysis Intelligence Index v4.1 dan naik ke peringkat 1 di antara model open-weight
- Skor model open-weight utama adalah sebagai berikut
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
- GLM-5.2 memiliki skala 744B total parameter / 40B parameter aktif yang sama dengan GLM-5.1, tetapi skornya di Intelligence Index v4.1 lebih tinggi 11 poin
Peningkatan performa per evaluasi
- GLM-5.2 mengalami kenaikan skor di sebagian besar evaluasi dibanding GLM-5.1
- Peningkatannya sangat besar khususnya pada evaluasi terkait penalaran ilmiah
- CritPt: +16 poin, 21%
- HLE: +12 poin, 40%
- GPQA Diamond: +3 poin, 89%
- Evaluasi lain juga menunjukkan peningkatan yang merata
- AA-LCR: +9 poin, 71%
- tau3 banking: +15 poin, 27%
- SciCode: +7 poin, 50%
- TerminalBench v2.1: +16 poin, 78%
GDPval-AA v2 dan performa agen
- GLM-5.2 mencatat 1524 poin pada GDPval-AA v2, metrik performa agen di dunia nyata
- Dalam perbandingan model open-weight, ini adalah skor tertinggi
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
- Hasil ini pada dasarnya berada di level yang mirip dengan GPT-5.5(xhigh reasoning) yang mencatat 1514 poin
- GDPval-AA v2 mengubah metode evaluasi dari GDPval-AA sebelumnya
- Menetapkan baseline Elo ke performa manusia 1000
- Memperkenalkan panel bergilir dari frontier-model judge
- Menaikkan batas giliran dari 100 menjadi 250 untuk menangani trajektori agen yang lebih panjang
Biaya, harga, dan penggunaan token
- GLM-5.2 berada di Pareto frontier pada grafik Intelligence vs Cost per Task, dan termasuk yang paling murah per tugas di antara model dengan tingkat kecerdasan serupa
- Biaya per tugasnya lebih tinggi daripada GLM-5.1, tetapi jika mempertimbangkan skor Intelligence yang lebih tinggi, posisinya lebih menguntungkan dari sisi biaya-performa
- GLM-5.2: sekitar $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
- Harga first-party API sama dengan GLM-5.1
- $1.4 per 1M input token
- $4.4 per 1M output token
- $0.26 per 1M cache hit token
- Model ini menggunakan 43k output token per tugas Intelligence Index, dan 37k di antaranya adalah token reasoning
- Penggunaan output tokennya tergolong lebih tinggi daripada model open-weight utama lainnya
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
- Di antara model open-weight dengan tingkat kecerdasan serupa, efisiensi tokennya tergolong rendah, dan model ini tidak masuk kuadran yang paling menarik pada grafik Intelligence vs Output Tokens
Detail model dan aksesibilitas
- Lisensi GLM-5.2 adalah MIT
- Context window-nya 1M token, naik dari 200K pada GLM-5.1
- Model ini dapat digunakan melalui first-party API milik Z ai dan berbagai penyedia third-party
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- GLM-5.2 mencatat 4 poin pada AA-Omniscience Index, lebih tinggi dari 2 poin milik GLM-5.1
- Akurasinya 25.1%, lebih tinggi dari 24.2% pada GLM-5.1
- hallucination rate-nya 28.1%, lebih rendah dari 29.4% pada GLM-5.1
- attempt rate-nya 47%, sama seperti sebelumnya
- Perbandingan model dapat dilihat di halaman GLM-5.2 milik Artificial Analysis
-
1 komentar
Komentar Hacker News
Ini peningkatan satu tingkat yang cukup bagus dan tampaknya sudah mendekati garis depan, tetapi sekarang saya ingin mereka lebih fokus pada efisiensi penalaran
Saya memakai tes yang menyuruh model menulis library evaluasi ekspresi sederhana dalam Nim untuk evaluasi LLM, dan GLM 5.2 xhigh menalar lebih dari 15 menit serta memakai sekitar 45k token sebelum menulis file pertama
Menurut https://artificialanalysis.ai/#output-tokens, GPT 5.5 xhigh rata-rata total memakai 16k token, high 10k, Fable 5 33k, Opus 4.8 41k, dan GLM 5.2 42k, jadi efisiensi penalaran GPT 5.5 jauh lebih unggul
Jika dikonversi ke biaya permintaan nyata, GLM 5.2 memang akan lebih murah daripada GPT 5.5/Opus 4.8, tetapi bagi banyak orang kecepatan juga penting
Kalau ingin penggunaan token yang masuk akal, GLM 5.2 harus dijalankan di mode High, dan untuk sebagian besar tugas, turun dari Max ke High hanya sedikit menurunkan kualitas tetapi mengurangi penggunaan token 2~2,5 kali
Pada akhirnya GLM 5.2 terasa seperti adik dari Opus 4.8 yang jauh lebih murah, sampai muncul lelucon bahwa sulit dipercaya model Opus sama sekali tidak ikut dipakai dalam pelatihannya
Secara pribadi kombinasi GLM + OpenCode yang saya pakai jauh lebih baik daripada Claude Code + Opus yang harus saya gunakan di kantor, jauh lebih jarang membuat kesalahan pemula ala StackOverflow, dan lebih baik mengikuti instruksi
Pengalaman pengguna di harness juga jauh lebih unggul karena tidak mengabaikan konfigurasi, tidak mengubahnya seenaknya, dan tidak salah melaporkan, jadi moat Anthropic tampaknya cepat menghilang
Ujung-ujungnya saya menghentikannya dan berkata, “tulis saja kodenya dulu, selesaikan sambil jalan”, rasanya seperti writer’s block juga ada pada LLM
Menurut Artificial Analysis, K2.7 Code mirip dengan K2.6 dari sisi kecerdasan, tetapi hanya memakai setengah token output untuk mencapai tingkat yang sama
Saya membuat skrip yang memberi peringkat model berdasarkan codingindex dari Artificial Analysis dan memakainya setiap hari
Skrip itu mengambil JSON dari halaman tabel utama lalu mem-parsing hanya field terkait coding yang saya minati; dulu ada juga mailing list, tetapi karena saya tidak terlalu tertarik, saya matikan
Saat ini pada beberapa hasil, peringkat atas diisi Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max, dan lain-lain; eksekusinya bisa lewat
$ curl day50.dev/art-analysis.sh | bashRepositorinya ada di https://github.com/day50-dev/aa-eval-email, dan saat ini model terbuka tampak tertinggal sekitar 4~7 bulan tergantung metode pengukuran; kalau tren ini berlanjut, sebelum tahun baru model open-weight bisa saja mampu menangani pekerjaan setingkat Claude Fable 5
Mereka menempatkan Gemma 4 31B di atas DeepSeek V4 Flash, tetapi setelah memakai keduanya untuk berbagai tugas coding, saya akan memilih DeepSeek setiap kali
Saya tidak tahu kenapa lebih banyak orang tidak membicarakan ini
Praktis menawarkan kualitas setara Opus 4.7 dengan harga yang konyol murah; ada juga tempat yang memberi token tak terbatas seharga $50 per bulan, dan ada yang mengenakan biaya API 3 kali lebih rendah daripada API resmi ZAI
Bahkan API resmi ZAI sendiri sekitar 10 kali lebih murah daripada Opus, jadi ini pukulan besar bagi Anthropic/OpenAI/Google dan kemenangan besar bagi seluruh dunia; untuk model terbuka, harga dan kecepatan API resmi bukan segalanya
Mungkin saja GLM 5.2 mendekati Opus 4.7, tetapi kalau setiap kali saya cek ternyata masih cuma optimasi benchmark dan belum setara GPT atau Opus, saya jadi menganggapnya seperti cerita “serigala datang”
Mereka sering salah mengonfigurasi model atau diam-diam melakukan kuantisasi, dan selama beberapa waktu ada selisih 20~40% antara Kimi di API resmi dan kebanyakan penyedia pihak ketiga
Saya penasaran API mana yang 3 kali lebih murah itu, lalu menemukan tarif 8-bit Croft sebesar $0.50/$0.08/$2.20
https://openrouter.ai/z-ai/glm-5.2
https://ai.nahcrof.com/pricing
Sulit bahkan untuk mencari tahu cara menjalankan model-model ini, tidak ada installer, dan kalau Anda bukan 1% orang yang benar-benar tertarik, Anda akan mencari panduan lalu sadar bahwa panduan itu pun sudah usang
Dibandingkan dengan “pasang Claude Code dan bayar $100 per bulan”, kurva belajarnya terlalu curam, dan penghematan $50 per bulan terasa kecil dibanding usaha yang dibutuhkan
Murni karena itu disesuaikan untuk kalangan non-engineer di lingkungan enterprise
Pada benchmark coding Artificial Analysis, GLM 5.1 high cukup dekat dengan GPT 5.5 xhigh dari sisi biaya eksekusi, dan GPT 5.5 medium jauh lebih murah
Dibandingkan GPT 5.5 medium, GLM 5.1 xhigh memiliki biaya dua kali lipat tetapi kecerdasannya hanya sekitar setengahnya, jadi bahkan tanpa GLM 5.2 pun masih ada kesenjangan besar yang harus ditutup
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE juga sangat sesuai dengan pengalaman pribadi saya, jadi saya meragukan seberapa pantas hiruk-pikuk internet soal model terbuka itu
Jika menginginkan model yang mendekati garis depan, saat ini lebih jujur untuk menyebut Opus, Fable, dan GPT5.5
https://z.ai/blog/glm-5.2
Langganan OpenAI, Google, dan Anthropic tidak punya opsi privasi seperti itu, dan menarik juga bahwa jika melihat tautannya, GPT 5.5 berada di peringkat 7 di Cursor CLI tetapi naik ke peringkat 3 di Codex CLI
Karena model terbuka tidak diuji di Codex, sulit untuk menyimpulkan ini sebagai benchmark model murni, dan bisa saja model terbuka memang lemah pada harness agen SWE, tetapi itu tampaknya bukan penjelasan yang paling sederhana
Dengan metrik itu, GPT-5.5 masih menjadi raja dalam efisiensi token, kecepatan, dan kecerdasan per dolar
https://deepswe.datacurve.ai/
Fable 5 juga bagus, tetapi saya masih belum melihat GPT-5.6
Itu mudah menjadi 4 kali lebih mahal daripada DeepSeek V4, tetapi saya tidak merasa hasilnya sebanding lebih baik, dan saat ditinjau kemudian dengan GPT 5.5 in Codex, masih ada banyak bagian yang berantakan
Dari sisi efektivitas biaya, MiniMax M3 terasa lebih baik
Cukup mengejutkan bahwa GLM 5.1/5.2 bukan model vision
Saat ini itu sudah cukup jarang, dan model OpenAI/Anthropic/Gemini semuanya sudah menerima gambar, sementara lini open-weight utama seperti Gemma 4, Qwen 3.6, dan Kimi 2.x juga mendukung input gambar
GLM adalah model dengan skor tinggi untuk tugas seperti desain web, jadi jika ada input gambar, itu akan berguna untuk menerima screenshot lalu menghasilkan HTML+CSS, dan jelas ada celah di bagian itu
Tidak harus ada “satu model yang melakukan semuanya”
Gemma 31B cukup bagus untuk tugas vision, dan 1500 permintaan per hari pada praktiknya nyaris tak terbatas
Mungkin ada kegunaan seperti pekerjaan UX/UI, tetapi selain itu tidak terlalu perlu, dan bahkan model garis depan pun tidak benar-benar bisa mereplikasi gambar nyata; dari pengalaman pribadi saya, mereka hanya bisa mendekatinya
Rasanya akan lebih berguna kalau itu model vision
Saya sudah cukup banyak memakai model ini selama 24 jam terakhir, dan saya memang memastikan bahwa model ini sangat kompeten
Hanya saja agak bertele-tele, dan saya melihat dalam jejak penalarannya ia meninjau ulang 3–4 kali sebelum menentukan arah, serta kemampuan menangani kebutuhan yang kompleks dan abstrak belum setara GPT5.5
Meski begitu, sampai-sampai saya bisa merekomendasikan kombinasi langganan Z.AI + langganan OpenAI 20 dolar per bulan untuk kebanyakan orang, dan alur kerja GLM menulis lalu GPT me-review/debug terasa hampir tak terbatas dengan hanya sedikit lebih buruk dibanding memakai GPT saja di paket 200 dolar per bulan
Mungkin itu penyebab ia bertele-tele
Jika Anda bisa pemrograman, saya rasa kita sekarang sudah sampai pada tahap di mana kita bisa memberi model cukup informasi agar melakukan pekerjaan yang dibutuhkan
Sebaliknya, menulis punya terlalu banyak nuansa sehingga model masih sangat kesulitan, tetapi memang terus membaik
Sekali sehari saya menyalin kode ke Claude Sonnet gratis agar hasilnya benar-benar jadi enak dibaca
Memang benar Opus 4.8 adalah agen coding yang lebih kuat, berhasil di tempat DeepSeek 4.0 atau Kimi 2.7 goyah dan gagal, tetapi hiasan retoris dalam gaya percakapannya makin mengganggu, dan kadang terasa sengaja berbicara ambigu atau menahan kebenaran sampai ditekan, sehingga membuat saya berpikir ulang soal langganannya
GLM 5.2 adalah model pertama yang kami uji yang jelas setara atau lebih baik dari Opus 4.6
Namun, dibanding benchmark lain yang memakai metodologi pengujian yang rapuh, kami menilai GLM 5.2 dan sebagian besar model Tiongkok sedikit lebih rendah
Datanya ada di https://gertlabs.com/rankings
Saya tidak terlalu tahu cara menjalankan model seperti ini, tetapi saya penasaran seberapa dekat waktunya sampai perusahaan menengah dan besar mulai membeli hardware untuk menempatkan model secara lokal
Memang mahal dan tidak sekompeten model paling mutakhir, tetapi keunggulannya cukup besar dari sisi privasi dan kendali
Ini mulai benar-benar berjalan sejak sekitar era Kimi K2, tetapi membeli dan meng-host hardware semacam itu butuh waktu
Tidak semua perusahaan ingin mengirim rahasia dagang mereka ke OpenAI atau Anthropic, dan ada juga yang secara hukum memang tidak boleh melakukannya
Pada masa model visi yang bagus seperti AlexNet mulai muncul, khususnya juga di OCR, perusahaan harus memilih antara cloud dan hosting GPU sendiri
Pada akhirnya masalahnya adalah pola penggunaan: pemakaian menumpuk pada jam kerja tertentu, sementara di luar itu GPU menganggur
Untuk pekerjaan yang sensitif terhadap latensi, ini adalah trade-off yang sudah ada selama puluhan tahun, dan bukan masalah yang khusus pada LLM
Sepertinya perlu perusahaan menengah yang benar-benar bertekad kuat untuk menjalankannya
Untuk menelusuri teks dalam jumlah besar saat discovery, tidak perlu model papan atas, tetapi kerahasiaan total memang dibutuhkan
Di r/localllama cukup banyak pengacara yang memamerkan build multi-GPU, dan kebetulan mereka juga punya dana yang diperlukan
Disebutkan bahwa “GLM-5.2 berada di pareto frontier biaya per tugas terhadap kecerdasan, dan memiliki biaya per tugas terendah di antara model dengan tingkat kecerdasan yang sama”, tetapi di saat yang sama tertulis GLM-5.2 sekitar $0.46 per tugas, sementara GLM-5.1 $0.25, Kimi K2.6 $0.31, MiniMax-M3 $0.18, dan DeepSeek V4 Pro max $0.05, jadi rasanya seperti ada sesuatu yang terlewat
Alih-alih memilih model lain yang dekat dengan 5.2 pada metrik kecerdasan, tampaknya mereka memilih beberapa model terbuka yang posisinya lebih di bawah
Untuk biaya inferensi, total parameter dan parameter aktif adalah ukuran yang lebih baik
Setelah melihat Mythos, saya menambahkan GLM 5.2 ke benchmark berbasis bug; hasilnya memang lebih baik daripada GLM 5.1, tetapi masih tertinggal dari banyak model lain, dan pembanding yang paling langsung tampaknya adalah Qwen 3.7 Max
Model terbuka kecil yang bisa di-host sendiri seperti Gemma 4 dan Qwen 3.6 juga menemukan jumlah bug yang sama, yaitu 3 dari 9, dan GLM 5.2 memang menebak lokasi satu bug dengan benar tetapi agak salah memahami bug itu sendiri sehingga hanya mendapat skor parsial
Kimi K2.7-code yang saya tambahkan dalam run yang sama juga tidak konsisten bagus seperti performa 2.6, dan untuk benchmark khusus ini ada model lain yang lebih baik dan lebih murah
https://swelljoe.com/post/will-it-mythos/
Benchmark kecil ini memang tidak membuktikan apa-apa, tetapi berguna untuk cepat mengukur apakah model bisa bernalar tentang masalah yang cukup kompleks di dalam kode