GLM-5.2, menjadi model open-weight peringkat 1 di Artificial Analysis

(artificialanalysis.ai)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

GLM-5.2 dari Z ai mencatat skor 51 pada Artificial Analysis Intelligence Index v4.1, menjadikannya pemimpin di antara model open-weight, dan juga berada di Pareto frontier untuk performa dibanding biaya
Ukuran modelnya sama dengan GLM-5.1, yaitu 744B total / 40B parameter aktif, tetapi skornya 11 poin lebih tinggi sehingga melampaui MiniMax-M3, DeepSeek V4 Pro(max), dan Kimi K2.6
Besarnya peningkatan terlihat di sebagian besar evaluasi, terutama kenaikan yang menonjol pada CritPt dan HLE di area penalaran ilmiah
Pada GDPval-AA v2, model ini mencetak 1524 poin, melampaui MiniMax-M3 dan DeepSeek V4 Pro(max), serta berada di level yang mirip dengan GPT-5.5(xhigh reasoning)
Model ini menggunakan 43k output token per tugas sehingga efisiensi tokennya tergolong rendah, tetapi biaya per tugasnya termasuk yang paling rendah di antara model dengan tingkat kecerdasan serupa

Memimpin open-weight di Intelligence Index v4.1

GLM-5.2 mencatat skor 51 pada Artificial Analysis Intelligence Index v4.1 dan naik ke peringkat 1 di antara model open-weight
Skor model open-weight utama adalah sebagai berikut
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
GLM-5.2 memiliki skala 744B total parameter / 40B parameter aktif yang sama dengan GLM-5.1, tetapi skornya di Intelligence Index v4.1 lebih tinggi 11 poin

Peningkatan performa per evaluasi

GLM-5.2 mengalami kenaikan skor di sebagian besar evaluasi dibanding GLM-5.1
Peningkatannya sangat besar khususnya pada evaluasi terkait penalaran ilmiah
- CritPt: +16 poin, 21%
- HLE: +12 poin, 40%
- GPQA Diamond: +3 poin, 89%
Evaluasi lain juga menunjukkan peningkatan yang merata
- AA-LCR: +9 poin, 71%
- tau3 banking: +15 poin, 27%
- SciCode: +7 poin, 50%
- TerminalBench v2.1: +16 poin, 78%

GDPval-AA v2 dan performa agen

GLM-5.2 mencatat 1524 poin pada GDPval-AA v2, metrik performa agen di dunia nyata
Dalam perbandingan model open-weight, ini adalah skor tertinggi
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
Hasil ini pada dasarnya berada di level yang mirip dengan GPT-5.5(xhigh reasoning) yang mencatat 1514 poin
GDPval-AA v2 mengubah metode evaluasi dari GDPval-AA sebelumnya
- Menetapkan baseline Elo ke performa manusia 1000
- Memperkenalkan panel bergilir dari frontier-model judge
- Menaikkan batas giliran dari 100 menjadi 250 untuk menangani trajektori agen yang lebih panjang

Biaya, harga, dan penggunaan token

GLM-5.2 berada di Pareto frontier pada grafik Intelligence vs Cost per Task, dan termasuk yang paling murah per tugas di antara model dengan tingkat kecerdasan serupa
Biaya per tugasnya lebih tinggi daripada GLM-5.1, tetapi jika mempertimbangkan skor Intelligence yang lebih tinggi, posisinya lebih menguntungkan dari sisi biaya-performa
- GLM-5.2: sekitar $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
Harga first-party API sama dengan GLM-5.1
- $1.4 per 1M input token
- $4.4 per 1M output token
- $0.26 per 1M cache hit token
Model ini menggunakan 43k output token per tugas Intelligence Index, dan 37k di antaranya adalah token reasoning
Penggunaan output tokennya tergolong lebih tinggi daripada model open-weight utama lainnya
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
Di antara model open-weight dengan tingkat kecerdasan serupa, efisiensi tokennya tergolong rendah, dan model ini tidak masuk kuadran yang paling menarik pada grafik Intelligence vs Output Tokens

Detail model dan aksesibilitas

Lisensi GLM-5.2 adalah MIT
Context window-nya 1M token, naik dari 200K pada GLM-5.1
Model ini dapat digunakan melalui first-party API milik Z ai dan berbagai penyedia third-party
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2 mencatat 4 poin pada AA-Omniscience Index, lebih tinggi dari 2 poin milik GLM-5.1
  - Akurasinya 25.1%, lebih tinggi dari 24.2% pada GLM-5.1
  - hallucination rate-nya 28.1%, lebih rendah dari 29.4% pada GLM-5.1
  - attempt rate-nya 47%, sama seperti sebelumnya
  - Perbandingan model dapat dilihat di halaman GLM-5.2 milik Artificial Analysis

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Ini peningkatan satu tingkat yang cukup bagus dan tampaknya sudah mendekati garis depan, tetapi sekarang saya ingin mereka lebih fokus pada efisiensi penalaran
Saya memakai tes yang menyuruh model menulis library evaluasi ekspresi sederhana dalam Nim untuk evaluasi LLM, dan GLM 5.2 xhigh menalar lebih dari 15 menit serta memakai sekitar 45k token sebelum menulis file pertama
Menurut https://artificialanalysis.ai/#output-tokens, GPT 5.5 xhigh rata-rata total memakai 16k token, high 10k, Fable 5 33k, Opus 4.8 41k, dan GLM 5.2 42k, jadi efisiensi penalaran GPT 5.5 jauh lebih unggul
Jika dikonversi ke biaya permintaan nyata, GLM 5.2 memang akan lebih murah daripada GPT 5.5/Opus 4.8, tetapi bagi banyak orang kecepatan juga penting
- GLM 5.2 Max tampaknya memiliki pola berpikir yang sama dengan Opus 4.8 Max, dan chain-of-thought serta penggunaan token output-nya juga sangat mirip
  Kalau ingin penggunaan token yang masuk akal, GLM 5.2 harus dijalankan di mode High, dan untuk sebagian besar tugas, turun dari Max ke High hanya sedikit menurunkan kualitas tetapi mengurangi penggunaan token 2~2,5 kali
  Pada akhirnya GLM 5.2 terasa seperti adik dari Opus 4.8 yang jauh lebih murah, sampai muncul lelucon bahwa sulit dipercaya model Opus sama sekali tidak ikut dipakai dalam pelatihannya
- Menurut saya ini bukan sekadar “mendekati garis depan”, tapi sudah melampauinya
  Secara pribadi kombinasi GLM + OpenCode yang saya pakai jauh lebih baik daripada Claude Code + Opus yang harus saya gunakan di kantor, jauh lebih jarang membuat kesalahan pemula ala StackOverflow, dan lebih baik mengikuti instruksi
  Pengalaman pengguna di harness juga jauh lebih unggul karena tidak mengabaikan konfigurasi, tidak mengubahnya seenaknya, dan tidak salah melaporkan, jadi moat Anthropic tampaknya cepat menghilang
- Di Opus juga ada masalah serupa: terlalu lama berpikir lalu mengulang-ulang “sebentar, bagaimana kalau...”
  Ujung-ujungnya saya menghentikannya dan berkata, “tulis saja kodenya dulu, selesaikan sambil jalan”, rasanya seperti writer’s block juga ada pada LLM
- Ini mengingatkan saya pada https://en.wikipedia.org/wiki/Portia_(spider)
- Saya berharap pekerjaan terbaru Moonshot di Kimi K2.7 Code menyebar juga ke lab model terbuka lain
  Menurut Artificial Analysis, K2.7 Code mirip dengan K2.6 dari sisi kecerdasan, tetapi hanya memakai setengah token output untuk mencapai tingkat yang sama
Saya membuat skrip yang memberi peringkat model berdasarkan codingindex dari Artificial Analysis dan memakainya setiap hari
Skrip itu mengambil JSON dari halaman tabel utama lalu mem-parsing hanya field terkait coding yang saya minati; dulu ada juga mailing list, tetapi karena saya tidak terlalu tertarik, saya matikan
Saat ini pada beberapa hasil, peringkat atas diisi Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max, dan lain-lain; eksekusinya bisa lewat $ curl day50.dev/art-analysis.sh | bash
Repositorinya ada di https://github.com/day50-dev/aa-eval-email, dan saat ini model terbuka tampak tertinggal sekitar 4~7 bulan tergantung metode pengukuran; kalau tren ini berlanjut, sebelum tahun baru model open-weight bisa saja mampu menangani pekerjaan setingkat Claude Fable 5
- Indeks coding Artificial Analysis hanya terdiri dari dua benchmark, Terminal-Bench Hard dan SciCode, jadi saya ragu apakah itu benar-benar indeks coding yang baik
  Mereka menempatkan Gemma 4 31B di atas DeepSeek V4 Flash, tetapi setelah memakai keduanya untuk berbagai tugas coding, saya akan memilih DeepSeek setiap kali
- Proyek yang keren, tetapi meminta orang langsung menjalankan Bash dari sumber yang tidak jelas menurut saya adalah praktik yang cukup buruk
Saya tidak tahu kenapa lebih banyak orang tidak membicarakan ini
Praktis menawarkan kualitas setara Opus 4.7 dengan harga yang konyol murah; ada juga tempat yang memberi token tak terbatas seharga $50 per bulan, dan ada yang mengenakan biaya API 3 kali lebih rendah daripada API resmi ZAI
Bahkan API resmi ZAI sendiri sekitar 10 kali lebih murah daripada Opus, jadi ini pukulan besar bagi Anthropic/OpenAI/Google dan kemenangan besar bagi seluruh dunia; untuk model terbuka, harga dan kecepatan API resmi bukan segalanya
- Saya sudah beberapa kali memakai model terbuka dari Tiongkok; memang lumayan, tetapi tidak sampai ke level benchmark yang mereka klaim
  Mungkin saja GLM 5.2 mendekati Opus 4.7, tetapi kalau setiap kali saya cek ternyata masih cuma optimasi benchmark dan belum setara GPT atau Opus, saya jadi menganggapnya seperti cerita “serigala datang”
- Penyedia tidak resmi perlu diwaspadai
  Mereka sering salah mengonfigurasi model atau diam-diam melakukan kuantisasi, dan selama beberapa waktu ada selisih 20~40% antara Kimi di API resmi dan kebanyakan penyedia pihak ketiga
- Kalau melihat OpenRouter, beberapa opsi yang lebih murah adalah model terkuantisasi, dan belum jelas seberapa besar penurunan kecerdasan akibat kuantisasi
  Saya penasaran API mana yang 3 kali lebih murah itu, lalu menemukan tarif 8-bit Croft sebesar $0.50/$0.08/$2.20
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- Pilihannya terlalu banyak, dan dari sudut pandang manusia, mengikuti semuanya sendiri saja sudah mahal secara komputasional
  Sulit bahkan untuk mencari tahu cara menjalankan model-model ini, tidak ada installer, dan kalau Anda bukan 1% orang yang benar-benar tertarik, Anda akan mencari panduan lalu sadar bahwa panduan itu pun sudah usang
  Dibandingkan dengan “pasang Claude Code dan bayar $100 per bulan”, kurva belajarnya terlalu curam, dan penghematan $50 per bulan terasa kecil dibanding usaha yang dibutuhkan
- Di organisasi kami, semua orang terlalu terpaku pada Claude, sampai-sampai bertindak seolah itu satu-satunya LLM yang ada
  Murni karena itu disesuaikan untuk kalangan non-engineer di lingkungan enterprise
Pada benchmark coding Artificial Analysis, GLM 5.1 high cukup dekat dengan GPT 5.5 xhigh dari sisi biaya eksekusi, dan GPT 5.5 medium jauh lebih murah
Dibandingkan GPT 5.5 medium, GLM 5.1 xhigh memiliki biaya dua kali lipat tetapi kecerdasannya hanya sekitar setengahnya, jadi bahkan tanpa GLM 5.2 pun masih ada kesenjangan besar yang harus ditutup
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE juga sangat sesuai dengan pengalaman pribadi saya, jadi saya meragukan seberapa pantas hiruk-pikuk internet soal model terbuka itu
Jika menginginkan model yang mendekati garis depan, saat ini lebih jujur untuk menyebut Opus, Fable, dan GPT5.5
- Dalam pengujian internal Z.ai, GLM 5.2 mendapat 46.2 poin di DeepSWE, dan posisinya berada di antara Opus 4.7 xhigh dan Opus 4.8 medium
  https://z.ai/blog/glm-5.2
- Jika memakai model terbuka, Anda bisa mendapat langganan yang menjaga privasi dengan biaya yang sama seperti Codex
  Langganan OpenAI, Google, dan Anthropic tidak punya opsi privasi seperti itu, dan menarik juga bahwa jika melihat tautannya, GPT 5.5 berada di peringkat 7 di Cursor CLI tetapi naik ke peringkat 3 di Codex CLI
  Karena model terbuka tidak diuji di Codex, sulit untuk menyimpulkan ini sebagai benchmark model murni, dan bisa saja model terbuka memang lemah pada harness agen SWE, tetapi itu tampaknya bukan penjelasan yang paling sederhana
- DeepSWE terasa seperti benchmark yang lebih “tepat” dibanding indeks Artificial Analysis atau benchmark coding lainnya
  Dengan metrik itu, GPT-5.5 masih menjadi raja dalam efisiensi token, kecepatan, dan kecerdasan per dolar
  https://deepswe.datacurve.ai/
  Fable 5 juga bagus, tetapi saya masih belum melihat GPT-5.6
- Kemarin saya mencoba GLM 5.2 di OpenRouter, dan secara umum cukup bagus, tetapi selama 30 menit pekerjaan yang relatif lambat, biaya tokennya mencapai 5 dolar
  Itu mudah menjadi 4 kali lebih mahal daripada DeepSeek V4, tetapi saya tidak merasa hasilnya sebanding lebih baik, dan saat ditinjau kemudian dengan GPT 5.5 in Codex, masih ada banyak bagian yang berantakan
  Dari sisi efektivitas biaya, MiniMax M3 terasa lebih baik
Cukup mengejutkan bahwa GLM 5.1/5.2 bukan model vision
Saat ini itu sudah cukup jarang, dan model OpenAI/Anthropic/Gemini semuanya sudah menerima gambar, sementara lini open-weight utama seperti Gemma 4, Qwen 3.6, dan Kimi 2.x juga mendukung input gambar
GLM adalah model dengan skor tinggi untuk tugas seperti desain web, jadi jika ada input gambar, itu akan berguna untuk menerima screenshot lalu menghasilkan HTML+CSS, dan jelas ada celah di bagian itu
- Anda bisa mengatur sub-agen di harness coding agar untuk tugas seperti itu ia membuka sub-sesi baru dengan model vision apa pun, lalu memasukkan hasilnya kembali ke model utama
  Tidak harus ada “satu model yang melakukan semuanya”
- Saya memakai Google AI Studio sebagai jembatan vision gratis
  Gemma 31B cukup bagus untuk tugas vision, dan 1500 permintaan per hari pada praktiknya nyaris tak terbatas
- Ini tidak terlihat sebagai celah yang terlalu besar
  Mungkin ada kegunaan seperti pekerjaan UX/UI, tetapi selain itu tidak terlalu perlu, dan bahkan model garis depan pun tidak benar-benar bisa mereplikasi gambar nyata; dari pengalaman pribadi saya, mereka hanya bisa mendekatinya
- Reaksinya juga sama pada DeepSeek V4
  Rasanya akan lebih berguna kalau itu model vision
Saya sudah cukup banyak memakai model ini selama 24 jam terakhir, dan saya memang memastikan bahwa model ini sangat kompeten
Hanya saja agak bertele-tele, dan saya melihat dalam jejak penalarannya ia meninjau ulang 3–4 kali sebelum menentukan arah, serta kemampuan menangani kebutuhan yang kompleks dan abstrak belum setara GPT5.5
Meski begitu, sampai-sampai saya bisa merekomendasikan kombinasi langganan Z.AI + langganan OpenAI 20 dolar per bulan untuk kebanyakan orang, dan alur kerja GLM menulis lalu GPT me-review/debug terasa hampir tak terbatas dengan hanya sedikit lebih buruk dibanding memakai GPT saja di paket 200 dolar per bulan
- Hari ini saya baru tahu bahwa kekuatan penalaran default disetel ke max
  Mungkin itu penyebab ia bertele-tele
- Hal yang paling penting bagi saya saat ini adalah seberapa baik model menulis
  Jika Anda bisa pemrograman, saya rasa kita sekarang sudah sampai pada tahap di mana kita bisa memberi model cukup informasi agar melakukan pekerjaan yang dibutuhkan
  Sebaliknya, menulis punya terlalu banyak nuansa sehingga model masih sangat kesulitan, tetapi memang terus membaik
- Workflow saya juga seperti itu
  Sekali sehari saya menyalin kode ke Claude Sonnet gratis agar hasilnya benar-benar jadi enak dibaca
- Setelah merasakan Fable 5, Opus 4.8 pun terasa tidak lagi cukup
  Memang benar Opus 4.8 adalah agen coding yang lebih kuat, berhasil di tempat DeepSeek 4.0 atau Kimi 2.7 goyah dan gagal, tetapi hiasan retoris dalam gaya percakapannya makin mengganggu, dan kadang terasa sengaja berbicara ambigu atau menahan kebenaran sampai ditekan, sehingga membuat saya berpikir ulang soal langganannya
GLM 5.2 adalah model pertama yang kami uji yang jelas setara atau lebih baik dari Opus 4.6
Namun, dibanding benchmark lain yang memakai metodologi pengujian yang rapuh, kami menilai GLM 5.2 dan sebagian besar model Tiongkok sedikit lebih rendah
Datanya ada di https://gertlabs.com/rankings
Saya tidak terlalu tahu cara menjalankan model seperti ini, tetapi saya penasaran seberapa dekat waktunya sampai perusahaan menengah dan besar mulai membeli hardware untuk menempatkan model secara lokal
Memang mahal dan tidak sekompeten model paling mutakhir, tetapi keunggulannya cukup besar dari sisi privasi dan kendali
- Sejumlah perusahaan di Eropa sudah melakukan ini selama beberapa waktu dengan model 70B, dan kini sedang meng-upgrade hardware untuk menjalankan model baru di kelas 700B~1T
  Ini mulai benar-benar berjalan sejak sekitar era Kimi K2, tetapi membeli dan meng-host hardware semacam itu butuh waktu
  Tidak semua perusahaan ingin mengirim rahasia dagang mereka ke OpenAI atau Anthropic, dan ada juga yang secara hukum memang tidak boleh melakukannya
- Ini bukan situasi yang baru
  Pada masa model visi yang bagus seperti AlexNet mulai muncul, khususnya juga di OCR, perusahaan harus memilih antara cloud dan hosting GPU sendiri
  Pada akhirnya masalahnya adalah pola penggunaan: pemakaian menumpuk pada jam kerja tertentu, sementara di luar itu GPU menganggur
  Untuk pekerjaan yang sensitif terhadap latensi, ini adalah trade-off yang sudah ada selama puluhan tahun, dan bukan masalah yang khusus pada LLM
- Karena ini model sekitar 750B, kebutuhan VRAM-nya sangat besar
  Sepertinya perlu perusahaan menengah yang benar-benar bertekad kuat untuk menjalankannya
- Sejauh ini, kasus penggunaan utama yang benar-benar membutuhkan privasi penuh tampaknya adalah pekerjaan hukum
  Untuk menelusuri teks dalam jumlah besar saat discovery, tidak perlu model papan atas, tetapi kerahasiaan total memang dibutuhkan
  Di r/localllama cukup banyak pengacara yang memamerkan build multi-GPU, dan kebetulan mereka juga punya dana yang diperlukan
- Kecuali memang ada kekhawatiran keamanan nasional yang nyata, lebih baik menegosiasikan kontrak komersial dengan perlindungan privasi dengan beberapa vendor yang sudah ada
Disebutkan bahwa “GLM-5.2 berada di pareto frontier biaya per tugas terhadap kecerdasan, dan memiliki biaya per tugas terendah di antara model dengan tingkat kecerdasan yang sama”, tetapi di saat yang sama tertulis GLM-5.2 sekitar $0.46 per tugas, sementara GLM-5.1 $0.25, Kimi K2.6 $0.31, MiniMax-M3 $0.18, dan DeepSeek V4 Pro max $0.05, jadi rasanya seperti ada sesuatu yang terlewat
- Sepertinya pembanding yang dipilih kurang tepat
  Alih-alih memilih model lain yang dekat dengan 5.2 pada metrik kecerdasan, tampaknya mereka memilih beberapa model terbuka yang posisinya lebih di bawah
- Pareto frontier tidak berarti yang paling murah
- Beberapa model tampaknya sangat disubsidi
  Untuk biaya inferensi, total parameter dan parameter aktif adalah ukuran yang lebih baik
Setelah melihat Mythos, saya menambahkan GLM 5.2 ke benchmark berbasis bug; hasilnya memang lebih baik daripada GLM 5.1, tetapi masih tertinggal dari banyak model lain, dan pembanding yang paling langsung tampaknya adalah Qwen 3.7 Max
Model terbuka kecil yang bisa di-host sendiri seperti Gemma 4 dan Qwen 3.6 juga menemukan jumlah bug yang sama, yaitu 3 dari 9, dan GLM 5.2 memang menebak lokasi satu bug dengan benar tetapi agak salah memahami bug itu sendiri sehingga hanya mendapat skor parsial
Kimi K2.7-code yang saya tambahkan dalam run yang sama juga tidak konsisten bagus seperti performa 2.6, dan untuk benchmark khusus ini ada model lain yang lebih baik dan lebih murah
https://swelljoe.com/post/will-it-mythos/
Benchmark kecil ini memang tidak membuktikan apa-apa, tetapi berguna untuk cepat mengukur apakah model bisa bernalar tentang masalah yang cukup kompleks di dalam kode

GLM-5.2, menjadi model open-weight peringkat 1 di Artificial Analysis

Memimpin open-weight di Intelligence Index v4.1

Peningkatan performa per evaluasi

GDPval-AA v2 dan performa agen

Biaya, harga, dan penggunaan token

Detail model dan aksesibilitas

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

Bacaan terkait

1 komentar

Komentar Hacker News