1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • GLM-5.2 dari Z ai mencatat skor 51 pada Artificial Analysis Intelligence Index v4.1, menjadikannya pemimpin di antara model open-weight, dan juga berada di Pareto frontier untuk performa dibanding biaya
  • Ukuran modelnya sama dengan GLM-5.1, yaitu 744B total / 40B parameter aktif, tetapi skornya 11 poin lebih tinggi sehingga melampaui MiniMax-M3, DeepSeek V4 Pro(max), dan Kimi K2.6
  • Besarnya peningkatan terlihat di sebagian besar evaluasi, terutama kenaikan yang menonjol pada CritPt dan HLE di area penalaran ilmiah
  • Pada GDPval-AA v2, model ini mencetak 1524 poin, melampaui MiniMax-M3 dan DeepSeek V4 Pro(max), serta berada di level yang mirip dengan GPT-5.5(xhigh reasoning)
  • Model ini menggunakan 43k output token per tugas sehingga efisiensi tokennya tergolong rendah, tetapi biaya per tugasnya termasuk yang paling rendah di antara model dengan tingkat kecerdasan serupa

Memimpin open-weight di Intelligence Index v4.1

  • GLM-5.2 mencatat skor 51 pada Artificial Analysis Intelligence Index v4.1 dan naik ke peringkat 1 di antara model open-weight
  • Skor model open-weight utama adalah sebagai berikut
    • MiniMax-M3: 44
    • DeepSeek V4 Pro(max): 44
    • Kimi K2.6: 43
  • GLM-5.2 memiliki skala 744B total parameter / 40B parameter aktif yang sama dengan GLM-5.1, tetapi skornya di Intelligence Index v4.1 lebih tinggi 11 poin

Peningkatan performa per evaluasi

  • GLM-5.2 mengalami kenaikan skor di sebagian besar evaluasi dibanding GLM-5.1
  • Peningkatannya sangat besar khususnya pada evaluasi terkait penalaran ilmiah
    • CritPt: +16 poin, 21%
    • HLE: +12 poin, 40%
    • GPQA Diamond: +3 poin, 89%
  • Evaluasi lain juga menunjukkan peningkatan yang merata
    • AA-LCR: +9 poin, 71%
    • tau3 banking: +15 poin, 27%
    • SciCode: +7 poin, 50%
    • TerminalBench v2.1: +16 poin, 78%

GDPval-AA v2 dan performa agen

  • GLM-5.2 mencatat 1524 poin pada GDPval-AA v2, metrik performa agen di dunia nyata
  • Dalam perbandingan model open-weight, ini adalah skor tertinggi
    • GLM-5.2: 1524
    • MiniMax-M3: 1418
    • DeepSeek V4 Pro(max): 1328
  • Hasil ini pada dasarnya berada di level yang mirip dengan GPT-5.5(xhigh reasoning) yang mencatat 1514 poin
  • GDPval-AA v2 mengubah metode evaluasi dari GDPval-AA sebelumnya
    • Menetapkan baseline Elo ke performa manusia 1000
    • Memperkenalkan panel bergilir dari frontier-model judge
    • Menaikkan batas giliran dari 100 menjadi 250 untuk menangani trajektori agen yang lebih panjang

Biaya, harga, dan penggunaan token

  • GLM-5.2 berada di Pareto frontier pada grafik Intelligence vs Cost per Task, dan termasuk yang paling murah per tugas di antara model dengan tingkat kecerdasan serupa
  • Biaya per tugasnya lebih tinggi daripada GLM-5.1, tetapi jika mempertimbangkan skor Intelligence yang lebih tinggi, posisinya lebih menguntungkan dari sisi biaya-performa
    • GLM-5.2: sekitar $0.46
    • GLM-5.1: $0.25
    • Kimi K2.6: $0.31
    • MiniMax-M3: $0.18
    • DeepSeek V4 Pro(max): $0.05
  • Harga first-party API sama dengan GLM-5.1
    • $1.4 per 1M input token
    • $4.4 per 1M output token
    • $0.26 per 1M cache hit token
  • Model ini menggunakan 43k output token per tugas Intelligence Index, dan 37k di antaranya adalah token reasoning
  • Penggunaan output tokennya tergolong lebih tinggi daripada model open-weight utama lainnya
    • GLM-5.1: 26k
    • MiniMax-M3: 24k
    • Kimi K2.6: 35k
    • DeepSeek V4 Pro(max): 37k
  • Di antara model open-weight dengan tingkat kecerdasan serupa, efisiensi tokennya tergolong rendah, dan model ini tidak masuk kuadran yang paling menarik pada grafik Intelligence vs Output Tokens

Detail model dan aksesibilitas

  • Lisensi GLM-5.2 adalah MIT
  • Context window-nya 1M token, naik dari 200K pada GLM-5.1
  • Model ini dapat digunakan melalui first-party API milik Z ai dan berbagai penyedia third-party
    • DeepInfra

    • Novita

    • Nebius

    • Parasail

    • Siliconflow

    • GMI Cloud

    • Baseten

      • Fireworks
      • GLM-5.2 mencatat 4 poin pada AA-Omniscience Index, lebih tinggi dari 2 poin milik GLM-5.1
      • Akurasinya 25.1%, lebih tinggi dari 24.2% pada GLM-5.1
      • hallucination rate-nya 28.1%, lebih rendah dari 29.4% pada GLM-5.1
      • attempt rate-nya 47%, sama seperti sebelumnya
      • Perbandingan model dapat dilihat di halaman GLM-5.2 milik Artificial Analysis

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Ini peningkatan satu tingkat yang cukup bagus dan tampaknya sudah mendekati garis depan, tetapi sekarang saya ingin mereka lebih fokus pada efisiensi penalaran
    Saya memakai tes yang menyuruh model menulis library evaluasi ekspresi sederhana dalam Nim untuk evaluasi LLM, dan GLM 5.2 xhigh menalar lebih dari 15 menit serta memakai sekitar 45k token sebelum menulis file pertama
    Menurut https://artificialanalysis.ai/#output-tokens, GPT 5.5 xhigh rata-rata total memakai 16k token, high 10k, Fable 5 33k, Opus 4.8 41k, dan GLM 5.2 42k, jadi efisiensi penalaran GPT 5.5 jauh lebih unggul
    Jika dikonversi ke biaya permintaan nyata, GLM 5.2 memang akan lebih murah daripada GPT 5.5/Opus 4.8, tetapi bagi banyak orang kecepatan juga penting

    • GLM 5.2 Max tampaknya memiliki pola berpikir yang sama dengan Opus 4.8 Max, dan chain-of-thought serta penggunaan token output-nya juga sangat mirip
      Kalau ingin penggunaan token yang masuk akal, GLM 5.2 harus dijalankan di mode High, dan untuk sebagian besar tugas, turun dari Max ke High hanya sedikit menurunkan kualitas tetapi mengurangi penggunaan token 2~2,5 kali
      Pada akhirnya GLM 5.2 terasa seperti adik dari Opus 4.8 yang jauh lebih murah, sampai muncul lelucon bahwa sulit dipercaya model Opus sama sekali tidak ikut dipakai dalam pelatihannya
    • Menurut saya ini bukan sekadar “mendekati garis depan”, tapi sudah melampauinya
      Secara pribadi kombinasi GLM + OpenCode yang saya pakai jauh lebih baik daripada Claude Code + Opus yang harus saya gunakan di kantor, jauh lebih jarang membuat kesalahan pemula ala StackOverflow, dan lebih baik mengikuti instruksi
      Pengalaman pengguna di harness juga jauh lebih unggul karena tidak mengabaikan konfigurasi, tidak mengubahnya seenaknya, dan tidak salah melaporkan, jadi moat Anthropic tampaknya cepat menghilang
    • Di Opus juga ada masalah serupa: terlalu lama berpikir lalu mengulang-ulang “sebentar, bagaimana kalau...”
      Ujung-ujungnya saya menghentikannya dan berkata, “tulis saja kodenya dulu, selesaikan sambil jalan”, rasanya seperti writer’s block juga ada pada LLM
    • Ini mengingatkan saya pada https://en.wikipedia.org/wiki/Portia_(spider)
    • Saya berharap pekerjaan terbaru Moonshot di Kimi K2.7 Code menyebar juga ke lab model terbuka lain
      Menurut Artificial Analysis, K2.7 Code mirip dengan K2.6 dari sisi kecerdasan, tetapi hanya memakai setengah token output untuk mencapai tingkat yang sama
  • Saya membuat skrip yang memberi peringkat model berdasarkan codingindex dari Artificial Analysis dan memakainya setiap hari
    Skrip itu mengambil JSON dari halaman tabel utama lalu mem-parsing hanya field terkait coding yang saya minati; dulu ada juga mailing list, tetapi karena saya tidak terlalu tertarik, saya matikan
    Saat ini pada beberapa hasil, peringkat atas diisi Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max, dan lain-lain; eksekusinya bisa lewat $ curl day50.dev/art-analysis.sh | bash
    Repositorinya ada di https://github.com/day50-dev/aa-eval-email, dan saat ini model terbuka tampak tertinggal sekitar 4~7 bulan tergantung metode pengukuran; kalau tren ini berlanjut, sebelum tahun baru model open-weight bisa saja mampu menangani pekerjaan setingkat Claude Fable 5

    • Indeks coding Artificial Analysis hanya terdiri dari dua benchmark, Terminal-Bench Hard dan SciCode, jadi saya ragu apakah itu benar-benar indeks coding yang baik
      Mereka menempatkan Gemma 4 31B di atas DeepSeek V4 Flash, tetapi setelah memakai keduanya untuk berbagai tugas coding, saya akan memilih DeepSeek setiap kali
    • Proyek yang keren, tetapi meminta orang langsung menjalankan Bash dari sumber yang tidak jelas menurut saya adalah praktik yang cukup buruk
  • Saya tidak tahu kenapa lebih banyak orang tidak membicarakan ini
    Praktis menawarkan kualitas setara Opus 4.7 dengan harga yang konyol murah; ada juga tempat yang memberi token tak terbatas seharga $50 per bulan, dan ada yang mengenakan biaya API 3 kali lebih rendah daripada API resmi ZAI
    Bahkan API resmi ZAI sendiri sekitar 10 kali lebih murah daripada Opus, jadi ini pukulan besar bagi Anthropic/OpenAI/Google dan kemenangan besar bagi seluruh dunia; untuk model terbuka, harga dan kecepatan API resmi bukan segalanya

    • Saya sudah beberapa kali memakai model terbuka dari Tiongkok; memang lumayan, tetapi tidak sampai ke level benchmark yang mereka klaim
      Mungkin saja GLM 5.2 mendekati Opus 4.7, tetapi kalau setiap kali saya cek ternyata masih cuma optimasi benchmark dan belum setara GPT atau Opus, saya jadi menganggapnya seperti cerita “serigala datang”
    • Penyedia tidak resmi perlu diwaspadai
      Mereka sering salah mengonfigurasi model atau diam-diam melakukan kuantisasi, dan selama beberapa waktu ada selisih 20~40% antara Kimi di API resmi dan kebanyakan penyedia pihak ketiga
    • Kalau melihat OpenRouter, beberapa opsi yang lebih murah adalah model terkuantisasi, dan belum jelas seberapa besar penurunan kecerdasan akibat kuantisasi
      Saya penasaran API mana yang 3 kali lebih murah itu, lalu menemukan tarif 8-bit Croft sebesar $0.50/$0.08/$2.20
      https://openrouter.ai/z-ai/glm-5.2
      https://ai.nahcrof.com/pricing
    • Pilihannya terlalu banyak, dan dari sudut pandang manusia, mengikuti semuanya sendiri saja sudah mahal secara komputasional
      Sulit bahkan untuk mencari tahu cara menjalankan model-model ini, tidak ada installer, dan kalau Anda bukan 1% orang yang benar-benar tertarik, Anda akan mencari panduan lalu sadar bahwa panduan itu pun sudah usang
      Dibandingkan dengan “pasang Claude Code dan bayar $100 per bulan”, kurva belajarnya terlalu curam, dan penghematan $50 per bulan terasa kecil dibanding usaha yang dibutuhkan
    • Di organisasi kami, semua orang terlalu terpaku pada Claude, sampai-sampai bertindak seolah itu satu-satunya LLM yang ada
      Murni karena itu disesuaikan untuk kalangan non-engineer di lingkungan enterprise
  • Pada benchmark coding Artificial Analysis, GLM 5.1 high cukup dekat dengan GPT 5.5 xhigh dari sisi biaya eksekusi, dan GPT 5.5 medium jauh lebih murah
    Dibandingkan GPT 5.5 medium, GLM 5.1 xhigh memiliki biaya dua kali lipat tetapi kecerdasannya hanya sekitar setengahnya, jadi bahkan tanpa GLM 5.2 pun masih ada kesenjangan besar yang harus ditutup
    https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
    DeepSWE juga sangat sesuai dengan pengalaman pribadi saya, jadi saya meragukan seberapa pantas hiruk-pikuk internet soal model terbuka itu
    Jika menginginkan model yang mendekati garis depan, saat ini lebih jujur untuk menyebut Opus, Fable, dan GPT5.5

    • Dalam pengujian internal Z.ai, GLM 5.2 mendapat 46.2 poin di DeepSWE, dan posisinya berada di antara Opus 4.7 xhigh dan Opus 4.8 medium
      https://z.ai/blog/glm-5.2
    • Jika memakai model terbuka, Anda bisa mendapat langganan yang menjaga privasi dengan biaya yang sama seperti Codex
      Langganan OpenAI, Google, dan Anthropic tidak punya opsi privasi seperti itu, dan menarik juga bahwa jika melihat tautannya, GPT 5.5 berada di peringkat 7 di Cursor CLI tetapi naik ke peringkat 3 di Codex CLI
      Karena model terbuka tidak diuji di Codex, sulit untuk menyimpulkan ini sebagai benchmark model murni, dan bisa saja model terbuka memang lemah pada harness agen SWE, tetapi itu tampaknya bukan penjelasan yang paling sederhana
    • DeepSWE terasa seperti benchmark yang lebih “tepat” dibanding indeks Artificial Analysis atau benchmark coding lainnya
      Dengan metrik itu, GPT-5.5 masih menjadi raja dalam efisiensi token, kecepatan, dan kecerdasan per dolar
      https://deepswe.datacurve.ai/
      Fable 5 juga bagus, tetapi saya masih belum melihat GPT-5.6
    • Kemarin saya mencoba GLM 5.2 di OpenRouter, dan secara umum cukup bagus, tetapi selama 30 menit pekerjaan yang relatif lambat, biaya tokennya mencapai 5 dolar
      Itu mudah menjadi 4 kali lebih mahal daripada DeepSeek V4, tetapi saya tidak merasa hasilnya sebanding lebih baik, dan saat ditinjau kemudian dengan GPT 5.5 in Codex, masih ada banyak bagian yang berantakan
      Dari sisi efektivitas biaya, MiniMax M3 terasa lebih baik
  • Cukup mengejutkan bahwa GLM 5.1/5.2 bukan model vision
    Saat ini itu sudah cukup jarang, dan model OpenAI/Anthropic/Gemini semuanya sudah menerima gambar, sementara lini open-weight utama seperti Gemma 4, Qwen 3.6, dan Kimi 2.x juga mendukung input gambar
    GLM adalah model dengan skor tinggi untuk tugas seperti desain web, jadi jika ada input gambar, itu akan berguna untuk menerima screenshot lalu menghasilkan HTML+CSS, dan jelas ada celah di bagian itu

    • Anda bisa mengatur sub-agen di harness coding agar untuk tugas seperti itu ia membuka sub-sesi baru dengan model vision apa pun, lalu memasukkan hasilnya kembali ke model utama
      Tidak harus ada “satu model yang melakukan semuanya”
    • Saya memakai Google AI Studio sebagai jembatan vision gratis
      Gemma 31B cukup bagus untuk tugas vision, dan 1500 permintaan per hari pada praktiknya nyaris tak terbatas
    • Ini tidak terlihat sebagai celah yang terlalu besar
      Mungkin ada kegunaan seperti pekerjaan UX/UI, tetapi selain itu tidak terlalu perlu, dan bahkan model garis depan pun tidak benar-benar bisa mereplikasi gambar nyata; dari pengalaman pribadi saya, mereka hanya bisa mendekatinya
    • Reaksinya juga sama pada DeepSeek V4
      Rasanya akan lebih berguna kalau itu model vision
  • Saya sudah cukup banyak memakai model ini selama 24 jam terakhir, dan saya memang memastikan bahwa model ini sangat kompeten
    Hanya saja agak bertele-tele, dan saya melihat dalam jejak penalarannya ia meninjau ulang 3–4 kali sebelum menentukan arah, serta kemampuan menangani kebutuhan yang kompleks dan abstrak belum setara GPT5.5
    Meski begitu, sampai-sampai saya bisa merekomendasikan kombinasi langganan Z.AI + langganan OpenAI 20 dolar per bulan untuk kebanyakan orang, dan alur kerja GLM menulis lalu GPT me-review/debug terasa hampir tak terbatas dengan hanya sedikit lebih buruk dibanding memakai GPT saja di paket 200 dolar per bulan

    • Hari ini saya baru tahu bahwa kekuatan penalaran default disetel ke max
      Mungkin itu penyebab ia bertele-tele
    • Hal yang paling penting bagi saya saat ini adalah seberapa baik model menulis
      Jika Anda bisa pemrograman, saya rasa kita sekarang sudah sampai pada tahap di mana kita bisa memberi model cukup informasi agar melakukan pekerjaan yang dibutuhkan
      Sebaliknya, menulis punya terlalu banyak nuansa sehingga model masih sangat kesulitan, tetapi memang terus membaik
    • Workflow saya juga seperti itu
      Sekali sehari saya menyalin kode ke Claude Sonnet gratis agar hasilnya benar-benar jadi enak dibaca
    • Setelah merasakan Fable 5, Opus 4.8 pun terasa tidak lagi cukup
      Memang benar Opus 4.8 adalah agen coding yang lebih kuat, berhasil di tempat DeepSeek 4.0 atau Kimi 2.7 goyah dan gagal, tetapi hiasan retoris dalam gaya percakapannya makin mengganggu, dan kadang terasa sengaja berbicara ambigu atau menahan kebenaran sampai ditekan, sehingga membuat saya berpikir ulang soal langganannya
  • GLM 5.2 adalah model pertama yang kami uji yang jelas setara atau lebih baik dari Opus 4.6
    Namun, dibanding benchmark lain yang memakai metodologi pengujian yang rapuh, kami menilai GLM 5.2 dan sebagian besar model Tiongkok sedikit lebih rendah
    Datanya ada di https://gertlabs.com/rankings

  • Saya tidak terlalu tahu cara menjalankan model seperti ini, tetapi saya penasaran seberapa dekat waktunya sampai perusahaan menengah dan besar mulai membeli hardware untuk menempatkan model secara lokal
    Memang mahal dan tidak sekompeten model paling mutakhir, tetapi keunggulannya cukup besar dari sisi privasi dan kendali

    • Sejumlah perusahaan di Eropa sudah melakukan ini selama beberapa waktu dengan model 70B, dan kini sedang meng-upgrade hardware untuk menjalankan model baru di kelas 700B~1T
      Ini mulai benar-benar berjalan sejak sekitar era Kimi K2, tetapi membeli dan meng-host hardware semacam itu butuh waktu
      Tidak semua perusahaan ingin mengirim rahasia dagang mereka ke OpenAI atau Anthropic, dan ada juga yang secara hukum memang tidak boleh melakukannya
    • Ini bukan situasi yang baru
      Pada masa model visi yang bagus seperti AlexNet mulai muncul, khususnya juga di OCR, perusahaan harus memilih antara cloud dan hosting GPU sendiri
      Pada akhirnya masalahnya adalah pola penggunaan: pemakaian menumpuk pada jam kerja tertentu, sementara di luar itu GPU menganggur
      Untuk pekerjaan yang sensitif terhadap latensi, ini adalah trade-off yang sudah ada selama puluhan tahun, dan bukan masalah yang khusus pada LLM
    • Karena ini model sekitar 750B, kebutuhan VRAM-nya sangat besar
      Sepertinya perlu perusahaan menengah yang benar-benar bertekad kuat untuk menjalankannya
    • Sejauh ini, kasus penggunaan utama yang benar-benar membutuhkan privasi penuh tampaknya adalah pekerjaan hukum
      Untuk menelusuri teks dalam jumlah besar saat discovery, tidak perlu model papan atas, tetapi kerahasiaan total memang dibutuhkan
      Di r/localllama cukup banyak pengacara yang memamerkan build multi-GPU, dan kebetulan mereka juga punya dana yang diperlukan
    • Kecuali memang ada kekhawatiran keamanan nasional yang nyata, lebih baik menegosiasikan kontrak komersial dengan perlindungan privasi dengan beberapa vendor yang sudah ada
  • Disebutkan bahwa “GLM-5.2 berada di pareto frontier biaya per tugas terhadap kecerdasan, dan memiliki biaya per tugas terendah di antara model dengan tingkat kecerdasan yang sama”, tetapi di saat yang sama tertulis GLM-5.2 sekitar $0.46 per tugas, sementara GLM-5.1 $0.25, Kimi K2.6 $0.31, MiniMax-M3 $0.18, dan DeepSeek V4 Pro max $0.05, jadi rasanya seperti ada sesuatu yang terlewat

    • Sepertinya pembanding yang dipilih kurang tepat
      Alih-alih memilih model lain yang dekat dengan 5.2 pada metrik kecerdasan, tampaknya mereka memilih beberapa model terbuka yang posisinya lebih di bawah
    • Pareto frontier tidak berarti yang paling murah
    • Beberapa model tampaknya sangat disubsidi
      Untuk biaya inferensi, total parameter dan parameter aktif adalah ukuran yang lebih baik
  • Setelah melihat Mythos, saya menambahkan GLM 5.2 ke benchmark berbasis bug; hasilnya memang lebih baik daripada GLM 5.1, tetapi masih tertinggal dari banyak model lain, dan pembanding yang paling langsung tampaknya adalah Qwen 3.7 Max
    Model terbuka kecil yang bisa di-host sendiri seperti Gemma 4 dan Qwen 3.6 juga menemukan jumlah bug yang sama, yaitu 3 dari 9, dan GLM 5.2 memang menebak lokasi satu bug dengan benar tetapi agak salah memahami bug itu sendiri sehingga hanya mendapat skor parsial
    Kimi K2.7-code yang saya tambahkan dalam run yang sama juga tidak konsisten bagus seperti performa 2.6, dan untuk benchmark khusus ini ada model lain yang lebih baik dan lebih murah
    https://swelljoe.com/post/will-it-mythos/
    Benchmark kecil ini memang tidak membuktikan apa-apa, tetapi berguna untuk cepat mengukur apakah model bisa bernalar tentang masalah yang cukup kompleks di dalam kode