GLM-4.7: Meningkatkan kemampuan coding ke level berikutnya

(z.ai)

7 poin oleh GN⁺ 2025-12-23 | 1 komentar | Bagikan ke WhatsApp

GLM-4.7 adalah model bahasa besar yang secara signifikan meningkatkan performa dibanding pendahulunya dalam coding multibahasa, pekerjaan berbasis terminal, dan penalaran kompleks
Pada benchmark utama seperti SWE-bench, Terminal Bench 2.0, dan HLE, model ini mencatat peningkatan masing-masing sebesar +5.8%, +16.5%, dan +12.4%
Kualitas pembuatan UI ditingkatkan sehingga mampu menghasilkan halaman web yang lebih rapi dan modern serta layout slide yang lebih akurat
Melalui fitur Interleaved Thinking, Preserved Thinking, dan Turn-level Thinking, stabilitas dan konsistensi dalam tugas agen yang kompleks diperkuat
Tersedia secara global melalui Z.ai API, OpenRouter, HuggingFace, dan lainnya, serta mendukung agen coding dan deployment lokal

Performa dan fitur utama

GLM-4.7 mencapai peningkatan menyeluruh pada kemampuan coding dan penalaran dibanding GLM-4.6
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- Pada benchmark HLE(Humanity’s Last Exam), model ini mencapai 42.8%(+12.4%), memperkuat kemampuan matematika dan penalaran logis
Kualitas pembuatan UI (Vibe Coding) meningkat, memungkinkan pembuatan halaman web dan slide yang lebih halus dan modern
Kemampuan penggunaan tool meningkat, dengan skor tinggi pada τ²-Bench dan BrowseComp
Peningkatan performa juga terlihat pada berbagai skenario seperti chat, kreasi, dan roleplay

Perbandingan benchmark

GLM-4.7 dievaluasi bersama GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro, dan lainnya pada 17 benchmark
- Kategori reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Kategori coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Kategori agent: BrowseComp 52.0, τ²-Bench 87.4
Pada beberapa metrik, hasilnya mendekati atau melampaui model papan atas

Penguatan mode thinking

Interleaved Thinking: melalui tahap berpikir sebelum memberi respons dan memanggil tool, model meningkatkan kepatuhan terhadap instruksi dan kualitas hasil generasi
Preserved Thinking: mempertahankan blok pemikiran dalam percakapan multi-turn untuk mengurangi kehilangan informasi dan inkonsistensi
Turn-level Thinking: menyalakan atau mematikan fungsi thinking sesuai kompleksitas permintaan untuk menyeimbangkan akurasi dan biaya
Fitur-fitur ini cocok untuk tugas agen coding jangka panjang dan kompleks

Pemanfaatan dan deployment

Model GLM-4.7 tersedia melalui platform Z.ai API dan OpenRouter
Dukungan integrasi tersedia di agen coding utama seperti Claude Code, Kilo Code, Roo Code, dan Cline
Pelanggan GLM Coding Plan akan otomatis di-upgrade ke GLM-4.7, dan hanya perlu mengganti nama model pada file konfigurasi yang ada
Bobot model dibuka di HuggingFace dan ModelScope, dengan dukungan inferensi lokal melalui framework vLLM dan SGLang

Contoh visual dan kreatif

Tersedia berbagai contoh generasi seperti website frontend, karya seni 3D seperti Voxel Pagoda, poster, dan slide
Peningkatan kualitas desain dibuktikan secara visual melalui dark mode kontras tinggi, efek animasi, dan layout yang lebih presisi

Konfigurasi dasar dan kondisi pengujian

Tugas umum: temperature 1.0, top-p 0.95, max new tokens 131072
SWE-bench dan Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
τ²-Bench: temperature 0, max new tokens 16384, dengan beberapa penyesuaian prompt per domain

Evaluasi keseluruhan

GLM-4.7 merupakan tahap kemajuan AGI yang berfokus pada coding, dengan penekanan pada kualitas pengalaman penggunaan nyata di luar sekadar skor benchmark
Model ini dirancang tidak hanya untuk performa pengujian, tetapi juga untuk kecerdasan yang terasa bagi pengguna dan integrasi yang baik

1 komentar

GN⁺ 2025-12-23

Komentar Hacker News

Menurutku menarik bahwa model MoE dioptimalkan untuk agen coding, penalaran kompleks, dan penggunaan alat
Model ini memiliki 358B/32B parameter aktif, context window 200k, mendukung tool calling gaya OpenAI, dan merupakan model multibahasa yang berfokus pada bahasa Inggris/Tionghoa
Diperkirakan berukuran 716GB pada FP16, dan sekitar 220GB pada Q4_K_M
Secara teori, hal yang menarik adalah model ini bisa dijalankan secara lokal bahkan di Mac Studio yang relatif murah
Jika dipakai bersama alat bantu seperti Kimik2, sepertinya kita bisa mendapatkan dukungan coding yang cukup berguna tanpa bergantung pada penyedia LLM besar
- Aku pernah menjalankan LLM di Mac Studio Ultra M1 bekas (RAM 128GB), dan ternyata terlalu lambat
  Bahkan versi quantized 4bit dari GLM 4.6 pun sangat lambat, bukan hanya dalam kecepatan pemrosesan token, tetapi juga pada pemrosesan input, tokenisasi, dan pemuatan prompt, sehingga benar-benar menguji kesabaran
  Orang sering hanya membahas angka TPS, padahal dalam praktiknya waktu pemuatan input adalah bottleneck-nya
- Kalau ini adalah tool calling gaya OpenAI, kupikir kemungkinan besar berbasis Harmony
  Namun secara realistis, kalau dijalankan di Mac Studio kemungkinan besar akan terasa terlalu lambat dan akhirnya disesali
  Sampai hardware menjadi lebih murah atau modelnya lebih kecil, menurutku lebih baik memakai API berbayar
- Kalau seseorang dari masa lalu melihat komentar ini, mungkin akan sulit mempercayainya
- Versi Sonnet harus diperbaiki menjadi 4.5
  Kualitas output-nya terasa jauh lebih indah dibanding GLM‑4.6
  Mungkin besar karena data yang didistilasi dari model tertutup, tetapi tetap saja aku lebih menyukai model open-source
- Aku berencana menjalankan model ini dengan dua sistem Strix Halo (total RAM 256GB) yang dihubungkan lewat USB4/TB3
Cerebras saat ini melayani GLM 4.6 dengan kecepatan 1000 token per detik
Kemungkinan besar mereka akan segera meng-upgrade ke model baru
Aku penasaran seberapa baik model generasi setelah GLM 4.7 akan bekerja dalam lingkungan organisasi pengembangan perangkat lunak yang disimulasikan
Misalnya, apakah model itu bisa memperbaiki error sendiri sambil mengakumulasi kode yang berguna, atau justru hanya menumpuk utang teknis
Aku membayangkan struktur di mana model kelas atas seperti Opus 4.5 atau Gemini 3 berperan sebagai ‘manajer’
Referensi terkait: tulisan Anthropic tentang desain agen yang berjalan jangka panjang
Jika model open-source menjadi cukup bagus, kemampuan menjalankannya di Cerebras pada 1k TPS akan menjadi keunggulan besar
- Aku memakai Opus untuk menulis rencana detail dan pengujian, lalu Cerebras GLM 4.6 untuk implementasinya
  Saat ada ketidakpastian, aku minta Opus meninjau ulang
- Aku juga berpikir perkembangannya akan mengarah ke sana
  Model tingkat atas akan berfungsi sebagai guardrail, sementara agen yang cepat dan kompeten menangani pekerjaan nyata
  Jika konteksnya cukup luas dan memiliki ‘taste’, kombinasi seperti ini saja mungkin sudah cukup untuk mewujudkan produktivitas dan kecerdasan yang memadai
- Aku penasaran dengan harga API Cerebras
  Kurasa mungkin biaya bisa ditekan dengan menurunkan kecepatan token dan mengurangi konsumsi daya
- Aku penasaran apakah mudah menjadi pelanggan berbayar Cerebras
  Saat terakhir kulihat, kesannya seperti closed beta
Z.ai tampak murah dan performanya juga lumayan, tetapi syarat layanannya cukup berat
Ada larangan mengembangkan model pesaing, larangan mengungkapkan cacat, pemberian hak penggunaan yang sangat luas atas konten pengguna, penerapan hukum Singapura, dan sebagainya
Di tengah situasi ketika perusahaan besar menggelontorkan modal raksasa, ada kemungkinan Z.ai mencoba menguasai pasar dengan strategi dumping
Dalam jangka pendek ini menguntungkan konsumen, tetapi dalam jangka panjang ada risiko kompetisi menghilang
Pada akhirnya bisa saja muncul situasi di mana perusahaan maupun individu harus memakai layanan ini demi bertahan hidup
- Menurutku modal raksasa adalah ancaman terbesar bagi inovasi
  95% trafik ChatGPT berasal dari pengguna gratis, dan Gemini juga punya banyak kredit gratis untuk developer
  Dalam struktur seperti ini, sulit bagi lab kecil untuk bersaing
  Meski begitu, lab-lab Tiongkok tetap terlihat seperti penantang kecil yang gigih
Aku bertanya, “apakah membenarkan jika seorang pemimpin memerintahkan pembunuhan ratusan demonstran damai?”
Model itu menolak menjawab dan malah memunculkan pesan error
Kemungkinan karena kebijakan sensor atau topik politik sensitif
Aku sudah memakai GLM 4.6 di Cerebras (atau Groq), dan kecepatan ini benar-benar terasa seperti melihat masa depan
Bahkan kalau AGI tidak datang, aku rasa aku tetap akan sangat puas jika model seperti ini bisa dijalankan di tablet atau laptop
- Apple M5 Max tampaknya akan mampu menjalankan model quantized 8bit (sekitar 360GB) dengan cukup baik berkat peningkatan pemrosesan prompt dan bandwidth
  Strix Halo kurang cocok karena memori dan bandwidth-nya tidak memadai
  Untuk mendapatkan performa yang diinginkan saat ini, diperlukan konfigurasi multi-GPU
- Cerebras dan Groq cepat berkat desain chip mereka sendiri
  Akan bagus kalau bisa diperluas ke produk konsumen, tetapi kecepatan saat ini dimungkinkan oleh arsitektur chip yang dihubungkan lewat jaringan
  Kemampuan setingkat AGI kemungkinan besar masih akan lebih dulu terwujud di level data center
Saat menekan tombol subscribe tidak ada respons sama sekali, dan di Dev Tools muncul TypeError
Untuk perusahaan model coding AI, pengalaman pembeliannya terasa anehnya tidak mulus
- Tombol Subscribe baru berfungsi setelah akun dibuat lebih dulu
Aku menguji model ini di Z.ai, dan untuk tugas yang berfokus pada matematika dan riset, model ini menunjukkan kemampuan berpikir setara GPT‑5.2 atau Gemini 3 Pro
Jelas lebih unggul daripada K2 thinking maupun Opus 4.5
- Tapi langganan Z.ai tidak direkomendasikan untuk penggunaan kerja
  Prompt dan output pengguna berbayar bisa dipakai untuk pelatihan, dan tidak ada opsi opt-out
  Menurutku hosting pihak ketiga seperti synthetic.new lebih aman
GLM 4.6 sangat populer dari sudut pandang penyedia inferensi
Banyak pengguna memakainya untuk coding sehari-hari, dan peningkatan di 4.7 sangat dinantikan
Kesesuaian produk-pasar (PMF) jelas ada
Di beberapa komentar banyak yang membahas distillation, dan saat mencoba Claude-code di paket coding z.ai,
terasa ada jejak pelatihan dari model lain (ungkapan seperti “you’re absolutely right”, misalnya)
Meski begitu, rasio harga terhadap performanya luar biasa
- Aku juga melihat Gemini 3 Flash memakai ungkapan yang sama hari ini
  Jadi pada akhirnya menurutku itu sulit dijadikan bukti pelatihan
- Bisa juga data internet memang telah berkonvergensi secara mirip
  Sulit untuk memastikan dengan tegas
Aku memakai model ini di dalam Claude Code API, dan kemampuannya menangani pekerjaan dengan menggabungkan berbagai alat sangat bagus
Tidak ada batas penggunaan mingguan seperti Claude, dan paket triwulanannya murah, hanya 8 dolar
- Aku penasaran apakah di Claude Code, setelah memakai model Claude secara default lalu mencapai batas pemakaian, bisa beralih ke model GLM

GLM-4.7: Meningkatkan kemampuan coding ke level berikutnya

Performa dan fitur utama

Perbandingan benchmark

Penguatan mode thinking

Pemanfaatan dan deployment

Contoh visual dan kreatif

Konfigurasi dasar dan kondisi pengujian

Evaluasi keseluruhan

Bacaan terkait

1 komentar

Komentar Hacker News