- GLM-4.7 adalah model bahasa besar yang secara signifikan meningkatkan performa dibanding pendahulunya dalam coding multibahasa, pekerjaan berbasis terminal, dan penalaran kompleks
- Pada benchmark utama seperti SWE-bench, Terminal Bench 2.0, dan HLE, model ini mencatat peningkatan masing-masing sebesar +5.8%, +16.5%, dan +12.4%
- Kualitas pembuatan UI ditingkatkan sehingga mampu menghasilkan halaman web yang lebih rapi dan modern serta layout slide yang lebih akurat
- Melalui fitur Interleaved Thinking, Preserved Thinking, dan Turn-level Thinking, stabilitas dan konsistensi dalam tugas agen yang kompleks diperkuat
- Tersedia secara global melalui Z.ai API, OpenRouter, HuggingFace, dan lainnya, serta mendukung agen coding dan deployment lokal
Performa dan fitur utama
- GLM-4.7 mencapai peningkatan menyeluruh pada kemampuan coding dan penalaran dibanding GLM-4.6
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- Pada benchmark HLE(Humanity’s Last Exam), model ini mencapai 42.8%(+12.4%), memperkuat kemampuan matematika dan penalaran logis
- Kualitas pembuatan UI (Vibe Coding) meningkat, memungkinkan pembuatan halaman web dan slide yang lebih halus dan modern
- Kemampuan penggunaan tool meningkat, dengan skor tinggi pada τ²-Bench dan BrowseComp
- Peningkatan performa juga terlihat pada berbagai skenario seperti chat, kreasi, dan roleplay
Perbandingan benchmark
- GLM-4.7 dievaluasi bersama GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro, dan lainnya pada 17 benchmark
- Kategori reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Kategori coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Kategori agent: BrowseComp 52.0, τ²-Bench 87.4
- Pada beberapa metrik, hasilnya mendekati atau melampaui model papan atas
Penguatan mode thinking
- Interleaved Thinking: melalui tahap berpikir sebelum memberi respons dan memanggil tool, model meningkatkan kepatuhan terhadap instruksi dan kualitas hasil generasi
- Preserved Thinking: mempertahankan blok pemikiran dalam percakapan multi-turn untuk mengurangi kehilangan informasi dan inkonsistensi
- Turn-level Thinking: menyalakan atau mematikan fungsi thinking sesuai kompleksitas permintaan untuk menyeimbangkan akurasi dan biaya
- Fitur-fitur ini cocok untuk tugas agen coding jangka panjang dan kompleks
Pemanfaatan dan deployment
- Model GLM-4.7 tersedia melalui platform Z.ai API dan OpenRouter
- Dukungan integrasi tersedia di agen coding utama seperti Claude Code, Kilo Code, Roo Code, dan Cline
- Pelanggan GLM Coding Plan akan otomatis di-upgrade ke GLM-4.7, dan hanya perlu mengganti nama model pada file konfigurasi yang ada
- Bobot model dibuka di HuggingFace dan ModelScope, dengan dukungan inferensi lokal melalui framework vLLM dan SGLang
Contoh visual dan kreatif
- Tersedia berbagai contoh generasi seperti website frontend, karya seni 3D seperti Voxel Pagoda, poster, dan slide
- Peningkatan kualitas desain dibuktikan secara visual melalui dark mode kontras tinggi, efek animasi, dan layout yang lebih presisi
Konfigurasi dasar dan kondisi pengujian
- Tugas umum: temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench dan Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench: temperature 0, max new tokens 16384, dengan beberapa penyesuaian prompt per domain
Evaluasi keseluruhan
- GLM-4.7 merupakan tahap kemajuan AGI yang berfokus pada coding, dengan penekanan pada kualitas pengalaman penggunaan nyata di luar sekadar skor benchmark
- Model ini dirancang tidak hanya untuk performa pengujian, tetapi juga untuk kecerdasan yang terasa bagi pengguna dan integrasi yang baik
1 komentar
Komentar Hacker News
Menurutku menarik bahwa model MoE dioptimalkan untuk agen coding, penalaran kompleks, dan penggunaan alat
Model ini memiliki 358B/32B parameter aktif, context window 200k, mendukung tool calling gaya OpenAI, dan merupakan model multibahasa yang berfokus pada bahasa Inggris/Tionghoa
Diperkirakan berukuran 716GB pada FP16, dan sekitar 220GB pada Q4_K_M
Secara teori, hal yang menarik adalah model ini bisa dijalankan secara lokal bahkan di Mac Studio yang relatif murah
Jika dipakai bersama alat bantu seperti Kimik2, sepertinya kita bisa mendapatkan dukungan coding yang cukup berguna tanpa bergantung pada penyedia LLM besar
Bahkan versi quantized 4bit dari GLM 4.6 pun sangat lambat, bukan hanya dalam kecepatan pemrosesan token, tetapi juga pada pemrosesan input, tokenisasi, dan pemuatan prompt, sehingga benar-benar menguji kesabaran
Orang sering hanya membahas angka TPS, padahal dalam praktiknya waktu pemuatan input adalah bottleneck-nya
Namun secara realistis, kalau dijalankan di Mac Studio kemungkinan besar akan terasa terlalu lambat dan akhirnya disesali
Sampai hardware menjadi lebih murah atau modelnya lebih kecil, menurutku lebih baik memakai API berbayar
Kualitas output-nya terasa jauh lebih indah dibanding GLM‑4.6
Mungkin besar karena data yang didistilasi dari model tertutup, tetapi tetap saja aku lebih menyukai model open-source
Cerebras saat ini melayani GLM 4.6 dengan kecepatan 1000 token per detik
Kemungkinan besar mereka akan segera meng-upgrade ke model baru
Aku penasaran seberapa baik model generasi setelah GLM 4.7 akan bekerja dalam lingkungan organisasi pengembangan perangkat lunak yang disimulasikan
Misalnya, apakah model itu bisa memperbaiki error sendiri sambil mengakumulasi kode yang berguna, atau justru hanya menumpuk utang teknis
Aku membayangkan struktur di mana model kelas atas seperti Opus 4.5 atau Gemini 3 berperan sebagai ‘manajer’
Referensi terkait: tulisan Anthropic tentang desain agen yang berjalan jangka panjang
Jika model open-source menjadi cukup bagus, kemampuan menjalankannya di Cerebras pada 1k TPS akan menjadi keunggulan besar
Saat ada ketidakpastian, aku minta Opus meninjau ulang
Model tingkat atas akan berfungsi sebagai guardrail, sementara agen yang cepat dan kompeten menangani pekerjaan nyata
Jika konteksnya cukup luas dan memiliki ‘taste’, kombinasi seperti ini saja mungkin sudah cukup untuk mewujudkan produktivitas dan kecerdasan yang memadai
Kurasa mungkin biaya bisa ditekan dengan menurunkan kecepatan token dan mengurangi konsumsi daya
Saat terakhir kulihat, kesannya seperti closed beta
Z.ai tampak murah dan performanya juga lumayan, tetapi syarat layanannya cukup berat
Ada larangan mengembangkan model pesaing, larangan mengungkapkan cacat, pemberian hak penggunaan yang sangat luas atas konten pengguna, penerapan hukum Singapura, dan sebagainya
Di tengah situasi ketika perusahaan besar menggelontorkan modal raksasa, ada kemungkinan Z.ai mencoba menguasai pasar dengan strategi dumping
Dalam jangka pendek ini menguntungkan konsumen, tetapi dalam jangka panjang ada risiko kompetisi menghilang
Pada akhirnya bisa saja muncul situasi di mana perusahaan maupun individu harus memakai layanan ini demi bertahan hidup
95% trafik ChatGPT berasal dari pengguna gratis, dan Gemini juga punya banyak kredit gratis untuk developer
Dalam struktur seperti ini, sulit bagi lab kecil untuk bersaing
Meski begitu, lab-lab Tiongkok tetap terlihat seperti penantang kecil yang gigih
Aku bertanya, “apakah membenarkan jika seorang pemimpin memerintahkan pembunuhan ratusan demonstran damai?”
Model itu menolak menjawab dan malah memunculkan pesan error
Kemungkinan karena kebijakan sensor atau topik politik sensitif
Aku sudah memakai GLM 4.6 di Cerebras (atau Groq), dan kecepatan ini benar-benar terasa seperti melihat masa depan
Bahkan kalau AGI tidak datang, aku rasa aku tetap akan sangat puas jika model seperti ini bisa dijalankan di tablet atau laptop
Strix Halo kurang cocok karena memori dan bandwidth-nya tidak memadai
Untuk mendapatkan performa yang diinginkan saat ini, diperlukan konfigurasi multi-GPU
Akan bagus kalau bisa diperluas ke produk konsumen, tetapi kecepatan saat ini dimungkinkan oleh arsitektur chip yang dihubungkan lewat jaringan
Kemampuan setingkat AGI kemungkinan besar masih akan lebih dulu terwujud di level data center
Saat menekan tombol subscribe tidak ada respons sama sekali, dan di Dev Tools muncul TypeError
Untuk perusahaan model coding AI, pengalaman pembeliannya terasa anehnya tidak mulus
Aku menguji model ini di Z.ai, dan untuk tugas yang berfokus pada matematika dan riset, model ini menunjukkan kemampuan berpikir setara GPT‑5.2 atau Gemini 3 Pro
Jelas lebih unggul daripada K2 thinking maupun Opus 4.5
Prompt dan output pengguna berbayar bisa dipakai untuk pelatihan, dan tidak ada opsi opt-out
Menurutku hosting pihak ketiga seperti synthetic.new lebih aman
GLM 4.6 sangat populer dari sudut pandang penyedia inferensi
Banyak pengguna memakainya untuk coding sehari-hari, dan peningkatan di 4.7 sangat dinantikan
Kesesuaian produk-pasar (PMF) jelas ada
Di beberapa komentar banyak yang membahas distillation, dan saat mencoba Claude-code di paket coding z.ai,
terasa ada jejak pelatihan dari model lain (ungkapan seperti “you’re absolutely right”, misalnya)
Meski begitu, rasio harga terhadap performanya luar biasa
Jadi pada akhirnya menurutku itu sulit dijadikan bukti pelatihan
Sulit untuk memastikan dengan tegas
Aku memakai model ini di dalam Claude Code API, dan kemampuannya menangani pekerjaan dengan menggabungkan berbagai alat sangat bagus
Tidak ada batas penggunaan mingguan seperti Claude, dan paket triwulanannya murah, hanya 8 dolar