- GLM-4.7 adalah model bahasa besar yang secara signifikan meningkatkan performa dibanding pendahulunya dalam coding multibahasa, pekerjaan berbasis terminal, dan penalaran kompleks
- Pada benchmark utama seperti SWE-bench, Terminal Bench 2.0, dan HLE, model ini mencatat peningkatan masing-masing sebesar +5.8%, +16.5%, dan +12.4%
- Kualitas pembuatan UI ditingkatkan sehingga mampu menghasilkan halaman web yang lebih rapi dan modern serta layout slide yang lebih akurat
- Melalui fitur Interleaved Thinking, Preserved Thinking, dan Turn-level Thinking, stabilitas dan konsistensi dalam tugas agen yang kompleks diperkuat
- Tersedia secara global melalui Z.ai API, OpenRouter, HuggingFace, dan lainnya, serta mendukung agen coding dan deployment lokal
Performa dan fitur utama
- GLM-4.7 mencapai peningkatan menyeluruh pada kemampuan coding dan penalaran dibanding GLM-4.6
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- Pada benchmark HLE(Humanity’s Last Exam), model ini mencapai 42.8%(+12.4%), memperkuat kemampuan matematika dan penalaran logis
- Kualitas pembuatan UI (Vibe Coding) meningkat, memungkinkan pembuatan halaman web dan slide yang lebih halus dan modern
- Kemampuan penggunaan tool meningkat, dengan skor tinggi pada τ²-Bench dan BrowseComp
- Peningkatan performa juga terlihat pada berbagai skenario seperti chat, kreasi, dan roleplay
Perbandingan benchmark
- GLM-4.7 dievaluasi bersama GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro, dan lainnya pada 17 benchmark
- Kategori reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Kategori coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Kategori agent: BrowseComp 52.0, τ²-Bench 87.4
- Pada beberapa metrik, hasilnya mendekati atau melampaui model papan atas
Penguatan mode thinking
- Interleaved Thinking: melalui tahap berpikir sebelum memberi respons dan memanggil tool, model meningkatkan kepatuhan terhadap instruksi dan kualitas hasil generasi
- Preserved Thinking: mempertahankan blok pemikiran dalam percakapan multi-turn untuk mengurangi kehilangan informasi dan inkonsistensi
- Turn-level Thinking: menyalakan atau mematikan fungsi thinking sesuai kompleksitas permintaan untuk menyeimbangkan akurasi dan biaya
- Fitur-fitur ini cocok untuk tugas agen coding jangka panjang dan kompleks
Pemanfaatan dan deployment
- Model GLM-4.7 tersedia melalui platform Z.ai API dan OpenRouter
- Dukungan integrasi tersedia di agen coding utama seperti Claude Code, Kilo Code, Roo Code, dan Cline
- Pelanggan GLM Coding Plan akan otomatis di-upgrade ke GLM-4.7, dan hanya perlu mengganti nama model pada file konfigurasi yang ada
- Bobot model dibuka di HuggingFace dan ModelScope, dengan dukungan inferensi lokal melalui framework vLLM dan SGLang
Contoh visual dan kreatif
- Tersedia berbagai contoh generasi seperti website frontend, karya seni 3D seperti Voxel Pagoda, poster, dan slide
- Peningkatan kualitas desain dibuktikan secara visual melalui dark mode kontras tinggi, efek animasi, dan layout yang lebih presisi
Konfigurasi dasar dan kondisi pengujian
- Tugas umum: temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench dan Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench: temperature 0, max new tokens 16384, dengan beberapa penyesuaian prompt per domain
Evaluasi keseluruhan
- GLM-4.7 merupakan tahap kemajuan AGI yang berfokus pada coding, dengan penekanan pada kualitas pengalaman penggunaan nyata di luar sekadar skor benchmark
- Model ini dirancang tidak hanya untuk performa pengujian, tetapi juga untuk kecerdasan yang terasa bagi pengguna dan integrasi yang baik
Belum ada komentar.