7 poin oleh GN⁺ 2025-12-23 | Belum ada komentar. | Bagikan ke WhatsApp
  • GLM-4.7 adalah model bahasa besar yang secara signifikan meningkatkan performa dibanding pendahulunya dalam coding multibahasa, pekerjaan berbasis terminal, dan penalaran kompleks
  • Pada benchmark utama seperti SWE-bench, Terminal Bench 2.0, dan HLE, model ini mencatat peningkatan masing-masing sebesar +5.8%, +16.5%, dan +12.4%
  • Kualitas pembuatan UI ditingkatkan sehingga mampu menghasilkan halaman web yang lebih rapi dan modern serta layout slide yang lebih akurat
  • Melalui fitur Interleaved Thinking, Preserved Thinking, dan Turn-level Thinking, stabilitas dan konsistensi dalam tugas agen yang kompleks diperkuat
  • Tersedia secara global melalui Z.ai API, OpenRouter, HuggingFace, dan lainnya, serta mendukung agen coding dan deployment lokal

Performa dan fitur utama

  • GLM-4.7 mencapai peningkatan menyeluruh pada kemampuan coding dan penalaran dibanding GLM-4.6
    • SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
    • Pada benchmark HLE(Humanity’s Last Exam), model ini mencapai 42.8%(+12.4%), memperkuat kemampuan matematika dan penalaran logis
  • Kualitas pembuatan UI (Vibe Coding) meningkat, memungkinkan pembuatan halaman web dan slide yang lebih halus dan modern
  • Kemampuan penggunaan tool meningkat, dengan skor tinggi pada τ²-Bench dan BrowseComp
  • Peningkatan performa juga terlihat pada berbagai skenario seperti chat, kreasi, dan roleplay

Perbandingan benchmark

  • GLM-4.7 dievaluasi bersama GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro, dan lainnya pada 17 benchmark
    • Kategori reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Kategori coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Kategori agent: BrowseComp 52.0, τ²-Bench 87.4
  • Pada beberapa metrik, hasilnya mendekati atau melampaui model papan atas

Penguatan mode thinking

  • Interleaved Thinking: melalui tahap berpikir sebelum memberi respons dan memanggil tool, model meningkatkan kepatuhan terhadap instruksi dan kualitas hasil generasi
  • Preserved Thinking: mempertahankan blok pemikiran dalam percakapan multi-turn untuk mengurangi kehilangan informasi dan inkonsistensi
  • Turn-level Thinking: menyalakan atau mematikan fungsi thinking sesuai kompleksitas permintaan untuk menyeimbangkan akurasi dan biaya
  • Fitur-fitur ini cocok untuk tugas agen coding jangka panjang dan kompleks

Pemanfaatan dan deployment

  • Model GLM-4.7 tersedia melalui platform Z.ai API dan OpenRouter
  • Dukungan integrasi tersedia di agen coding utama seperti Claude Code, Kilo Code, Roo Code, dan Cline
  • Pelanggan GLM Coding Plan akan otomatis di-upgrade ke GLM-4.7, dan hanya perlu mengganti nama model pada file konfigurasi yang ada
  • Bobot model dibuka di HuggingFace dan ModelScope, dengan dukungan inferensi lokal melalui framework vLLM dan SGLang

Contoh visual dan kreatif

  • Tersedia berbagai contoh generasi seperti website frontend, karya seni 3D seperti Voxel Pagoda, poster, dan slide
  • Peningkatan kualitas desain dibuktikan secara visual melalui dark mode kontras tinggi, efek animasi, dan layout yang lebih presisi

Konfigurasi dasar dan kondisi pengujian

  • Tugas umum: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench dan Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, dengan beberapa penyesuaian prompt per domain

Evaluasi keseluruhan

  • GLM-4.7 merupakan tahap kemajuan AGI yang berfokus pada coding, dengan penekanan pada kualitas pengalaman penggunaan nyata di luar sekadar skor benchmark
  • Model ini dirancang tidak hanya untuk performa pengujian, tetapi juga untuk kecerdasan yang terasa bagi pengguna dan integrasi yang baik

Belum ada komentar.

Belum ada komentar.