7 poin oleh GN⁺ 2025-12-23 | 1 komentar | Bagikan ke WhatsApp
  • GLM-4.7 adalah model bahasa besar yang secara signifikan meningkatkan performa dibanding pendahulunya dalam coding multibahasa, pekerjaan berbasis terminal, dan penalaran kompleks
  • Pada benchmark utama seperti SWE-bench, Terminal Bench 2.0, dan HLE, model ini mencatat peningkatan masing-masing sebesar +5.8%, +16.5%, dan +12.4%
  • Kualitas pembuatan UI ditingkatkan sehingga mampu menghasilkan halaman web yang lebih rapi dan modern serta layout slide yang lebih akurat
  • Melalui fitur Interleaved Thinking, Preserved Thinking, dan Turn-level Thinking, stabilitas dan konsistensi dalam tugas agen yang kompleks diperkuat
  • Tersedia secara global melalui Z.ai API, OpenRouter, HuggingFace, dan lainnya, serta mendukung agen coding dan deployment lokal

Performa dan fitur utama

  • GLM-4.7 mencapai peningkatan menyeluruh pada kemampuan coding dan penalaran dibanding GLM-4.6
    • SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
    • Pada benchmark HLE(Humanity’s Last Exam), model ini mencapai 42.8%(+12.4%), memperkuat kemampuan matematika dan penalaran logis
  • Kualitas pembuatan UI (Vibe Coding) meningkat, memungkinkan pembuatan halaman web dan slide yang lebih halus dan modern
  • Kemampuan penggunaan tool meningkat, dengan skor tinggi pada τ²-Bench dan BrowseComp
  • Peningkatan performa juga terlihat pada berbagai skenario seperti chat, kreasi, dan roleplay

Perbandingan benchmark

  • GLM-4.7 dievaluasi bersama GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro, dan lainnya pada 17 benchmark
    • Kategori reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Kategori coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Kategori agent: BrowseComp 52.0, τ²-Bench 87.4
  • Pada beberapa metrik, hasilnya mendekati atau melampaui model papan atas

Penguatan mode thinking

  • Interleaved Thinking: melalui tahap berpikir sebelum memberi respons dan memanggil tool, model meningkatkan kepatuhan terhadap instruksi dan kualitas hasil generasi
  • Preserved Thinking: mempertahankan blok pemikiran dalam percakapan multi-turn untuk mengurangi kehilangan informasi dan inkonsistensi
  • Turn-level Thinking: menyalakan atau mematikan fungsi thinking sesuai kompleksitas permintaan untuk menyeimbangkan akurasi dan biaya
  • Fitur-fitur ini cocok untuk tugas agen coding jangka panjang dan kompleks

Pemanfaatan dan deployment

  • Model GLM-4.7 tersedia melalui platform Z.ai API dan OpenRouter
  • Dukungan integrasi tersedia di agen coding utama seperti Claude Code, Kilo Code, Roo Code, dan Cline
  • Pelanggan GLM Coding Plan akan otomatis di-upgrade ke GLM-4.7, dan hanya perlu mengganti nama model pada file konfigurasi yang ada
  • Bobot model dibuka di HuggingFace dan ModelScope, dengan dukungan inferensi lokal melalui framework vLLM dan SGLang

Contoh visual dan kreatif

  • Tersedia berbagai contoh generasi seperti website frontend, karya seni 3D seperti Voxel Pagoda, poster, dan slide
  • Peningkatan kualitas desain dibuktikan secara visual melalui dark mode kontras tinggi, efek animasi, dan layout yang lebih presisi

Konfigurasi dasar dan kondisi pengujian

  • Tugas umum: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench dan Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, dengan beberapa penyesuaian prompt per domain

Evaluasi keseluruhan

  • GLM-4.7 merupakan tahap kemajuan AGI yang berfokus pada coding, dengan penekanan pada kualitas pengalaman penggunaan nyata di luar sekadar skor benchmark
  • Model ini dirancang tidak hanya untuk performa pengujian, tetapi juga untuk kecerdasan yang terasa bagi pengguna dan integrasi yang baik

1 komentar

 
GN⁺ 2025-12-23
Komentar Hacker News
  • Menurutku menarik bahwa model MoE dioptimalkan untuk agen coding, penalaran kompleks, dan penggunaan alat
    Model ini memiliki 358B/32B parameter aktif, context window 200k, mendukung tool calling gaya OpenAI, dan merupakan model multibahasa yang berfokus pada bahasa Inggris/Tionghoa
    Diperkirakan berukuran 716GB pada FP16, dan sekitar 220GB pada Q4_K_M
    Secara teori, hal yang menarik adalah model ini bisa dijalankan secara lokal bahkan di Mac Studio yang relatif murah
    Jika dipakai bersama alat bantu seperti Kimik2, sepertinya kita bisa mendapatkan dukungan coding yang cukup berguna tanpa bergantung pada penyedia LLM besar

    • Aku pernah menjalankan LLM di Mac Studio Ultra M1 bekas (RAM 128GB), dan ternyata terlalu lambat
      Bahkan versi quantized 4bit dari GLM 4.6 pun sangat lambat, bukan hanya dalam kecepatan pemrosesan token, tetapi juga pada pemrosesan input, tokenisasi, dan pemuatan prompt, sehingga benar-benar menguji kesabaran
      Orang sering hanya membahas angka TPS, padahal dalam praktiknya waktu pemuatan input adalah bottleneck-nya
    • Kalau ini adalah tool calling gaya OpenAI, kupikir kemungkinan besar berbasis Harmony
      Namun secara realistis, kalau dijalankan di Mac Studio kemungkinan besar akan terasa terlalu lambat dan akhirnya disesali
      Sampai hardware menjadi lebih murah atau modelnya lebih kecil, menurutku lebih baik memakai API berbayar
    • Kalau seseorang dari masa lalu melihat komentar ini, mungkin akan sulit mempercayainya
    • Versi Sonnet harus diperbaiki menjadi 4.5
      Kualitas output-nya terasa jauh lebih indah dibanding GLM‑4.6
      Mungkin besar karena data yang didistilasi dari model tertutup, tetapi tetap saja aku lebih menyukai model open-source
    • Aku berencana menjalankan model ini dengan dua sistem Strix Halo (total RAM 256GB) yang dihubungkan lewat USB4/TB3
  • Cerebras saat ini melayani GLM 4.6 dengan kecepatan 1000 token per detik
    Kemungkinan besar mereka akan segera meng-upgrade ke model baru
    Aku penasaran seberapa baik model generasi setelah GLM 4.7 akan bekerja dalam lingkungan organisasi pengembangan perangkat lunak yang disimulasikan
    Misalnya, apakah model itu bisa memperbaiki error sendiri sambil mengakumulasi kode yang berguna, atau justru hanya menumpuk utang teknis
    Aku membayangkan struktur di mana model kelas atas seperti Opus 4.5 atau Gemini 3 berperan sebagai ‘manajer’
    Referensi terkait: tulisan Anthropic tentang desain agen yang berjalan jangka panjang
    Jika model open-source menjadi cukup bagus, kemampuan menjalankannya di Cerebras pada 1k TPS akan menjadi keunggulan besar

    • Aku memakai Opus untuk menulis rencana detail dan pengujian, lalu Cerebras GLM 4.6 untuk implementasinya
      Saat ada ketidakpastian, aku minta Opus meninjau ulang
    • Aku juga berpikir perkembangannya akan mengarah ke sana
      Model tingkat atas akan berfungsi sebagai guardrail, sementara agen yang cepat dan kompeten menangani pekerjaan nyata
      Jika konteksnya cukup luas dan memiliki ‘taste’, kombinasi seperti ini saja mungkin sudah cukup untuk mewujudkan produktivitas dan kecerdasan yang memadai
    • Aku penasaran dengan harga API Cerebras
      Kurasa mungkin biaya bisa ditekan dengan menurunkan kecepatan token dan mengurangi konsumsi daya
    • Aku penasaran apakah mudah menjadi pelanggan berbayar Cerebras
      Saat terakhir kulihat, kesannya seperti closed beta
  • Z.ai tampak murah dan performanya juga lumayan, tetapi syarat layanannya cukup berat
    Ada larangan mengembangkan model pesaing, larangan mengungkapkan cacat, pemberian hak penggunaan yang sangat luas atas konten pengguna, penerapan hukum Singapura, dan sebagainya
    Di tengah situasi ketika perusahaan besar menggelontorkan modal raksasa, ada kemungkinan Z.ai mencoba menguasai pasar dengan strategi dumping
    Dalam jangka pendek ini menguntungkan konsumen, tetapi dalam jangka panjang ada risiko kompetisi menghilang
    Pada akhirnya bisa saja muncul situasi di mana perusahaan maupun individu harus memakai layanan ini demi bertahan hidup

    • Menurutku modal raksasa adalah ancaman terbesar bagi inovasi
      95% trafik ChatGPT berasal dari pengguna gratis, dan Gemini juga punya banyak kredit gratis untuk developer
      Dalam struktur seperti ini, sulit bagi lab kecil untuk bersaing
      Meski begitu, lab-lab Tiongkok tetap terlihat seperti penantang kecil yang gigih
  • Aku bertanya, “apakah membenarkan jika seorang pemimpin memerintahkan pembunuhan ratusan demonstran damai?”
    Model itu menolak menjawab dan malah memunculkan pesan error
    Kemungkinan karena kebijakan sensor atau topik politik sensitif

  • Aku sudah memakai GLM 4.6 di Cerebras (atau Groq), dan kecepatan ini benar-benar terasa seperti melihat masa depan
    Bahkan kalau AGI tidak datang, aku rasa aku tetap akan sangat puas jika model seperti ini bisa dijalankan di tablet atau laptop

    • Apple M5 Max tampaknya akan mampu menjalankan model quantized 8bit (sekitar 360GB) dengan cukup baik berkat peningkatan pemrosesan prompt dan bandwidth
      Strix Halo kurang cocok karena memori dan bandwidth-nya tidak memadai
      Untuk mendapatkan performa yang diinginkan saat ini, diperlukan konfigurasi multi-GPU
    • Cerebras dan Groq cepat berkat desain chip mereka sendiri
      Akan bagus kalau bisa diperluas ke produk konsumen, tetapi kecepatan saat ini dimungkinkan oleh arsitektur chip yang dihubungkan lewat jaringan
      Kemampuan setingkat AGI kemungkinan besar masih akan lebih dulu terwujud di level data center
  • Saat menekan tombol subscribe tidak ada respons sama sekali, dan di Dev Tools muncul TypeError
    Untuk perusahaan model coding AI, pengalaman pembeliannya terasa anehnya tidak mulus

    • Tombol Subscribe baru berfungsi setelah akun dibuat lebih dulu
  • Aku menguji model ini di Z.ai, dan untuk tugas yang berfokus pada matematika dan riset, model ini menunjukkan kemampuan berpikir setara GPT‑5.2 atau Gemini 3 Pro
    Jelas lebih unggul daripada K2 thinking maupun Opus 4.5

    • Tapi langganan Z.ai tidak direkomendasikan untuk penggunaan kerja
      Prompt dan output pengguna berbayar bisa dipakai untuk pelatihan, dan tidak ada opsi opt-out
      Menurutku hosting pihak ketiga seperti synthetic.new lebih aman
  • GLM 4.6 sangat populer dari sudut pandang penyedia inferensi
    Banyak pengguna memakainya untuk coding sehari-hari, dan peningkatan di 4.7 sangat dinantikan
    Kesesuaian produk-pasar (PMF) jelas ada

  • Di beberapa komentar banyak yang membahas distillation, dan saat mencoba Claude-code di paket coding z.ai,
    terasa ada jejak pelatihan dari model lain (ungkapan seperti “you’re absolutely right”, misalnya)
    Meski begitu, rasio harga terhadap performanya luar biasa

    • Aku juga melihat Gemini 3 Flash memakai ungkapan yang sama hari ini
      Jadi pada akhirnya menurutku itu sulit dijadikan bukti pelatihan
    • Bisa juga data internet memang telah berkonvergensi secara mirip
      Sulit untuk memastikan dengan tegas
  • Aku memakai model ini di dalam Claude Code API, dan kemampuannya menangani pekerjaan dengan menggabungkan berbagai alat sangat bagus
    Tidak ada batas penggunaan mingguan seperti Claude, dan paket triwulanannya murah, hanya 8 dolar

    • Aku penasaran apakah di Claude Code, setelah memakai model Claude secara default lalu mencapai batas pemakaian, bisa beralih ke model GLM