6 poin oleh GN⁺ 2026-02-12 | 4 komentar | Bagikan ke WhatsApp
  • Model bahasa skala besar yang meningkatkan efisiensi AI dan kemampuan menjalankan tugas jangka panjang
  • Dibanding pendahulunya, diperluas menjadi 744 miliar parameter (40 miliar aktif), dengan 28,5 triliun token data pralatih
  • Mengintegrasikan DeepSeek Sparse Attention (DSA) untuk mempertahankan kemampuan memproses konteks panjang sekaligus mengurangi biaya deployment
  • Melalui infrastruktur reinforcement learning asinkron baru slime, efisiensi pelatihan ditingkatkan dan performa tingkat atas dicatat di berbagai benchmark
  • Dirilis sebagai open source dan dapat diakses melalui Hugging Face, ModelScope, platform Z.ai dan lainnya, serta kompatibel dengan Claude Code dan OpenClaw

Ikhtisar GLM-5

  • GLM-5 adalah model yang dirancang untuk menjalankan rekayasa sistem kompleks dan tugas agen jangka panjang
    • Dibanding GLM-4.5, parameter meningkat dari 355 miliar (32 miliar aktif) menjadi 744 miliar (40 miliar aktif)
    • Data pralatih diperluas dari 23 triliun menjadi 28,5 triliun token
  • Dengan mengintegrasikan DeepSeek Sparse Attention (DSA), model ini mempertahankan kemampuan memproses konteks panjang sekaligus secara signifikan menekan biaya deployment
  • Memperkenalkan infrastruktur reinforcement learning asinkron bernama slime untuk meningkatkan throughput dan efisiensi pelatihan, serta memungkinkan iterasi post-training yang lebih rinci

Peningkatan performa dan hasil benchmark

  • GLM-5 menunjukkan peningkatan performa keseluruhan dibanding GLM-4.7, dan mendekati level Claude Opus 4.5
  • Pada set evaluasi internal CC-Bench-V2, model ini mencatat hasil unggul di frontend, backend, dan tugas jangka panjang
  • Di Vending Bench 2, meraih peringkat 1 di antara model open source, dengan saldo akhir $4.432 dalam simulasi bisnis mesin penjual otomatis selama 1 tahun
  • Memiliki performa open source kelas dunia di penalaran, coding, dan tugas agen secara menyeluruh
    • Contoh: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
  • Memperkecil jarak dengan model papan atas seperti GPT-5.2 dan Gemini 3.0 Pro

Rilis open source dan jalur akses

  • GLM-5 dirilis dengan lisensi MIT, dan bobot model dapat diunduh dari Hugging Face dan ModelScope
  • Dapat digunakan dalam bentuk API melalui Z.ai, BigModel.cn, api.z.ai, dan lainnya
  • Kompatibel dengan Claude Code dan OpenClaw, sehingga dapat diintegrasikan di berbagai lingkungan pengembangan
  • Platform Z.ai menyediakan uji coba gratis

Fitur office dan pembuatan dokumen

  • GLM-5 mengusung peralihan dari “chat” ke “work”, dan berperan sebagai alat office untuk pekerja pengetahuan dan engineer
  • Dapat langsung mengubah teks atau materi sumber menjadi format .docx, .pdf, .xlsx untuk menghasilkan dokumen jadi seperti PRD, lembar ujian, laporan keuangan, menu, dan lainnya
  • Aplikasi Z.ai menyediakan mode Agent yang mendukung pembuatan PDF/Word/Excel, serta memungkinkan kolaborasi multi-putaran

Dukungan untuk developer dan deployment

  • Pelanggan GLM Coding Plan bisa mendapatkan akses ke GLM-5 secara bertahap
    • Pengguna paket Max dapat langsung mengaktifkannya dengan nama model "GLM-5"
    • Permintaan GLM-5 menghabiskan kuota lebih banyak daripada GLM-4.7
  • Untuk pengguna yang lebih menyukai lingkungan GUI, tersedia lingkungan pengembangan agen Z Code
  • Melalui framework OpenClaw, GLM-5 dapat dimanfaatkan sebagai agen asisten pribadi yang bekerja di berbagai aplikasi dan perangkat

Deployment lokal dan kompatibilitas hardware

  • GLM-5 mendukung framework inferensi seperti vLLM, SGLang, dan panduan deployment tersedia di GitHub resmi
  • Juga dapat dijalankan pada chipset non-NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, dll.)
    • Melalui optimasi kernel dan kuantisasi model, throughput yang wajar dapat dicapai

4 komentar

 
GN⁺ 2026-02-12
Komentar Hacker News
  • Melihat hasil yang dihasilkan Pelican lewat OpenRouter
    Burungnya sendiri terlihat seperti unggas yang kokoh, tapi kurang cocok sebagai rangka sepeda
    Tautan terkait

    • Terima kasih kepada Simon yang menjaga satu-satunya sistem benchmark yang benar-benar bermakna
      Konteks uji sepeda Pelican bisa dilihat di sini
    • Menurutku ini benar-benar pengujian yang penting, salut untuk Simon
    • Sekarang benchmark Pelican terasa sudah ketinggalan zaman
      SVG sudah ada di mana-mana, jadi perlu skenario baru yang lebih realistis
    • Aku jadi penasaran, sebelum tes ini ada berapa banyak SVG pelican bersepeda
      Khawatirnya, jangan-jangan hasil seperti ini malah sedang mencemari data pelatihan
    • Menyebut burung tanpa sayap sebagai ‘burung yang kokoh’ menurutku adalah contoh simbolis dari kesenjangan ekspektasi AI
      Menarik juga bahwa AI sendiri bilang ‘perlu kaki berselaput’ tetapi itu tidak ada di gambar aslinya
      Sikap yang menganggap akurasi 90% seperti pada MMLU atau AIME sebagai ‘masalah yang sudah selesai’ terasa mengkhawatirkan
      Kalau benar-benar AGI, seharusnya mencapai akurasi 100%, tapi kita terlalu mudah merasa puas
  • Ke depan, replikasi cepat berbasis distillation di pasar abu-abu terasa tak terelakkan
    Dulu kupikir model N-1, N-2 tidak akan menarik, tapi sekarang bahkan preferensi pengguna pun tampaknya sudah jenuh, jadi itu pun mungkin sudah cukup memuaskan
    Opus 4.5 jelas lompatan besar, tapi 4.6 tidak mengubah workflow-ku
    Pada akhirnya, setelah ‘pencurian terbesar umat manusia’, sepertinya akan datang ‘balasan karma terbesar’
    Para pengguna sama sekali tidak akan peduli bahwa AI buatan Tiongkok mencuri dari big tech AS

    • Jika perusahaan LLM membenarkan penggunaan data pelatihan, maka distiller yang melatih dari keluaran LLM juga seharusnya sah secara logika yang sama
      Orang bisa berargumen, “itu cuma belajar seperti manusia, jadi kenapa ilegal?”
    • Menghalangi distillation justru seharusnya ilegal
      Cukup buat ribuan situs konten hasil AI, lalu publikasikan prompt dan info model di tiap post
      Orang lain kemudian ‘secara kebetulan’ meng-crawl itu dan memakainya untuk pelatihan
    • Opus 4.6 menonjol dalam ketahanan kerja panjang
      Rasanya bisa melangkah dua kali lebih jauh dibanding sebelumnya, jadi aku tidak ingin kembali lagi
    • Tapi konsumsi token-nya terlalu besar, jadi terasa seperti kemunduran dari sisi efisiensi
  • Benchmark terbaru memang mengesankan, tapi pembandingnya model generasi lama (Opus 4.5, GPT-5.2)
    Model terbuka yang rilis belakangan ini sering punya skor benchmark tinggi, tetapi pengalaman penggunaan nyatanya di bawah ekspektasi
    benchmaxxing jelas ada

    • Kritik terhadap model open-weight terasa terlalu agresif
      Menjalankan 20 benchmark juga bukan hal mudah, dan model generasi baru ini baru rilis 5 hari lalu
      Banyak developer terjebak dalam pemujaan model tertutup, dan tidak sadar bahwa prompt yang sama tidak bekerja di keluarga model lain
      Aku sering memakai GLM-4.7, levelnya setara Sonnet 4.5, dan GLM-5 mungkin akan setara Opus 4.5
    • Kalau GLM-4.7 memang setara 4.5 atau 5.2, itu sendiri sudah merupakan lompatan besar
    • Model sekarang pada akhirnya terasa cuma generator token
      Dalam blind test, mirip sampai sulit dibedakan
      Bahkan kalau membandingkan jawaban Claude dan ChatGPT pun hasilnya hampir sama
      Pada akhirnya untuk kebanyakan penggunaan, model kelas Toyota sudah cukup
    • Masalahnya ada pada keterbatasan RLHF (reinforcement learning from human feedback)
      Inovasi algoritmik mungkin saja terjadi, tetapi biaya pembuatan data manusia terlalu tinggi sehingga tidak bisa diskalakan
      Model open source masih sering menghasilkan error sintaks, sementara model frontier nyaris sudah menyelesaikan masalah itu
    • Anthropic, OpenAI, dan Google meningkatkan model mereka dengan data pengguna nyata,
      sedangkan lab Tiongkok lebih berfokus pada benchmark, maka muncullah perbedaan itu
      self-hosting dan perbaikan berkelanjutan sulit untuk berjalan bersamaan
  • Berkat open source dari Tiongkok, sepertinya kita akan bisa punya kecerdasan self-hosted
    Dari sisi biaya memang tidak efisien, tapi aku suka bahwa sistem itu bisa berjalan mandiri tanpa koneksi internet
    Pada akhirnya macOS adalah satu-satunya pilihan konsumen untuk menjalankan model besar secara lokal

    • Aku sering melewati batas langganan Claude Max, jadi sekarang bertahan dengan 2x RTX3090 dan model kuantisasi Qwen3
      Dari sisi privasi dan ketersediaan juga, self-hosting punya nilai
      Terutama sebagai antisipasi kalau regulasi digital AS makin ketat, kita butuh alternatif
    • Walaupun modelnya open-weight, data pelatihan dan standar sensor tetap tidak dibuka
      Meski begitu, kelebihannya adalah biasnya masih bisa diperbaiki lewat fine-tuning
    • Mesin Strix Halo dengan 128GB VRAM ada di kisaran 3 ribu dolar, dan itu sudah bisa menjalankan model yang lumayan bagus secara lokal
      Rekomendasinya GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash, dan lainnya
      Dalam 1~2 tahun, ada harapan bahwa hardware konsumen juga bisa menjalankan model kelas 512GB
    • Selain macOS, menaruh kotak inferensi headless Linux di rumah juga ide yang bagus
      Kembalinya jaringan rumahan
    • Menurutku yang lebih penting daripada hosting sendiri adalah komoditisasi hosting
      Intinya adalah kebebasan untuk mengganti penyedia kapan saja
  • Aku sudah memakai GLM-4.7 beberapa minggu, dan levelnya mirip Sonnet
    Hanya saja butuh instruksi yang lebih jelas
    Untuk pekerjaan besar aku masih pakai lini Anthropic, tetapi untuk tugas kecil dan jelas, GLM paling unggul dari sisi harga-performa

    • Pengalamanku juga mirip
      GLM-4.7 kalau dibiarkan sendiri punya kecenderungan membangun dunia yang tidak perlu
      Tapi untuk tugas kecil, kemampuannya mirip Sonnet, dan karena harganya sangat murah, berguna sebagai model pendamping
    • Selama 6~8 bulan terakhir aku cuma memakai Sonnet, sedangkan Opus sering kena bug rakus token
      Kalau model terbuka berkembang sekitar 6 bulan lagi, aku bersedia pindah
  • MiniMax M2.5 juga mulai hari ini tersedia di Chat UI
    GLM lebih baik untuk coding, tapi MiniMax sering kupakai untuk tugas harian berkat kecepatan dan kemampuan tool calling-nya

  • Model baru sudah tersedia di OpenRouter
    Dalam benchmark pribadiku, kemampuan mengikuti instruksi-nya sangat lemah
    Tesnya mengikuti format chat.md + mcps, tetapi gagal menjalankannya dengan benar

    • Format tool calling kustom dilatih berbeda-beda di tiap model, jadi rasanya sulit mendapatkan konsistensi
      Aku penasaran hasil seperti apa yang didapat di model frontier lain
    • Aku suka ide chat.md
      Aku juga sedang membuat editor teks berbasis keybinding vim, dan pendekatan ini sepertinya bisa jadi inspirasi UI
      Aku kepikiran menambahkan fitur untuk melipat teks yang tidak perlu
    • Masalahnya mungkin juga ada pada kualitas penyedia OpenRouter
      Kadang performanya memang buruk
    • OpenRouter kadang meng-host model terkuantisasi, jadi kualitasnya turun
      Kalau bisa, lebih baik langsung pakai penyedia aslinya
  • GLM-4.7-Flash terasa sebagai model cerdas pertama yang layak dipakai untuk coding lokal
    Levelnya mirip Claude 4.5 Haiku, dan proses penalarannya transparan, jadi kita bisa memahami kenapa ia mengambil keputusan seperti itu
    Jauh lebih baik daripada Devstral 2 Small atau Qwen-Coder-Next

    • minimax-m.2 juga cukup dekat levelnya
  • Aku memakai GLM 4.7 di opencode
    Bukan yang terbaik, tetapi berkat batas penggunaan yang longgar aku bisa memakainya seharian
    Model barunya masih terbatas aksesnya, tapi aku menantikannya

  • Aku sempat mencoba model baru itu sebentar di opencode dan cukup terkesan
    Memang bukan inovasi besar-besaran, tetapi jelas lebih baik daripada 4.7
    Daya ingat dan stabilitas untuk pekerjaan jangka panjang meningkat dengan jelas

 
jinifor 2026-02-12

Harga langganannya naik ya.

 
princox 2026-02-13

Diskon 50% yang diberikan saat pertama kali mendaftar sudah dihapus..

 
fanotify 2026-02-12

Harga promo super early-bird untuk paket Max tadinya $360 per tahun, sekarang jadi $672...