GLM 5.2 vs Opus

(techstackups.com)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Saat diminta membuat game platformer 3D WebGL mentah dengan prompt one-shot yang sama, Opus menghasilkan hasil yang lebih cepat dan lebih matang, sementara GLM-5.2 menunjukkan keunggulan pada biaya rendah dan bobot terbuka
GLM-5.2 adalah model open-weight berlisensi MIT dari Z.ai yang menyediakan konteks 1M token dan tingkat penalaran High/Max, tetapi karena hanya berbasis teks, ada keterbatasan untuk verifikasi mandiri berbasis gambar
Biaya pengujian aktual untuk GLM-5.2 adalah $5.39, sedangkan Opus sekitar $21.92; waktu build masing-masing 1 jam 10 menit 40 detik dan 33 menit 30 detik, sehingga pilihan terbagi antara kecepatan dan biaya
Hasil GLM-5.2 memiliki masalah dasar seperti tekstur yang hilang, spike yang tidak berfungsi, tidak adanya kondisi menang, dan overlay debug yang masih tersisa, sedangkan Opus lebih rapi tetapi masih menyisakan deteksi pijakan udara yang terlalu longgar dan trigger kemenangan yang terlalu jauh
Dalam benchmark dan evaluasi eksternal, GLM-5.2 terlihat sebagai model open-weight yang kuat, tetapi Opus unggul di banyak tugas coding dan agentik; biaya, keterbukaan, dan penilaian visual menjadi kriteria pemilihannya

Perbedaan yang terlihat pada tugas yang sama

GLM-5.2 adalah contoh terbaru yang menunjukkan potensi model terbuka, tetapi pada tugas nyata yang sama Claude Opus 4.8 menghasilkan output yang lebih cepat dan lebih akurat
Pengujian dilakukan dengan memberikan prompt one-shot yang sama kepada kedua model, lalu meminta mereka membuat game platformer 3D untuk browser dari nol dengan WebGL mentah tanpa game engine atau library rendering 3D seperti Three.js
Kedua hasil dan source code-nya tersedia untuk publik
Kedua game sama-sama menggunakan Kenney Platformer Kit, aset gratis berlisensi CC0

Karakter dan pendekatan GLM-5.2

GLM-5.2 adalah model flagship terbaru dari Z.ai dan tersedia sebagai open-weight berlisensi MIT
- Bisa diunduh dan dijalankan sendiri atau dipanggil melalui API Z.ai
- Bobotnya tersedia di Hugging Face dan ModelScope tanpa pembatasan wilayah
- Dapat disajikan secara lokal dengan framework seperti vLLM, SGLang, dan Transformers
Model ini ditujukan untuk tugas long-horizon seperti pekerjaan agent coding multi-langkah berdurasi panjang
- Menyediakan jendela konteks 1M token
- Memiliki tingkat penalaran High dan Max; dalam tes ini yang digunakan adalah High
Keterbatasan paling menentukan adalah bahwa model ini hanya berbasis teks
- GLM-5.2 tidak dapat membaca gambar
- Workflow yang perlu memeriksa screenshot atau diagram secara langsung memerlukan model multimodal seperti Claude Opus

Harga dan biaya eksekusi

Menurut dokumentasi vendor, harga per 1M token untuk GLM-5.2 lebih rendah daripada Opus
- Claude Opus 4.8: input $5, cache read $0.50, output $25
- GLM-5.2: input $1.4, cache read $0.26, output $4.4
Berdasarkan token output, GLM-5.2 berharga kurang dari seperlima harga Opus
Dalam pengujian pembuatan game nyata, waktu dan biaya bergerak ke arah yang berlawanan

Metrik	GLM-5.2 (Pi/OpenRouter)	Opus (Claude Code)
Waktu build berdasarkan jam dinding	1 jam 10 menit 40 detik	33 menit 30 detik
Token output	131,000	216,809
Penggunaan konteks maksimum	16% dari 1M	19% dari 1M
Pemanggilan tool	128	153
Biaya	$5.39 tagihan aktual	sekitar $21.92 estimasi

Opus selesai dalam sekitar setengah waktu, sementara GLM-5.2 menyelesaikan pekerjaan dengan biaya yang jauh lebih rendah

Tugas uji: game platformer 3D WebGL mentah

Tugas ini lebih kompleks daripada sekadar membuat landing page sederhana
- Parser model GLB
- Matematika matriks dan vektor
- Shader GLSL
- Animasi skeletal skinned
- Loop fixed timestep
- Penanganan tabrakan
- Kamera follow
Kedua model menerima prompt yang sama, aset yang sama, dan satu percobaan tunggal tanpa petunjuk
Kondisi selesai yang diminta adalah sebagai berikut
- Engine dan renderer 3D berbasis WebGL mentah
- Loader untuk karakter 3D dan model dunia yang disediakan
- Gerak dan lompat karakter dengan gravitasi dan tabrakan
- Kamera follow dan kontrol keyboard
- Game lengkap yang bisa dijalankan di browser dengan satu perintah
Kedua model sama-sama mengimplementasikan sendiri sebagian besar parser biner GLB, matematika matriks dan quaternion, renderer WebGL2, shader skinning GLSL, serta collision AABB substep
Catatan build juga dipublikasikan
- Opus build transcript
- GLM-5.2 build transcript

Hasil permainan dan bug yang tersisa

Kedua game sama-sama berbentuk game platformer 3D third-person
- Bergerak dengan WASD atau tombol arah
- Melompat dengan Space
- Berlari dengan Shift
- Putar kamera dengan drag mouse
- Zoom dengan roda mouse
- Tujuannya mengumpulkan koin, menghindari spike, dan mencapai bendera
- Jika jatuh keluar map, pemain kembali ke titik awal
Hasil GLM-5.2
- Game buatan GLM-5.2 menunjukkan tingkat penyelesaian yang kasar secara keseluruhan
- Beberapa material karakter hilang, dan ada masalah karakter berjalan sambil menghadap berlawanan dari arah geraknya
- Jebakan spike tidak membunuh atau me-reset karakter, dan kondisi menang tidak aktif meski sudah mencapai bendera
- Saat kamera bergerak, kepala karakter menghilang, dan overlay debug masih tertinggal
- Bagian saat menginjak pegas lalu karakter terpental ke platform berikutnya bekerja dengan baik
- Model Kenney merujuk ke palet warna bersama di file terpisah, tetapi renderer GLM-5.2 tidak memuat file itu sehingga digantikan dengan warna datar
Hasil Opus
- Game buatan Opus lebih bersih dan bekerja lebih baik
- Kamera dan controller berfungsi, dan logika spike yang membunuh pemain juga berjalan
- Tekstur terpasang dengan benar, animasi halus, dan pemain bisa menang saat mencapai bendera
- Bug yang tersisa lebih dekat ke edge case daripada fungsi dasar
- Karakter bisa berdiri sesaat di udara di sisi platform; ini akibat masa tenggang coyote-time yang terlalu longgar sehingga lompat masih diizinkan sesaat setelah keluar dari tepi
- Kondisi menang aktif bahkan saat masih cukup jauh dari bendera

Perbedaan multimodal yang memisahkan verifikasi mandiri

Kedua model sama-sama diminta memverifikasi hasil sebelum menyelesaikan pekerjaan
Karena Opus adalah model multimodal, ia merender game lalu memeriksa screenshot yang ditangkap secara langsung
- Ia melihat indikator debug yang masih tertinggal di layar, lalu menghapusnya sebelum menyelesaikan pekerjaan
- Pada adegan akhir, ia memeriksa blok, tangga, koin, permata, spike, bendera, karakter, HUD skor, pencahayaan, dan geometri
GLM-5.2 tidak dapat membaca gambar sehingga tidak bisa melihat screenshot secara langsung
- Sebagai gantinya, ia memakai cara memutar dengan membaca data piksel mentah dan mengecek apakah warna secara kasar sesuai harapan
- Pada gambar yang disimpan, ia memeriksa kondisi warna seperti grass green, dirt brown, coin gold, flag red, character bluish, half-Lambert lit, no black
Cara ini melewatkan masalah pada tampilan layar sebenarnya
- Karakter terlihat abu-abu dan teksturnya hilang
- Overlay debug masih tetap ada di atas layar
Pada tugas yang menekankan hasil visual, verifikasi multimodal yang bisa memahami gambar menghasilkan perbedaan kualitas nyata

Posisi yang terlihat di benchmark

Dalam benchmark model card Z.ai, GLM-5.2 sering berada tepat di belakang model tertutup papan atas, dan pada beberapa benchmark penalaran bahkan unggul
Angka utamanya adalah sebagai berikut
- HLE: GLM-5.2 40.5, Opus 4.8 49.8
- HLE with tools: GLM-5.2 54.7, Opus 4.8 57.9
- AIME 2026: GLM-5.2 99.2, Opus 4.8 95.7
- IMOAnswerBench: GLM-5.2 91.0, Opus 4.8 83.5
- SWE-bench Pro: GLM-5.2 62.1, Opus 4.8 69.2
- NL2Repo: GLM-5.2 48.9, Opus 4.8 69.7
- ProgramBench: GLM-5.2 63.7, Opus 4.8 71.9
- SWE-Marathon: GLM-5.2 13.0, Opus 4.8 26.0
- MCP-Atlas public: GLM-5.2 76.8, Opus 4.8 77.8
- Tool-Decathlon: GLM-5.2 48.2, Opus 4.8 59.9
Hasil eksekusi independen dari ArtificialAnalysis juga menilai GLM-5.2 sebagai model open-weight yang kuat
- Skor Intelligence Index v4.1: 51
- Lebih tinggi daripada MiniMax-M3 44, DeepSeek V4 Pro 44, dan Kimi K2.6 43
- TerminalBench v2.1 berada di 78%, menggunakan harness yang berbeda dari 81 atau 82.7 pada model card
- Token output per tugas sekitar 43k, lebih banyak daripada 26k milik GLM-5.1
Arah benchmark sejalan dengan pengujian nyata
- GLM-5.2 berada di jajaran terdepan model open-weight dan punya daya saing tertentu dalam penalaran
- Opus unggul di banyak benchmark coding dan agentik

Respons eksternal

Simon Willison menilai GLM-5.2 sebagai “mungkin LLM open-weight text-only paling kuat”
- Dalam tes SVG miliknya, GLM-5.2 menghasilkan pelikan yang mengendarai sepeda dalam bentuk animasi penuh tanpa bagian rusak
- Tes possum yang mengendarai skuter tidak sebaik GLM-5.1 sebelumnya, sehingga performanya tidak sepenuhnya konsisten
Artificial Analysis menilai GLM-5.2 sebagai model open-weight terdepan dalam Intelligence Index mereka
- Mereka melihatnya sebagai model termurah di level yang sama, berada di frontier cost-versus-intelligence
- Namun model ini juga ditandai boros token, memakai sekitar 43k token output per tugas
Nathan Lambert menilai bahwa berdasarkan leaderboard LMArena, GLM-5.2 bahkan bisa dianggap agen yang lebih baik daripada Gemini, dan sebagai model terbuka berlisensi MIT ini merupakan “serious accomplishment”
- Ia menekankan bahwa model AS papan atas masih unggul secara keseluruhan, tetapi lab Tiongkok mencapai skor tinggi dengan komputasi yang lebih sedikit

Model mana yang sebaiknya dipilih

GLM-5.2 adalah model open-weight yang memberikan performa kuat dengan sebagian biaya Opus
- Cocok saat biaya dan keterbukaan penting, serta tugas terutama berfokus pada teks dan logika
- Bobot yang bisa diunduh tidak bisa tiba-tiba dipensiunkan atau dibatasi seperti model tertutup
Opus dalam pengujian menghasilkan hasil yang lebih cepat, lebih bersih, dan lebih akurat
- Dapat melihat dan memverifikasi hasil visual secara langsung
- Lebih cocok untuk tugas yang menuntut akurasi, kebijakan, dan penilaian visual, ketika biaya masih bisa ditanggung
GLM-5.2 tampak bukan sebagai model utama pengganti Opus, melainkan lebih sebagai model pendamping yang kuat, murah, dan selalu dapat diakses

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Saya benar-benar tidak paham kenapa one-shot prompting jadi seheboh ini
Secara definisi, satu prompt tunggal tidak mungkin memuat kompleksitas sebuah proyek perangkat lunak. Pada akhirnya model hanya membuat berbagai asumsi berdasarkan kode yang sudah ada di korpus latihannya lalu menghasilkan keluaran
Saya justru ingin melihat agen coding yang mengikuti langkah-langkah dalam file rencana dengan tepat, sambil mematuhi guardrail spesifikasi yang sudah ditinjau manusia dan konvensi coding. Perlu juga diverifikasi apakah loop agen untuk tujuan yang ditetapkan manusia bisa tetap berada dalam guardrail dan tidak goyah sampai tugas selesai
Selain itu, kemampuan memahami konteks use case yang ingin dibuat, menemukan bug atau peluang peningkatan performa di kode yang ada, dan mengusulkan refactoring adalah metrik yang jauh lebih berharga
- Eksperimen ini menarik dalam arti ingin melihat apakah model bisa menghasilkan sesuatu yang secara subjektif dinilai bagus hanya dari spesifikasi yang agak ambigu dan terbuka
  Ini lebih dekat ke melihat apakah output-nya konsisten secara internal, bukan benchmark yang memeriksa apakah output sesuai dengan input. Jika berupa game, misalnya apakah game selesai saat tujuan tercapai, mati saat menyentuh duri, dan tidak menimbulkan edge case aneh saat bergerak
  Meski begitu, menurut saya seharusnya eksperimen diulang beberapa kali dalam lingkungan eksekusi yang sama untuk melihat variasi hasilnya juga
- Masalahnya bukan pada one-shot itu sendiri, melainkan situasi greenfield yang dimulai dari proyek kosong
  Dulu saya suka mengejek engineer yang mencoba framework dari README pada proyek kosong lalu berkata, “framework ini paling cocok untuk aplikasi produksi kami yang sudah berumur 10 tahun.” Cara berpikir greenfield adalah solusi bagi semua masalah sekaligus masalah bagi semua solusi
  Kemampuan one-shot memang metrik introspektif yang penting sehingga tetap perlu diukur, tetapi seharusnya pada codebase skala besar yang sudah mapan
- Saat ini memang belum ada orang yang mencoba melakukan pekerjaan serius dengan one-shot, tapi ini tetap metrik penting
  Alasan Claude Code dan Opus mendapat banyak perhatian adalah karena lingkungan eksekusinya membaik sehingga mereka bisa memperbaiki banyak kesalahan sendiri tanpa input pengguna. Dalam jangka panjang, peningkatan terbesar ke depan kemungkinan akan datang dari otonomi berjam-jam dan kemampuan memperbaiki diri
- One-shot layak diuji, tetapi hanya bermakna saat prompt-nya sangat besar, seperti “buat ini sesuai spesifikasi”
  Menurut saya, menghasilkan jutaan token dari hanya beberapa token input tidak menyampaikan banyak makna
- Jika model dapat menerima instruksi yang makin kompleks dan memenuhi kebutuhan tanpa campur tangan manusia, performa keseluruhannya bisa dinilai dengan cukup mudah
  Untuk mengevaluasi model yang lebih baik, cukup tambahkan lebih banyak requirement pada tugasnya. Mungkin bukan use case yang realistis, tetapi menurut saya ini tetap metode yang berguna
  Tentu saja jika diarahkan oleh software engineer, model bisa menghasilkan hasil yang jauh lebih baik. Tergantung engineer-nya, hasilnya juga bisa lebih buruk
Eksekusi one-shot tunggal seperti “head-to-head Claude Opus 4.8 dengan prompt one-shot yang sama: membuat game platformer 3D dari nol dengan WebGL mentah” bukan benchmark dan juga tidak mewakili penggunaan nyata
Sebagian besar penggunaan agen bersifat kolaboratif, jadi yang perlu diuji adalah reliabilitas seperti apakah ia benar-benar menyelesaikan tugas tanpa mengarang hasil tes, serta controllability seperti apakah ia mengikuti instruksi saya atau malah bertindak menurut maunya sendiri
- Saya penulisnya, dan saya sepenuhnya setuju. Kali ini saya melakukannya sebagai vibe test, bukan benchmark, dan benchmark yang sebenarnya sudah saya daftarkan secara terpisah
  Tes ini menunjukkan apa yang bisa dilakukan kedua model ketika diberi tugas one-shot yang lama dan sulit secara teknis
  Format yang melihat kolaborasi, pendelegasian tugas, penyelesaian, test-driven development, dan controllability menurut saya adalah tes bagus yang wajib dicoba ke depannya
- Sebaliknya, saya baru saja memasang GPT 5.5 ke agen Raspberry Pi dan membiarkannya menjalankan tugas jangka panjang yang didefinisikan dengan jelas semalaman; sudah berjalan sekitar 10 jam dan hampir selesai. Use case seperti ini juga valid
  Kalau dipikir-pikir, sebagian besar pekerjaan agen yang saya lakukan adalah sub-agen yang berjalan dengan prompt mereka sendiri di sesi utama. Itu juga bisa dilihat sebagai versi singkat dari pekerjaan yang sepenuhnya otonom
- Jadi memang harus dilihat sebagai gabungan benchmark resmi, analisis panjang yang dibandingkan berdampingan, dan evaluasi dari beberapa orang yang kita percaya
  Tulisan itu juga membahas hal seperti itu, dan ini sendiri memang tidak dimaksudkan sebagai benchmark resmi. Benchmark resmi sudah banyak sekali
Karena Anthropic terus melempar 529 Overloaded, kemarin saya mendaftar GLM 5.2 dan mencobanya
Saya suka, tetapi hanya dengan satu sesi berisi 2 prompt di xhigh GLM 5.2 saja sudah memakan 22% penggunaan paket Lite dalam jendela reset 5 jam
Hasilnya memuaskan dan kualitasnya juga bagus. Saya ingin memakai keduanya, jadi akan bagus kalau ada paket langganan terpadu yang bisa memakai Anthropic dan GLM sekaligus
Kesan saya setelah memakai GLM 5.2 di beberapa proyek adalah butuh waktu cukup lama sebelum mulai menulis kode, dan ini sama sekali bukan model yang cepat
Pada tahap eksplorasi dan perencanaan ia sering melenceng, lalu membetulkan arah sesudahnya, dan tidak mudah dikendalikan. Ia berhalusinasi tentang hal-hal yang nantinya juga tidak ia ikuti sendiri. Meski begitu, kualitas output-nya cukup bagus
Misalnya, saya mengoptimalkan rendering di codebase Swift+Zig dan mentok di 5 ribu item data. GLM 5.2 menghabiskan 20 menit untuk membuat benchmark dan mengekstrak data, lalu karena frustrasi saya memblokir akses alat selain editor dan pergi. Sekitar 30 menit kemudian saat saya kembali, ia sudah mengoptimalkan 3 bottleneck berdasarkan benchmark yang tadi dibuat dan beberapa “kesimpulan”, sambil mengatakan bahwa butuh lebih banyak data karena ia tidak bisa memverifikasi kecurigaannya
Implementasinya bekerja dengan baik dan terasa idiomatis serta tidak invasif. Bahkan bisa dibilang lebih idiomatis daripada hasil yang dibuat GPT 5.5 di repositori yang sama. Saya ingin lebih sering memakainya, tetapi GPT biasanya menyelesaikan permintaan yang sama 5 kali lebih cepat
Berkat GLM 5.2 saya jadi menyiapkan konfigurasi untuk menjalankan beberapa instance paralel di dalam container terisolasi dan workspace JJ
- Belum lama ini saya memakainya untuk tugas yang prioritasnya rendah, yang tidak bisa dipecahkan model lain dan saya juga tidak ingin membakar Opus 4.8
  Masalahnya adalah mencegat klik kiri di menu bar macOS, lalu membuat Ctrl+klik atau klik kanan memunculkan menu seperti klik kiri biasa, tetapi hanya secara kondisional
  Di tengah sesi pemecahan masalah, saya mengganti model ke GLM-5.2, bahkan tanpa memasukkan ulang prompt dan dengan pergantian di tengah proses penalaran, lalu beberapa menit kemudian masalahnya selesai. Saya memakainya lewat alokasi berbasis langganan OpenCode Go, dan masalah seperti ini bisa saja menghabiskan seluruh jatah Opus pada jendela 5 jam saat ini atau bahkan sampai batas mingguan
- Saya juga suka karena bisa melihat seluruh jejak penalaran
  Saat model mulai keluar jalur atau menemukan sesuatu yang belum saya jelaskan, saya bisa menghentikannya dan memperbaikinya. Atau saya juga bisa belajar kenapa ia mengambil pilihan itu, jadi nanti tidak perlu terlalu banyak bertanya-tanya
Pengalaman saya juga mirip. Saya memakainya di Pi, dan meskipun cerdas serta hasil keluarannya bagus, proses untuk sampai ke sana tidak efisien
- Harga juga jadi masalah. Saya ingin mencobanya, tetapi kalau hanya sekitar 30% lebih murah daripada Opus, saya rasa saya tidak akan memilihnya selama masalah-masalah ini masih ada
Ada kalimat, “GLM-5.2 tidak bisa membaca gambar, jadi masalah muncul di sini. Karena ini bukan multimodal. Jadi alih-alih melihat screenshot, saya memakai trik dengan menulis skrip yang membaca data piksel mentah dan memeriksa apakah warnanya kurang lebih keluar sesuai harapan,” tetapi cara yang lebih baik adalah memakai https://github.com/openbmb/MiniCPM-V
- Betul. Kalau model teks LLM diberi akses ke agen khusus visual, masalah itu teratasi
  Kalau benar-benar mau, gambar juga bisa dipanggil ke Opus, dan sepertinya tetap akan menghemat biaya
Saya mendaftar ke Ollama untuk bereksperimen dengan model open source
Selama 3 bulan terakhir, saya terus berada di tahap coba-coba dan pemakaian eksperimental, tetapi GLM adalah model pertama yang saya pakai setiap hari bersama Claude untuk pekerjaan coding nyata. Cukup bagus sampai-sampai saya selalu menghabiskan batas pemakaian Ollama setiap hari
- Menarik. Saya penasaran, GLM Anda pakai untuk jenis pekerjaan seperti apa, dan model lain apa yang Anda rasa berguna lewat Ollama
GLM memakai lebih sedikit token dan juga lebih sedikit pemanggilan alat, tetapi butuh lebih dari dua kali lebih lama untuk selesai
Kalau waktu itu bukan dipakai oleh perilaku model itu sendiri, saya penasaran habis di mana
Apakah tiap pemanggilan alat lebih kompleks sehingga butuh lebih lama, atau modelnya melakukan lebih banyak komputasi per token sehingga token per detik lebih rendah?
- Opus dan GPT 5.5 sangat bagus dalam menyesuaikan tingkat berpikir dan intensitas penalaran tergantung pekerjaannya, dan saya merasa model open-weight masih belum sebaik itu pada aspek tersebut
  Selain itu, beberapa model open-weight seperti GLM 5.2 atau DeepSeek v4 Pro memang jauh lebih lambat dalam kecepatan menghasilkan token, jadi itu memengaruhi latensi yang terasa. Meski begitu, sulit juga menyebut GLM 5.2 sebagai model lambat; misalnya, saat ini di dalam Notion justru ini salah satu model tercepat
- Kemungkinan besar pengaruh pusat data tempat model berjalan yang paling besar
  Kemungkinan lain, Opus mungkin memakai pendekatan seperti Mixture of Experts, sehingga bagian model yang perlu dimuat ke memori sekaligus bisa lebih kecil daripada GLM
- Bisa jadi karena infrastruktur. Anthropic tampaknya jauh lebih siap
Ada satu masalah besar pada GLM 5.2 yang membatasi peluang sukses yang berarti, yaitu nilai dari langganan coding
Jika hanya melihat harga API, GLM 5.2 mengalahkan para pesaingnya. Tetapi yang memakai penagihan API untuk pekerjaan coding biasanya hanya perusahaan besar, dan bagi mereka produk berlangganan yang sangat disubsidi makin menghilang
Pada saat yang sama, perusahaan-perusahaan seperti ini juga tidak akan membiarkan karyawannya memakai API dari Tiongkok
Dari sudut pandang individu dan tim kecil, langganan coding Z.ai kalah dibanding Anthropic dan OpenAI. Mungkin pemakaiannya bisa mirip dengan Claude, tetapi Codex jelas memberi lebih banyak pemakaian dibanding uang yang dibayar
Bisa diperdebatkan seberapa jauh Z.ai sudah mengejar GPT5.5 dan Opus 4.8, tetapi jika semua harganya sama dan saya bebas memilih, saya tidak akan memilih GLM
Jadi pertanyaan pentingnya adalah seberapa baik produk Z.ai akan menjadi di GLM 5.3 atau 6, dan seberapa jauh OpenAI serta Anthropic akan membatasi produk mereka saat ini dalam waktu dekat
- Dari luar Amerika Serikat, ini terlihat berbeda. Perusahaan-perusahaan Eropa kehilangan Fable akibat kontrol ekspor AS, dan sebelumnya Anthropic juga pernah mengumumkan bahwa mereka menyimpan data selama 30 hari
  Membangun infrastruktur yang berpusat pada AI yang tidak bisa sewaktu-waktu dirampas punya nilai langsung bagi perusahaan-perusahaan seperti ini. Negara-negara lain di luar Eropa juga lebih sensitif terhadap harga, dan tidak punya ketakutan yang sama dalam menjalin hubungan dengan perusahaan Tiongkok
- Yang memakai penagihan API bukan hanya perusahaan besar, tetapi juga orang-orang yang memakai lingkungan eksekusi pihak ketiga seperti OpenCode
  Di saat yang sama, kalau “perusahaan-perusahaan ini tidak akan membiarkan karyawannya memakai API Tiongkok”, saya jadi penasaran Amazon Bedrock yang menyediakan GLM sebenarnya menargetkan siapa
  Individu mungkin akan memilih penyedia AS yang lebih murah seperti DeepInfra. Input cache GLM adalah $0.18 per 1 juta token dan Opus $0.50. Fireworks AI juga bisa jadi pilihan
- Saya melihat langganan individu sebagai umpan yang sengaja merugi. Uangnya didapat dari kontrak token perusahaan
  Karyawan dan mahasiswa yang sudah terbiasa coding dengan token senilai ribuan dolar lewat paket 20 dolar atau 100 dolar akan mendorong pengeluaran perusahaan
  Pengeluaran perusahaan ini mungkin tidak akan tergantikan hanya karena muncul model Tiongkok yang kompetitif, tetapi model terbuka yang di-host di AS atau UE bisa saja melakukannya
  Keberadaan GLM 5.2 memberi batas atas pada harga yang bisa dipasang OpenAI dan Anthropic untuk akses API
- Poin penting. Saya pikir model harga API pada akhirnya bisa hilang, seperti orang tidak lagi membayar MMS. Itu model lama
  Dugaan saya, sebagian besar pekerjaan akan berlangsung di paket coding
  Hanya saja menjengkelkan kalau paket itu terlalu membatasi, bukan cuma lewat batas pemakaian. Saya paham alasannya, tetapi tetap tidak nyaman. Dalam praktiknya, yang benar-benar ketat tampaknya hanya Anthropic dan mungkin Google
  Anthropic menakut-nakuti dengan kebijakan bahwa jika mereka menilai pemakaian tidak sesuai ketentuan layanan, mereka bisa menagihnya belakangan dengan tarif API. Mungkin kekhawatiran itu tidak berdasar, tetapi saya tetap merasa mereka benar-benar bisa melakukannya, jadi saya cenderung menghindarinya
- Saya punya akun dan saldo di OpenRouter, jadi sempat menguji GLM 5.2, lalu ingin melihat langganan z.ai dengan harapan syaratnya lebih baik
  Namun infrastrukturnya jelas kelebihan beban, jadi permintaan chat 5.2 timeout 100%. Kalau nanti infrastrukturnya sudah bisa mengejar performa modelnya, saya akan coba lagi dan baru menilai apakah langganannya layak
Hari ini saya kaget karena GLM-5.2 jauh lebih bagus daripada GPT-5.5 dalam selera estetika dan pekerjaan UI
Untuk sementara saya tetap akan mempertahankan susunan Claude/Codex lewat Conductor, tetapi karena model ini saya jadi menyiapkan OpenCode dan mengunduh aplikasi desktop, lalu mengerjakan sebagian besar pekerjaan hari ini di sana
Kalau melihat kalimat seperti “GLM-5.2 biayanya jauh lebih rendah. Opus selesai dalam setengah waktu dan menghasilkan game yang lebih rapi,” saya langsung merasakan gaya bahasa khas LLM
Rasanya semua model mulai berkumpul pada gaya menulis seperti ini, dan meskipun performanya membaik, bagian itu tampaknya tidak banyak berubah
- Masukan yang bagus. Gaya bahasa khas LLM seperti ini memang sedang kami alami sekarang dan sedang kami upayakan perbaikannya

Industri penulisan teknis saat ini sedang terpukul cukup keras. Perusahaan menuntut lebih banyak pekerjaan dalam waktu yang lebih singkat dan kualitasnya turun drastis, sehingga waktu untuk merapikan kualitas kalimat dalam tulisan sehari-hari makin berkurang
Kami bekerja tepat di garis depan perubahan ini sehingga terkena dampak paling besar, tetapi pada saat yang sama juga menggugah sekaligus sangat membuat frustrasi karena kami bisa lebih dulu bereksperimen dengan perubahan ini

Sepertinya orang-orang benar-benar mulai banyak menerima gaya tulisan LLM
Benar. Sangat mengganggu. Kira-kira setengah dari tulisan baru sekarang terdengar memakai “suara” yang sama