Model ZAI GLM 4.6: ringkasan performa, biaya, dan pengalaman penggunaan nyata
Di beberapa komunitas seperti Reddit, ada pendapat yang mengangkat kekhawatiran soal perlindungan privasi. Namun, berdasarkan hasil pengujian nyata, performa coding-nya sendiri tampak sangat unggul. Dibandingkan dengan Claude, performanya tidak kalah, sementara melalui promosi diskon 50% saat ini Anda bisa berlangganan GLM Coding Lite Plan seharga $36 per tahun. (sekitar $33 dengan referral)
Ringkasan inti: Model GLM 4.6 dari ZAI menunjukkan performa yang mirip dengan Claude Sonnet 4, tetapi biaya tokennya hanya sekitar 1/8. Model ini mendukung context window yang panjang dan terutama menunjukkan performa kuat pada benchmark terkait kode, sehingga mendapat perhatian sebagai alternatif dengan value tinggi.
1. Pendahuluan dan lanskap AI saat ini
Di tengah minimnya kemunculan model open-weight baru belakangan ini, hadirnya model GLM 4.6 yang dikembangkan ZAI membawa energi baru ke pasar. Pasar model AI yang ada selama ini dipimpin oleh Frontier Labs yang memiliki modal sangat besar, tetapi terhalang oleh biaya yang tinggi. Di sisi lain, lab yang berfokus pada riset seperti Deepseek memiliki keterbatasan pada kemampuan pengembangan perangkat lunak sehingga antarmuka yang ditawarkan kurang ramah pengguna. ZAI melengkapi kekurangan-kekurangan ini dengan menawarkan pendekatan yang ramah pengguna melalui layanan API dan langganan. Secara khusus, GLM 4.6 menunjukkan potensi untuk meningkatkan aksesibilitas model AI dan mendorong pemanfaatan teknologi di berbagai bidang dengan memberikan performa setara Claude Sonnet 4 dengan biaya yang jauh lebih murah.
2. GLM 4.6 dari ZAI dan keunggulannya
ZAI tidak hanya mengembangkan model yang mencatat skor tinggi di berbagai benchmark, tetapi juga menyediakan layanan yang berpusat pada pengguna berdasarkan pemahaman mendalam terhadap produk nyata. Berbeda dari laboratorium riset lain, ZAI menawarkan API dan layanan langganan yang mudah diakses dan dimanfaatkan pengguna, sehingga membantu menekan biaya cloud code. Pada benchmark Kilo code, model GLM 4.6 mencatat tingkat kemenangan 48,6% melawan Claude Sonnet 4 dan memberikan performa serupa dengan harga kurang dari 1/5. Secara khusus, biaya token output hanya sekitar 1/8, sehingga dinilai sebagai alternatif yang masuk akal untuk model cloud.
4. GLM 4.6: fitur lanjutan dan peningkatan
GLM 4.6 mencakup sejumlah peningkatan utama dibanding versi sebelumnya.
- Context window panjang: Mendukung hingga 200k token, sehingga dapat memproses lebih banyak informasi sekaligus dan meningkatkan kemampuan menangani tugas kompleks.
- Peningkatan performa: Meraih skor lebih tinggi pada benchmark kode dan juga menunjukkan performa yang lebih baik pada aplikasi nyata.
- Kompatibilitas: Menyediakan endpoint yang mirip dengan Claude Code sehingga pengguna dapat dengan mudah mengintegrasikannya ke workflow yang sudah ada.
- Kemampuan penalaran yang diperkuat: Kemampuan reasoning ditingkatkan, mendukung penggunaan alat selama proses penalaran, bekerja lebih efektif dalam framework agen, dan kemampuan menulisnya juga membaik.
5. Benchmark performa dan perbandingan
GLM 4.6 menunjukkan performa mengesankan di berbagai benchmark. Pada benchmark AIME, model ini melampaui Sonic 4.5, sementara pada GPQA mengungguli Sonic 4. Pada Live code bench dan benchmark HL, performanya juga sangat baik, dan ketika dibandingkan dengan model Anthropic, hasilnya setara atau lebih baik pada sebagian besar benchmark kecuali SWE bench. Khususnya, model ini menunjukkan kekuatan pada benchmark terkait kode dan mencatat peningkatan yang signifikan dibanding versi sebelumnya.
6. Performa praktis dan penggunaan token
Di atas skor benchmark, performa di lingkungan penggunaan nyata adalah hal yang lebih penting. GLM 4.6 mempertahankan konsistensi tanpa kehilangan konteks atau menunjukkan halusinasi bahkan pada tugas kompleks yang melibatkan banyak file. ZAI juga menjaga transparansi dengan memublikasikan semua pertanyaan pengujian dan trajectory agen ke Hugging Face.
Melalui paket coding murah seharga $3 per bulan, Anda dapat menggunakan GPT-4 untuk tugas kompleks seperti perancangan arsitektur dan memanfaatkan GLM 4.6 untuk implementasi nyata, sehingga biaya pekerjaan coding sehari-hari dapat ditekan 50 hingga 100 kali. Bahkan jika hanya menangani 80% dari total beban kerja, imbal hasil investasinya tetap sangat tinggi.
7. Menguji GLM 4.6 dengan Kilo Code dan Open Code
Dalam pengujian nyata menggunakan Kilo code dan Open Code, GLM 4.6 menunjukkan performa yang mengesankan.
- Kilo code: Dalam proses membuat demo Activity API baru, model ini membuktikan kemampuannya mencari informasi yang dibutuhkan lewat web search dan menghasilkan kode yang akurat.
- Open Code: Saat menjalankan demo image studio, model ini melangkah lebih jauh daripada model lain dengan secara mandiri mengimplementasikan fitur tambahan seperti fungsi zoom. Selain itu, model ini menunjukkan kemampuan pemecahan masalah yang sangat baik, seperti menangani exception di sisi klien dan memperbaiki error pada file konfigurasi.
Kecepatan kerjanya cenderung agak lambat, tetapi kadang-kadang dalam hal kualitas UI, hasilnya bahkan lebih baik daripada model cloud.
2 komentar
Kemampuan teknologi China berkembang dari hari ke hari..
Model cloud, gila banget banget