Qwen3-Coder dirilis - model kode agentik yang inovatif

(qwenlm.github.io)

3 poin oleh GN⁺ 2025-07-23 | 1 komentar | Bagikan ke WhatsApp

Qwen3-Coder mencapai performa teratas di bidang agentic coding di antara model terbuka, dengan arsitektur Mixture-of-Experts berparameter 480B, 35B parameter aktif, serta dukungan konteks 256K~1M token
Dengan mengadopsi teknik pembelajaran penguatan skala besar yang dioptimalkan untuk masalah rekayasa perangkat lunak nyata seperti Code RL dan Long-Horizon RL, model ini secara signifikan meningkatkan tingkat keberhasilan eksekusi dan performa di berbagai tugas
Terintegrasi dengan tool command-line dan API seperti Qwen Code dan Claude Code, serta dapat langsung digunakan di berbagai lingkungan pengembangan seperti Node.js dan API kompatibel OpenAI
Dengan lingkungan paralel skala besar dan infrastruktur yang mumpuni, model ini dapat menangani interaksi kompleks yang dibutuhkan dalam pekerjaan coding nyata seperti perencanaan, umpan balik, dan pemanfaatan alat
Ke depan, proyek ini mengisyaratkan eksperimen dan pengembangan lebih lanjut seperti beragam ukuran model, deployment berbiaya rendah, dan kemungkinan self-improvement untuk coding agent

Qwen3-Coder

Qwen3-Coder adalah model AI open-source dengan kemampuan agentic yang paling diperkuat di antara model generasi kode yang ada
Versi flagship pertama yang dirilis, Qwen3-Coder-480B-A35B-Instruct, menggunakan arsitektur Mixture-of-Experts di mana 35 miliar dari total 480 miliar parameter diaktifkan
- Mendukung konteks 256K token secara default, dan dapat diperluas hingga 1M token
Dengan performa unggul, model ini menunjukkan hasil tingkat tertinggi di antara open model pada benchmark utama seperti Agentic Coding, Browser-Use, Tool-Use, dan memperlihatkan kualitas tugas kode/agen yang sebanding dengan Claude Sonnet 4

Tool CLI Qwen Code yang dirilis bersama di-fork dari Gemini Code sebagai basis, lalu menerapkan prompt khusus dan protokol function calling agar kemampuan agentik Qwen3-Coder dapat dimaksimalkan
Qwen3-Coder juga dapat terintegrasi mulus dengan berbagai tool pengembang komunitas seperti OpenAI SDK dan Claude Code
Model ini bertujuan mewujudkan agentic coding di seluruh dunia perangkat lunak sebagai model dasar serbaguna

Pra-pelatihan (Pre-Training)

Skala token besar: menggunakan total 7,5 triliun token (70% berupa kode) untuk memperkuat kemampuan coding sekaligus kemampuan umum dan matematika secara seimbang
Perluasan rentang konteks: dukungan default 256K dan 1M token berbasis YaRN memungkinkan pemrosesan data dinamis setingkat repositori besar (seperti Pull Request)
Peningkatan kualitas data sintetis: kualitas keseluruhan data ditingkatkan secara signifikan dengan memanfaatkan data yang dibersihkan dari noise dan ditulis ulang dari Qwen2.5-Coder sebelumnya

Pasca-pelatihan (Post-Training)

Ekspansi Code RL: sulit diselesaikan, mudah diverifikasi
- Berbeda dari pendekatan kompetisi yang berpusat pada komunitas code generation, Qwen3-Coder mengadopsi metode eksekusi/verifikasi semua tugas kode berbasis pembelajaran penguatan (RL) skala besar
- Untuk berbagai tugas coding nyata, model ini memperluas test case otomatis, menghasilkan banyak instance pelatihan reinforcement learning, dan memaksimalkan tingkat keberhasilan
- Pendekatan ini menunjukkan hasil bahwa bukan hanya tingkat keberhasilan eksekusi kode yang meningkat, tetapi juga performa tugas lain ikut membaik
- Ke depannya, fokus akan terus diarahkan pada penemuan domain baru yang sulit diselesaikan tetapi mudah diverifikasi
Pembelajaran penguatan jangka panjang (Long-Horizon RL)
- Dalam tugas rekayasa perangkat lunak nyata seperti SWE-Bench, interaksi multi-turn seperti perencanaan, penggunaan alat, pemrosesan umpan balik, dan pengambilan keputusan adalah hal yang esensial
- Qwen3-Coder memperkenalkan Long-Horizon RL (Agent RL) dan dilatih untuk menyelesaikan tugas multi-turn sambil berinteraksi dengan tool di lingkungan nyata
- Dengan infrastruktur Alibaba Cloud, dibangun 20.000 lingkungan paralel independen untuk mendukung pembelajaran penguatan skala besar hingga evaluasi real-time
- Mencapai performa terbaik di antara model open-source pada benchmark SWE-Bench Verified

Cara menggunakan Qwen3-Coder

Qwen Code: agent coding lewat command line
- Qwen Code adalah tool CLI yang dibuat untuk tujuan riset, berbasis Gemini CLI dengan tambahan parser dan tool khusus Qwen-Coder
- Memerlukan lingkungan Node.js 20+ dan dapat dengan mudah diinstal serta dijalankan melalui npm
- Mendukung protokol OpenAI SDK sehingga dapat dikonfigurasi melalui environment variable atau file .env untuk digunakan di berbagai infrastruktur LLM
- Dengan perintah Qwen-Code, kemampuan Qwen3-Coder dapat dimanfaatkan secara praktis
Integrasi Claude Code
- Qwen3-Coder juga dapat digunakan di lingkungan Claude Code
- API key dapat diterbitkan dari Alibaba Cloud Model Studio lalu dihubungkan dan diinstal dengan Claude Code
- Mendukung pemilihan berbagai model backend dan konfigurasi yang mudah melalui proxy API serta paket claude-code-config
Integrasi Cline
- Di lingkungan pengembangan Cline, model Qwen3-Coder-480B-A35B-Instruct juga dapat dikonfigurasi untuk digunakan
- Untuk API Provider, pilih OpenAI Compatible, lalu masukkan API Key dari Dashscope dan Custom Base URL

Contoh penggunaan (Use Cases)

Simulasi pembongkaran cerobong berbasis fisika
Contoh penggunaan integrasi Qwen + Cline
Pengembangan web berbasis Qwen Chat
Pengukuran kecepatan mengetik menggunakan kutipan terkenal
Simulasi bola memantul di dalam hypercube berputar
Simulasi lingkungan tata surya
Pembuatan game DUET dan berbagai contoh coding serta simulasi lainnya

Integrasi API

API Qwen3-Coder dapat digunakan langsung melalui Alibaba Cloud Model Studio
Ditunjukkan demonstrasi pembuatan kode berbasis percakapan ke Qwen API menggunakan Python OpenAI SDK

Arah pengembangan ke depan

Riset sedang dilakukan secara aktif untuk meningkatkan performa Coding Agent dan menangani tugas rekayasa perangkat lunak yang kompleks serta berulang
Sedang disiapkan peluncuran ukuran model yang lebih beragam, sambil juga mengejar penurunan biaya deployment
Termasuk kemungkinan self-improvement pada Coding Agent, arah akhirnya adalah memaksimalkan produktivitas manusia dalam tugas rekayasa perangkat lunak yang kompleks dan berulang

1 komentar

GN⁺ 2025-07-23

Opini Hacker News

Saya sedang membuat GGUF dari 2bit sampai 8bit agar bisa dipakai secara lokal
Akan tersedia dalam waktu satu jam di HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF
Dokumen untuk menjalankannya dengan GPU 24GB dan RAM 128~256GB ada di sini
- Sepertinya ada typo di dokumentasinya
  Alih-alih "Recommended context: 65,536 tokens (can be increased)", dokumentasi resminya justru menjelaskan tentang panjang output: "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models"
  Jadi itu adalah panjang output yang direkomendasikan
Qwen3-Coder dirilis dalam berbagai ukuran, tetapi secara pribadi saya paling menantikan ukuran-ukuran kecilnya
Saya rasa model yang ringan dijalankan secara lokal makin mampu menulis kode yang cukup bagus
Untuk sementara mungkin model yang lebih besar masih dibutuhkan, tetapi menyenangkan karena kita bisa memilih model open weight berkualitas tinggi saat self-hosting belum realistis
Bisa bebas mencoba model kecil, lalu memakai model yang lebih besar secara berbayar saat diperlukan juga merupakan pengalaman yang baik
Selamat untuk tim Qwen atas rilis kali ini, saya akan langsung mencobanya
- Saya rasa model kecil hampir tidak pernah benar-benar melampaui model besar
  Model besar punya jauh lebih banyak pengetahuan dan kecerdasan
  Model kecil memang berkembang, tetapi model besar juga ikut berkembang
  Dulu HN adalah pusat teknis untuk bidang LLM, tetapi belakangan lebih banyak pengguna di Reddit yang benar-benar menjalankan model raksasa sendiri
  Kalau mau mencari tahu dan mencoba, self-hosting itu cukup realistis
Aplikasi "qwen-code" terlihat seperti versi fork dari gemini-cli
QwenLM/qwen-code
Lisensi
Saya berharap klon OSS CC (open source code companion) suatu hari bisa menyatu pada satu standar
Di halamannya sendiri memang tertulis, "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code"
- Saat ini saya berpusat pada claude-code, tetapi untuk inferensi berat saya serahkan ke openai dan gemini pro lewat zen mcp
  gemini-cli juga didukung di zen, jadi bisa dipakai sebagai pengganti, dan jika qwen-coder berbasis gemini-cli, menambahkan dukungannya tampaknya hampir tidak sulit
- Kami sudah merilis RA.Aid pada akhir '24 lalu
  Ini adalah proyek yang melangkah lebih jauh dari arah yang dirintis aider: CLI-first dan benar-benar berorientasi pada komunitas open source
  Ada 5 maintainer independen dari badan hukum berbeda yang memiliki hak commit penuh (salah satunya bergabung ke Gobii tempat saya berada dan sedang mengembangkan agen penjelajahan web)
  Kami merasa cukup kompetitif bahkan dibanding Cursor, Windsurf, dan solusi agentic coding lainnya
  Saya merasa standar berbasis FOSS yang tidak bergantung pada perusahaan besar atau model tertentu benar-benar dibutuhkan
- Setahu saya Claude Code juga didukung, tetapi karena ini closed source dan hanya mendukung endpoint API Anthropic, saya penasaran bagaimana detail cara kerjanya
- Saya juga ingin memperkenalkan proyek saya, Plandex
  Dimulai lebih awal daripada Claude Code, dan selain mendukung kombinasi model dari banyak penyedia (Anthropic, Google, OpenAI), juga bisa memanfaatkan model open source dan lokal
  Fokus utamanya adalah konteks besar dan pekerjaan jangka panjang dengan banyak langkah
  plandex-ai/plandex GitHub
Ada usulan untuk menambahkan QWEN.md sebagai panduan agen di repositori
Tetapi belakangan di repositori tim, file Markdown duplikat untuk tiap agen terus bertambah sehingga tidak efisien
- Saya pribadi cukup menambahkan symbolic link ke AGENTS.md
  Karena semua penjelasannya sama, tidak perlu dipisah per model
  Lalu versi per model saya kecualikan dengan gitignore
Saya penasaran bagaimana cara mengikuti kecepatan perubahan seperti ini
Saya jadi berharap 2~3 tahun lagi akan ada satu alat pemenang tunggal
Kalau sudah begitu, rasanya semua orang akan memakai satu saja tanpa ragu
- Orang biasanya akan mengikuti secara alami bidang yang memang mereka minati
  Akhir pekan saya mencoba menjalankan Kimi K2, dua hari terakhir menjalankan Ernie4.5-300B
  Pagi ini saya mengunduh Qwen3-235b terbaru, dan mulai memakainya malam ini
  Malam ini juga sedang mengunduh Qwen3-Coder-480B—dengan kecepatan internet saya, mungkin butuh 2~3 hari
  Apakah ini obsesi?
- Abaikan saja sampai terlihat benar-benar berguna
  Jujur saja, mengetik teks ke kotak prompt itu bukan sesuatu yang butuh pengalaman 3 tahun, jadi tidak perlu terlalu dipikirkan
- Tidak mengikuti pun tidak masalah
  Selama isu seperti profitabilitas tidak meledak, pada akhirnya akan muncul alat yang jelas menjadi arus utama
- Kenapa berpikir begitu?
  Leaderboard di bidang ini sangat tidak stabil, dan ketidakstabilan seperti ini tampaknya tidak akan hilang dalam waktu dekat
  Menurut saya 2~3 tahun lagi situasinya masih akan mirip, hanya pemainnya yang agak berbeda
Saya penasaran seperti apa kebutuhan hardware untuk menjalankan Qwen3-Coder-480B-A35B-Instruct
Jika performanya mendekati Sonnet, banyak pengguna Claude Code mungkin akan tertarik pada local running
Saya juga penasaran apakah secara ekonomi masuk akal jika instance lokal dipakai bersama oleh satu tim
Ada juga dokumentasi cara menghubungkannya dengan Claude Code
Di X (Twitter), kasus orang membagikan tagihan biaya penggunaan yang sangat besar juga sudah umum
- Saat ini saya sedang menyiapkan versi dynamic GGUF quantization untuk model deep learning itu
  Kira-kira bisa dijalankan secara dinamis 2bit dengan sekitar 24GB VRAM + 128GB RAM, dan akan saya rilis dalam satu jam
  Dokumen referensi: docs.unsloth.ai/basics/qwen3-coder
- Versi 4bit memakai sekitar 272GB RAM pada M3 Mac Studio 512GB
  Tautan unduhan
  Video saat benar-benar dijalankan: Video X
  Harga mesin itu sekitar 10.000 dolar
- Untuk benchmark versi non-kuantisasi dan non-distilasi, sepertinya dibutuhkan klaster sekitar 8 H200
  B200 terbaru lebih cepat, tetapi jauh lebih mahal
  Diperkirakan lebih dari 300.000 dolar
  Orang-orang juga sering tidak banyak membuka hasil benchmark saat merilis versi kuantisasi/distilasi
- Dari sisi RAM saja butuh lebih dari 500GB, dan jika konteks ikut diperhitungkan perlu ruang tambahan 100~200GB
  Jika dipadukan dengan GPU 24GB, saya perkirakan kecepatannya sekitar 10 token per detik
- Tidak harus perangkat yang luar biasa besar
  Kombinasi RTX Pro 6000 dan RAM 256GB sudah cukup
Menarik melihat model open weight yang bersaing dengan Cloud 4
Karena strukturnya MoE, saya rasa benar-benar ada peluang untuk menjalankannya secara lokal
- Jadi muncul pertanyaan, harus menaruh dan menjalankan 480GB itu di mana supaya performanya bisa seperti itu
  Memangnya ada RAM sebesar itu?
- Saya sangat menantikan kemunculan Coder
Senang melihat belakangan ini benchmark utama semuanya tampak memakai OpenHands(All-Hands-AI/OpenHands) sebagai scaffold dasar
Tidak ada yang lebih membuat frustrasi daripada melihat "private scaffold" saja di benchmark publik
- Ada video YouTube di mana robert membahas AllHands secara rinci
- Sulit dipercaya Cognition bisa terlihat setidakmampuan ini
  Setelah menerima investasi jutaan dolar lalu tertinggal dari Cursor dan Claude Code, sekarang bahkan pasar mereka direbut oleh klon mereka sendiri (dulu disebut OpenDevin)
Saya melihat ini sudah tersedia langsung di OpenRouter (openrouter.ai/qwen/qwen3-coder)
Andai ada yang membuat ini menjadi CLI dengan Rust/Ratatui

Qwen3-Coder dirilis - model kode agentik yang inovatif

Qwen3-Coder

Pra-pelatihan (Pre-Training)

Pasca-pelatihan (Post-Training)

Ekspansi Code RL: sulit diselesaikan, mudah diverifikasi

Pembelajaran penguatan jangka panjang (Long-Horizon RL)

Cara menggunakan Qwen3-Coder

Qwen Code: agent coding lewat command line

Integrasi Claude Code

Integrasi Cline

Contoh penggunaan (Use Cases)

Integrasi API

Arah pengembangan ke depan

Bacaan terkait

1 komentar

Opini Hacker News