3 poin oleh GN⁺ 2025-07-23 | 1 komentar | Bagikan ke WhatsApp
  • Qwen3-Coder mencapai performa teratas di bidang agentic coding di antara model terbuka, dengan arsitektur Mixture-of-Experts berparameter 480B, 35B parameter aktif, serta dukungan konteks 256K~1M token
  • Dengan mengadopsi teknik pembelajaran penguatan skala besar yang dioptimalkan untuk masalah rekayasa perangkat lunak nyata seperti Code RL dan Long-Horizon RL, model ini secara signifikan meningkatkan tingkat keberhasilan eksekusi dan performa di berbagai tugas
  • Terintegrasi dengan tool command-line dan API seperti Qwen Code dan Claude Code, serta dapat langsung digunakan di berbagai lingkungan pengembangan seperti Node.js dan API kompatibel OpenAI
  • Dengan lingkungan paralel skala besar dan infrastruktur yang mumpuni, model ini dapat menangani interaksi kompleks yang dibutuhkan dalam pekerjaan coding nyata seperti perencanaan, umpan balik, dan pemanfaatan alat
  • Ke depan, proyek ini mengisyaratkan eksperimen dan pengembangan lebih lanjut seperti beragam ukuran model, deployment berbiaya rendah, dan kemungkinan self-improvement untuk coding agent

Qwen3-Coder

  • Qwen3-Coder adalah model AI open-source dengan kemampuan agentic yang paling diperkuat di antara model generasi kode yang ada
  • Versi flagship pertama yang dirilis, Qwen3-Coder-480B-A35B-Instruct, menggunakan arsitektur Mixture-of-Experts di mana 35 miliar dari total 480 miliar parameter diaktifkan
    • Mendukung konteks 256K token secara default, dan dapat diperluas hingga 1M token
  • Dengan performa unggul, model ini menunjukkan hasil tingkat tertinggi di antara open model pada benchmark utama seperti Agentic Coding, Browser-Use, Tool-Use, dan memperlihatkan kualitas tugas kode/agen yang sebanding dengan Claude Sonnet 4
  • Tool CLI Qwen Code yang dirilis bersama di-fork dari Gemini Code sebagai basis, lalu menerapkan prompt khusus dan protokol function calling agar kemampuan agentik Qwen3-Coder dapat dimaksimalkan
  • Qwen3-Coder juga dapat terintegrasi mulus dengan berbagai tool pengembang komunitas seperti OpenAI SDK dan Claude Code
  • Model ini bertujuan mewujudkan agentic coding di seluruh dunia perangkat lunak sebagai model dasar serbaguna

Pra-pelatihan (Pre-Training)

  • Skala token besar: menggunakan total 7,5 triliun token (70% berupa kode) untuk memperkuat kemampuan coding sekaligus kemampuan umum dan matematika secara seimbang
  • Perluasan rentang konteks: dukungan default 256K dan 1M token berbasis YaRN memungkinkan pemrosesan data dinamis setingkat repositori besar (seperti Pull Request)
  • Peningkatan kualitas data sintetis: kualitas keseluruhan data ditingkatkan secara signifikan dengan memanfaatkan data yang dibersihkan dari noise dan ditulis ulang dari Qwen2.5-Coder sebelumnya

Pasca-pelatihan (Post-Training)

  • Ekspansi Code RL: sulit diselesaikan, mudah diverifikasi

    • Berbeda dari pendekatan kompetisi yang berpusat pada komunitas code generation, Qwen3-Coder mengadopsi metode eksekusi/verifikasi semua tugas kode berbasis pembelajaran penguatan (RL) skala besar
    • Untuk berbagai tugas coding nyata, model ini memperluas test case otomatis, menghasilkan banyak instance pelatihan reinforcement learning, dan memaksimalkan tingkat keberhasilan
    • Pendekatan ini menunjukkan hasil bahwa bukan hanya tingkat keberhasilan eksekusi kode yang meningkat, tetapi juga performa tugas lain ikut membaik
    • Ke depannya, fokus akan terus diarahkan pada penemuan domain baru yang sulit diselesaikan tetapi mudah diverifikasi
  • Pembelajaran penguatan jangka panjang (Long-Horizon RL)

    • Dalam tugas rekayasa perangkat lunak nyata seperti SWE-Bench, interaksi multi-turn seperti perencanaan, penggunaan alat, pemrosesan umpan balik, dan pengambilan keputusan adalah hal yang esensial
    • Qwen3-Coder memperkenalkan Long-Horizon RL (Agent RL) dan dilatih untuk menyelesaikan tugas multi-turn sambil berinteraksi dengan tool di lingkungan nyata
    • Dengan infrastruktur Alibaba Cloud, dibangun 20.000 lingkungan paralel independen untuk mendukung pembelajaran penguatan skala besar hingga evaluasi real-time
    • Mencapai performa terbaik di antara model open-source pada benchmark SWE-Bench Verified

Cara menggunakan Qwen3-Coder

  • Qwen Code: agent coding lewat command line

    • Qwen Code adalah tool CLI yang dibuat untuk tujuan riset, berbasis Gemini CLI dengan tambahan parser dan tool khusus Qwen-Coder
    • Memerlukan lingkungan Node.js 20+ dan dapat dengan mudah diinstal serta dijalankan melalui npm
    • Mendukung protokol OpenAI SDK sehingga dapat dikonfigurasi melalui environment variable atau file .env untuk digunakan di berbagai infrastruktur LLM
    • Dengan perintah Qwen-Code, kemampuan Qwen3-Coder dapat dimanfaatkan secara praktis
  • Integrasi Claude Code

    • Qwen3-Coder juga dapat digunakan di lingkungan Claude Code
    • API key dapat diterbitkan dari Alibaba Cloud Model Studio lalu dihubungkan dan diinstal dengan Claude Code
    • Mendukung pemilihan berbagai model backend dan konfigurasi yang mudah melalui proxy API serta paket claude-code-config
  • Integrasi Cline

    • Di lingkungan pengembangan Cline, model Qwen3-Coder-480B-A35B-Instruct juga dapat dikonfigurasi untuk digunakan
    • Untuk API Provider, pilih OpenAI Compatible, lalu masukkan API Key dari Dashscope dan Custom Base URL

Contoh penggunaan (Use Cases)

  • Simulasi pembongkaran cerobong berbasis fisika
  • Contoh penggunaan integrasi Qwen + Cline
  • Pengembangan web berbasis Qwen Chat
  • Pengukuran kecepatan mengetik menggunakan kutipan terkenal
  • Simulasi bola memantul di dalam hypercube berputar
  • Simulasi lingkungan tata surya
  • Pembuatan game DUET dan berbagai contoh coding serta simulasi lainnya

Integrasi API

  • API Qwen3-Coder dapat digunakan langsung melalui Alibaba Cloud Model Studio
  • Ditunjukkan demonstrasi pembuatan kode berbasis percakapan ke Qwen API menggunakan Python OpenAI SDK

Arah pengembangan ke depan

  • Riset sedang dilakukan secara aktif untuk meningkatkan performa Coding Agent dan menangani tugas rekayasa perangkat lunak yang kompleks serta berulang
  • Sedang disiapkan peluncuran ukuran model yang lebih beragam, sambil juga mengejar penurunan biaya deployment
  • Termasuk kemungkinan self-improvement pada Coding Agent, arah akhirnya adalah memaksimalkan produktivitas manusia dalam tugas rekayasa perangkat lunak yang kompleks dan berulang

1 komentar

 
GN⁺ 2025-07-23
Opini Hacker News
  • Saya sedang membuat GGUF dari 2bit sampai 8bit agar bisa dipakai secara lokal
    Akan tersedia dalam waktu satu jam di HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF
    Dokumen untuk menjalankannya dengan GPU 24GB dan RAM 128~256GB ada di sini

    • Sepertinya ada typo di dokumentasinya
      Alih-alih "Recommended context: 65,536 tokens (can be increased)", dokumentasi resminya justru menjelaskan tentang panjang output: "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models"
      Jadi itu adalah panjang output yang direkomendasikan
  • Qwen3-Coder dirilis dalam berbagai ukuran, tetapi secara pribadi saya paling menantikan ukuran-ukuran kecilnya
    Saya rasa model yang ringan dijalankan secara lokal makin mampu menulis kode yang cukup bagus
    Untuk sementara mungkin model yang lebih besar masih dibutuhkan, tetapi menyenangkan karena kita bisa memilih model open weight berkualitas tinggi saat self-hosting belum realistis
    Bisa bebas mencoba model kecil, lalu memakai model yang lebih besar secara berbayar saat diperlukan juga merupakan pengalaman yang baik
    Selamat untuk tim Qwen atas rilis kali ini, saya akan langsung mencobanya

    • Saya rasa model kecil hampir tidak pernah benar-benar melampaui model besar
      Model besar punya jauh lebih banyak pengetahuan dan kecerdasan
      Model kecil memang berkembang, tetapi model besar juga ikut berkembang
      Dulu HN adalah pusat teknis untuk bidang LLM, tetapi belakangan lebih banyak pengguna di Reddit yang benar-benar menjalankan model raksasa sendiri
      Kalau mau mencari tahu dan mencoba, self-hosting itu cukup realistis
  • Aplikasi "qwen-code" terlihat seperti versi fork dari gemini-cli
    QwenLM/qwen-code
    Lisensi
    Saya berharap klon OSS CC (open source code companion) suatu hari bisa menyatu pada satu standar
    Di halamannya sendiri memang tertulis, "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code"

    • Saat ini saya berpusat pada claude-code, tetapi untuk inferensi berat saya serahkan ke openai dan gemini pro lewat zen mcp
      gemini-cli juga didukung di zen, jadi bisa dipakai sebagai pengganti, dan jika qwen-coder berbasis gemini-cli, menambahkan dukungannya tampaknya hampir tidak sulit

    • Kami sudah merilis RA.Aid pada akhir '24 lalu
      Ini adalah proyek yang melangkah lebih jauh dari arah yang dirintis aider: CLI-first dan benar-benar berorientasi pada komunitas open source
      Ada 5 maintainer independen dari badan hukum berbeda yang memiliki hak commit penuh (salah satunya bergabung ke Gobii tempat saya berada dan sedang mengembangkan agen penjelajahan web)
      Kami merasa cukup kompetitif bahkan dibanding Cursor, Windsurf, dan solusi agentic coding lainnya
      Saya merasa standar berbasis FOSS yang tidak bergantung pada perusahaan besar atau model tertentu benar-benar dibutuhkan

    • Setahu saya Claude Code juga didukung, tetapi karena ini closed source dan hanya mendukung endpoint API Anthropic, saya penasaran bagaimana detail cara kerjanya

    • Saya juga ingin memperkenalkan proyek saya, Plandex
      Dimulai lebih awal daripada Claude Code, dan selain mendukung kombinasi model dari banyak penyedia (Anthropic, Google, OpenAI), juga bisa memanfaatkan model open source dan lokal
      Fokus utamanya adalah konteks besar dan pekerjaan jangka panjang dengan banyak langkah
      plandex-ai/plandex GitHub

  • Ada usulan untuk menambahkan QWEN.md sebagai panduan agen di repositori
    Tetapi belakangan di repositori tim, file Markdown duplikat untuk tiap agen terus bertambah sehingga tidak efisien

    • Saya pribadi cukup menambahkan symbolic link ke AGENTS.md
      Karena semua penjelasannya sama, tidak perlu dipisah per model
      Lalu versi per model saya kecualikan dengan gitignore
  • Saya penasaran bagaimana cara mengikuti kecepatan perubahan seperti ini
    Saya jadi berharap 2~3 tahun lagi akan ada satu alat pemenang tunggal
    Kalau sudah begitu, rasanya semua orang akan memakai satu saja tanpa ragu

    • Orang biasanya akan mengikuti secara alami bidang yang memang mereka minati
      Akhir pekan saya mencoba menjalankan Kimi K2, dua hari terakhir menjalankan Ernie4.5-300B
      Pagi ini saya mengunduh Qwen3-235b terbaru, dan mulai memakainya malam ini
      Malam ini juga sedang mengunduh Qwen3-Coder-480B—dengan kecepatan internet saya, mungkin butuh 2~3 hari
      Apakah ini obsesi?

    • Abaikan saja sampai terlihat benar-benar berguna
      Jujur saja, mengetik teks ke kotak prompt itu bukan sesuatu yang butuh pengalaman 3 tahun, jadi tidak perlu terlalu dipikirkan

    • Tidak mengikuti pun tidak masalah
      Selama isu seperti profitabilitas tidak meledak, pada akhirnya akan muncul alat yang jelas menjadi arus utama

    • Kenapa berpikir begitu?
      Leaderboard di bidang ini sangat tidak stabil, dan ketidakstabilan seperti ini tampaknya tidak akan hilang dalam waktu dekat
      Menurut saya 2~3 tahun lagi situasinya masih akan mirip, hanya pemainnya yang agak berbeda

  • Saya penasaran seperti apa kebutuhan hardware untuk menjalankan Qwen3-Coder-480B-A35B-Instruct
    Jika performanya mendekati Sonnet, banyak pengguna Claude Code mungkin akan tertarik pada local running
    Saya juga penasaran apakah secara ekonomi masuk akal jika instance lokal dipakai bersama oleh satu tim
    Ada juga dokumentasi cara menghubungkannya dengan Claude Code
    Di X (Twitter), kasus orang membagikan tagihan biaya penggunaan yang sangat besar juga sudah umum

    • Saat ini saya sedang menyiapkan versi dynamic GGUF quantization untuk model deep learning itu
      Kira-kira bisa dijalankan secara dinamis 2bit dengan sekitar 24GB VRAM + 128GB RAM, dan akan saya rilis dalam satu jam
      Dokumen referensi: docs.unsloth.ai/basics/qwen3-coder

    • Versi 4bit memakai sekitar 272GB RAM pada M3 Mac Studio 512GB
      Tautan unduhan
      Video saat benar-benar dijalankan: Video X
      Harga mesin itu sekitar 10.000 dolar

    • Untuk benchmark versi non-kuantisasi dan non-distilasi, sepertinya dibutuhkan klaster sekitar 8 H200
      B200 terbaru lebih cepat, tetapi jauh lebih mahal
      Diperkirakan lebih dari 300.000 dolar
      Orang-orang juga sering tidak banyak membuka hasil benchmark saat merilis versi kuantisasi/distilasi

    • Dari sisi RAM saja butuh lebih dari 500GB, dan jika konteks ikut diperhitungkan perlu ruang tambahan 100~200GB
      Jika dipadukan dengan GPU 24GB, saya perkirakan kecepatannya sekitar 10 token per detik

    • Tidak harus perangkat yang luar biasa besar
      Kombinasi RTX Pro 6000 dan RAM 256GB sudah cukup

  • Menarik melihat model open weight yang bersaing dengan Cloud 4
    Karena strukturnya MoE, saya rasa benar-benar ada peluang untuk menjalankannya secara lokal

    • Jadi muncul pertanyaan, harus menaruh dan menjalankan 480GB itu di mana supaya performanya bisa seperti itu
      Memangnya ada RAM sebesar itu?

    • Saya sangat menantikan kemunculan Coder

  • Senang melihat belakangan ini benchmark utama semuanya tampak memakai OpenHands(All-Hands-AI/OpenHands) sebagai scaffold dasar
    Tidak ada yang lebih membuat frustrasi daripada melihat "private scaffold" saja di benchmark publik

    • Ada video YouTube di mana robert membahas AllHands secara rinci

    • Sulit dipercaya Cognition bisa terlihat setidakmampuan ini
      Setelah menerima investasi jutaan dolar lalu tertinggal dari Cursor dan Claude Code, sekarang bahkan pasar mereka direbut oleh klon mereka sendiri (dulu disebut OpenDevin)

  • Saya melihat ini sudah tersedia langsung di OpenRouter (openrouter.ai/qwen/qwen3-coder)

  • Andai ada yang membuat ini menjadi CLI dengan Rust/Ratatui