6 poin oleh GN⁺ 2026-02-04 | 1 komentar | Bagikan ke WhatsApp
  • Qwen3-Coder-Next adalah model bahasa open-weight yang dirancang untuk agen penulisan kode dan lingkungan pengembangan lokal, berbasis arsitektur hybrid attention dan MoE
  • Dilatih melalui sintesis tugas yang dapat dieksekusi berskala besar, interaksi lingkungan, dan reinforcement learning, sehingga memiliki kemampuan coding dan agen yang kuat bahkan dengan biaya inferensi rendah
  • Alih-alih sekadar memperbesar parameter, model ini berfokus pada perluasan sinyal pelatihan agen, memanfaatkan tugas coding yang dapat diverifikasi dan lingkungan eksekusi untuk mempelajari umpan balik secara langsung
  • Mencapai lebih dari 70% pada SWE-Bench Verified, serta menunjukkan performa yang mampu bersaing dengan model besar di SWE-Bench Pro dan lingkungan multibahasa
  • Meski merupakan model kecil, ia mencapai keseimbangan Pareto antara efisiensi dan performa, sehingga penting untuk deploy agen yang hemat biaya

Ringkasan Qwen3-Coder-Next

  • Qwen3-Coder-Next adalah model bahasa open-weight berbasis Qwen3-Next-80B-A3B-Base
    • Mengadopsi arsitektur hybrid attention dan Mixture of Experts (MoE)
    • Dilatih melalui sintesis tugas yang dapat dieksekusi berskala besar, interaksi lingkungan, dan reinforcement learning
  • Tujuannya adalah penggunaan yang efisien pada agen coding dan lingkungan pengembangan lokal
    • Menawarkan kemampuan penalaran dan performa coding yang kuat meski dengan biaya inferensi rendah

Pendekatan penskalaan pelatihan agen

  • Model ini berfokus pada penskalaan sinyal pelatihan agen alih-alih penskalaan jumlah parameter
    • Dengan menggabungkan tugas coding yang dapat diverifikasi dan lingkungan yang dapat dieksekusi, model belajar langsung dari umpan balik lingkungan
  • Tahap pelatihan utama
    • Pretraining berkelanjutan dengan data yang berfokus pada kode dan agen
    • Supervised fine-tuning menggunakan data lintasan agen berkualitas tinggi
    • Pelatihan khusus domain seperti software engineering, QA, dan web/UX
    • Distilasi beberapa model pakar menjadi satu model siap deploy
  • Pendekatan ini memperkuat kemampuan penalaran jangka panjang, penggunaan alat, dan pemulihan dari kegagalan eksekusi

Performa benchmark agen coding

  • Dievaluasi pada berbagai benchmark seperti SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0, dan Aider
    • Mencapai lebih dari 70% pada SWE-Bench Verified
    • Tetap kompetitif di SWE-Bench Pro dan lingkungan multibahasa
    • Meski jumlah parameter aktifnya kecil, performanya setara atau lebih baik dibanding model open-source yang lebih besar
  • Pada tugas agen multi-turn, terkonfirmasi bahwa kemampuan penalaran jangka panjang meningkat seiring bertambahnya jumlah turn agen

Keseimbangan antara efisiensi dan performa

  • Qwen3-Coder-Next (3B active) mencapai performa SWE-Bench-Pro yang serupa dengan model 10~20 kali lebih besar
  • Walau model proprietari berbasis full attention unggul dalam performa absolut, Qwen3-Coder-Next berada pada frontier Pareto yang lebih baik dalam hal efisiensi biaya
  • Ini menunjukkan bahwa model tersebut cocok untuk deploy agen yang hemat biaya

Demo dan contoh penerapan

  • Sebagai model coder kecil dan cepat, ia dapat diintegrasikan ke berbagai lingkungan aplikasi
    • Didemonstrasikan di OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline, dan lainnya
    • Dapat digunakan lewat web melalui coder.qwen.ai

Ringkasan dan rencana ke depan

  • Qwen3-Coder-Next membuktikan kecepatan dan kemampuan penalaran yang unggul pada benchmark agen coding
  • Dibandingkan model open-source besar, model ini menunjukkan performa yang kompetitif, meski masih ada ruang untuk peningkatan
  • Ke depan, tim berencana memperkuat kemampuan penggunaan alat, pemecahan masalah kompleks, dan pengambilan keputusan
    • Serta mendukung lebih banyak tugas dan melakukan pembaruan cepat berbasis umpan balik pengguna

1 komentar

 
GN⁺ 2026-02-04
Pendapat Hacker News
  • Model GGUF ini berukuran 48.4GB, sehingga bisa dijalankan bahkan di laptop kelas atas
    Sampai sekarang saya belum melihat model lokal yang benar-benar bisa menjalankan agen coding setara Codex CLI atau Claude Code di MacBook Pro 64GB saya
    Mungkin kali ini berbeda. Melihat panduan Unsloth, tampaknya ada potensi

    • Saya rasa kita butuh istilah baru seperti “model di komputer saya” alih-alih sekadar “model lokal”
      Menyebut sesuatu lokal hanya karena terhubung lewat llama.cpp di mesin yang sama terasa kurang tepat. Yang saya maksud dengan lokal adalah model LAN, yaitu level di mana inference bisa dijalankan “gratis” di hardware yang saya kendalikan sendiri
      Misalnya konfigurasi 5090 + Threadripper + RAM 256GB sekitar 10 ribu dolar, sementara jalur MLX sekitar 6 ribu dolar
      Struktur internal model dan metode kuantisasi sangat memengaruhi penggunaan memori nyata, sehingga perbandingan berdasarkan jumlah parameter saja makin lama makin kurang bermakna
      Karena itu, menurut saya dibutuhkan sistem benchmark untuk tugas nyata seperti tool calling, pembuatan kode, dan pemrosesan dokumen pada standar hardware yang seragam
    • Saya menjalankan Qwen3-Coder-30B-A3B-Instruct gguf di VM dengan RAM 13GB dan GPU RTX 2060 6GB
      Meski ini laptop Razer Blade lama, modelnya tetap bekerja cukup stabil hingga konteks 64k
      Untuk proyek kecil, perbaikan bug, dan penyempurnaan UI, ini sudah cukup layak dipakai
      Tapi menurut saya standar “usable” berbeda-beda bagi tiap orang. Penilaiannya akan berubah tergantung tugas apa yang dicoba
    • Saya sudah mencoba GPT-OSS-120b (MXFP4) bersama Codex, dan itu memakai sekitar 66GB VRAM
      Kalau log eksekusi bagus dari model 120b dikumpulkan lalu digunakan untuk fine-tuning versi 20b, hasilnya sepertinya akan cukup berguna
      Jika reasoning_effort dinaikkan, hasilnya lumayan bagus, tetapi karena batas memori 64GB, peningkatan pada 20b lebih realistis
    • Saya pernah mengatur Claude Code ke model lokal (ollama run glm-4.7-flash) dan menjalankannya di Mac mini M2Pro 32GB
      Untuk merapikan kode proyek git lama, membuat dokumentasi, dan menambahkan test, hasilnya sudah cukup layak
      Mungkin standar saya rendah, tetapi untuk asisten coding lokal, saya cukup puas
    • Dalam sekitar 5 tahun ke depan, sepertinya sebagian besar model akan bisa dijalankan secara lokal
      Jika produksi GPU dan memori berperforma tinggi meningkat, dan optimisasi model terus berjalan, hardware kelas menengah pun akan mampu memberi performa yang cukup baik
  • Saya mengunggah Dynamic Unsloth GGUF untuk deployment lokal ke Hugging Face,
    dan juga menulis panduan untuk memakai Claude Code / Codex secara lokal

    • Di sistem saya, model berjalan di sekitar 39 tok/s dengan penggunaan GPU sekitar 60%
      Saya menjalankan server llama.cpp di lingkungan berbasis Radeon RX 7900 XTX, dan stabil dengan pengaturan ctx-size 32768
    • Saya mendapat umpan balik bahwa model saya sedang dipakai di Framework Desktop
      Ada pertanyaan kenapa harus memakai versi Unsloth alih-alih GGUF bawaan Qwen3
    • Ada juga permintaan agar IQuest-Coder didistribusikan dengan cara yang sama
    • Ada pertanyaan tentang perbedaan versi UD dan versi biasa
    • Ada juga respons bernada kagum seperti, “bagaimana ini bisa dibuat secepat ini?”
  • Saya memasang llama.cpp lewat Homebrew dan menjalankan model kuantisasi Unsloth secara lokal
    Saya bisa menjalankan antarmuka CLI dan server API kompatibel OpenAI secara bersamaan, dengan penggunaan RAM sekitar 28GB

    • Seseorang bertanya berapa kecepatan tokennya (token/s)
    • Orang lain penasaran dengan impresi keseluruhannya
  • Jika model ini benar-benar sesuai klaim, bahwa ia bisa memberi performa coding setingkat Sonnet 4.5 dengan 3B parameter aktif, itu hal yang luar biasa

    • Saya sudah menguji versi kuantisasi Q2 dan Q4, dan meskipun mengejutkan karena bisa berjalan lokal, hasilnya tidak setingkat Sonnet 4.5
      Bahkan pada masalah sederhana pun ada error, dan kadang model masuk ke thinking loop
      Mungkin ini bug implementasi awal, tetapi untuk saat ini klaim performanya tampak berlebihan
    • Menurut pengalaman saya, kemampuannya lebih dekat ke tingkat Haiku
    • Ini mengingatkan saya pada ungkapan “kalau terlihat terlalu bagus, kemungkinan memang tidak nyata”
  • Saya menjalankan Qwen3 Coder 30B secara lokal di Mac M4 Max (36GB)
    Memang lambat, tetapi tetap berjalan dan memberi hasil yang cukup bagus
    Saya membagikan video demo dan blog cara setup

  • Di laptop dengan VRAM 6GB, saya mendapat 17 tok/s, dan bisa sampai konteks maksimum 100k
    Meski mengesankan, kecepatannya lambat, jadi saya tetap berencana memakai cloud inference
    Saya membagikan [contoh konfigurasi docker-compose]

  • Saya melakukan benchmark model FP8 di lingkungan DGX Spark + vLLM 0.15.1
    Untuk satu request hasilnya sekitar 43 tok/s, dan pada request paralel bisa mencapai 62 tok/s

    • Saya juga mencoba menjalankan model FP8 di vLLM, tetapi selama eksekusi model itu didekuantisasi ke BF16 sehingga terjadi memory swap
      Sementara versi kuantisasi 4-bit di llama.cpp memberi sekitar 30~35 tok/s, dan pada konteks 200k hanya memakai RAM 50GB
  • Dengan 3B parameter aktif, performanya sedikit di bawah GLM 4.7, tetapi efisiensinya mengesankan
    Karena cepat, saya rasa agen coding sederhana yang dipakai bersama orchestrator justru bisa mempercepat keseluruhan alur kerja

    • Saya memanfaatkan fitur sub-agent milik Claude untuk menjalankan agen TypeScript berbasis Mastra lewat CLI
      Ini mengotomatisasi pekerjaan berulang seperti pemindaian kode, pencarian library, dan penelusuran SourceGraph
      Berkat fitur Workspace di Mastra, pengembangan bergaya agen menjadi jauh lebih kuat
    • Pada akhirnya, agar semua ini dipakai lebih luas, mungkin baru akan terjadi ketika perusahaan AI besar menaikkan harga
  • Saya menjalankan lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 di Strix Halo,
    dan mendapatkan 32 tok/s hingga konteks 128k. Sedikit lebih lemah daripada MiniMax M2.1 Q6, tetapi tetap mengesankan

    • Ada yang bertanya bagaimana pengalaman memakai Strix Halo. Ada juga pendapat yang menginginkan mesin yang bisa melakukan inferensi lokal tanpa kuantisasi
    • Di NVIDIA Spark saya mendapatkan angka yang mirip, dan sedang menguji versi Q4_K_XL
      FP8 memakai 110GB dan hanya bisa mencapai konteks 16k
      Saya mencobanya untuk pembuatan kode Rust, dan kemampuannya cukup baik. Kalau kecepatannya membaik, sepertinya benar-benar bisa dipakai
      Sepertinya penyedia API akan segera menawarkan model ini dengan harga murah
  • Saya penasaran tempat yang benar-benar bisa dipercaya untuk ranking model lokal itu di mana
    Benchmark terasa terlalu mudah dimanipulasi, jadi saya merasa ulasan pribadi lebih bermakna
    Saya ingin tahu apakah ada tempat yang merangkum model terbaik per domain seperti kode, suara, gambar, ringkasan, musik, dan lain-lain