- Sebagai penerus Qwen3.6-Plus, model ini meningkatkan coding agentik, pengetahuan dunia yang lebih kuat, dan performa mengikuti instruksi dibanding pendahulunya
- Mencatat skor tertinggi pada 6 benchmark coding utama, yang menegaskan peningkatan besar pada performa agen coding
- Mendukung fitur preserve_thinking, yang menggunakan cara mempertahankan proses berpikir dari giliran sebelumnya di dalam pesan saat menjalankan tugas agentik
- Pada benchmark pengetahuan dunia, model ini meningkat dengan SuperGPQA +2.3, QwenChineseBench +5.3, dan pada mengikuti instruksi mencatat ToolcallFormatIFBench +2.8
- Pengujian interaktif tersedia di Qwen Studio, dan pemanggilan melalui API Alibaba Cloud Model Studio akan menggunakan
qwen3.6-max-preview
Peningkatan utama
- Kemampuan coding agentik meningkat signifikan dibanding Qwen3.6-Plus: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
- Penguatan pengetahuan dunia (world knowledge): SuperGPQA +2.3, QwenChineseBench +5.3
- Peningkatan pelaksanaan instruksi (instruction following): ToolcallFormatIFBench +2.8
- Meraih skor tertinggi di 6 benchmark coding utama: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode
Karakteristik model dan pendekatan
- Model eksklusif hosted yang disediakan melalui Alibaba Cloud Model Studio
- Peningkatan performa pada agen nyata (real-world agent) dan keandalan pengetahuan (knowledge reliability)
- Bisa langsung diuji secara interaktif di Qwen Studio
- Nama model API adalah
qwen3.6-max-preview, dan akan segera tersedia di Alibaba Cloud Model Studio API
Penggunaan API dan fitur
- Mendukung protokol standar industri seperti OpenAI-compatible chat completions dan responses API, serta antarmuka kompatibel Anthropic
- Melalui fitur
preserve_thinking, proses penalaran (reasoning content) dari giliran sebelumnya dapat dipertahankan dan direkomendasikan untuk tugas agentik - Saat
enable_thinking: Truedisetel, konten penalaran dan respons dapat diterima secara terpisah dalam mode streaming - Menyediakan Base URL API per wilayah: Beijing, Singapura, Amerika Serikat (Virginia)
Status pengembangan
- Saat ini masih berada pada tahap rilis pratinjau dan terus mengalami peningkatan berulang, dengan perbaikan tambahan direncanakan pada versi berikutnya
1 komentar
Pendapat Hacker News
Rasanya agak lucu melihat orang terlalu terobsesi hanya pada perbandingan SOTA. Saya pernah melihat glm 5.1 berhasil melakukan hal-hal yang tidak bisa dilakukan Opus, dan juga menulis kode lebih baik. Saya belum mencoba qwen max, tetapi saya juga pernah melihat model lokal 122b membaca dokumen dengan lebih baik dan memprosesnya lebih akurat. Pada akhirnya benchmark hanya sebagian dari gambaran; di dunia nyata setiap model punya kekuatan yang berbeda, jadi menurut saya tidak tepat membandingkannya sekadar siapa lebih unggul, seperti membandingkan palu dengan kunci pas
Di kantor saya sudah beberapa bulan rutin memakai Claude Code, dan belum lama ini juga sangat terbantu untuk proyek website pribadi kecil. Akhir pekan lalu saya bahkan pertama kali mencoba self-hosting. Saya penasaran apakah ada yang sudah cukup lama memakai CC atau Codex lalu berhasil menemukan konfigurasi self-hosted yang cukup memuaskan. Saya menguji berbagai kombinasi ollama, docker desktop model runner, pi-coding-agent, opencode dengan Gemma 4, Qwen, GLM-5.1 pada lingkungan 32GB DDR5, AMD 7800X3D, RTX 4090, Windows dan WSL. Karena penggunaan RAM dasar sudah tinggi, saya tidak bisa menjalankan model bagus seperti Gemma4-31B. Di lingkungan Windows murni, penanganan path file sering bermasalah, sedangkan menjalankan pi atau opencode di WSL dan model di docker desktop lumayan berhasil. Namun performa yang benar-benar terasa masih terlalu lambat dibanding CC, dan dari sisi kematangan alat pun CC harness terasa jauh lebih baik. Saya terlalu banyak menghabiskan waktu untuk setup sehingga tidak sempat memakainya lama, tetapi tetap saja ini eksperimen yang menarik
Saya khawatir bidang ini akan mengalir ke pola: pertama membagikan gratis untuk membangun nama, lalu belakangan semuanya diubah jadi proprietary. Meski begitu, saya tetap berharap open weights terus dirilis. Kalau suatu hari tidak ada lagi yang merilis open weights, rasanya akan sangat pahit. Kalau dunia seperti itu datang, orang biasa kemungkinan akan makin sulit memiliki compute mereka sendiri
Hari ini Kimi K2.6 juga dirilis, jadi rasanya sangat wajar membandingkan keduanya. Dari harga saja, Qwen terlihat lebih mahal: input 1,3 dolar dan output 7,8 dolar, sedangkan Kimi input 0,95 dolar dan output 4 dolar. Di tulisan pengumuman itu pun hanya ada dua benchmark yang tumpang tindih, dan pada SWE-Bench Pro maupun Terminal-Bench 2.0, Kimi sedikit lebih tinggi daripada Qwen. Tentu tiap model punya kekuatan berbeda dan benchmark bukan segalanya, tetapi kalau hanya melihat angka, Kimi terasa lebih menarik
Ironi pengumuman ini menurut saya ada pada namanya sendiri. Max-Preview itu proprietary dan cloud-only. Bagi saya, Qwen yang benar-benar penting adalah seri open weights yang dijalankan orang di hardware mereka sendiri. Saya menjalankan 32B dan 72B secara lokal dengan dual A4000. Masih ada jarak dengan Max hosted, tetapi tiap kali rilis, jarak itu terlihat makin kecil. Jadi pertanyaan yang benar-benar menarik bukan bagaimana Max dibandingkan dengan Opus, melainkan kapan tier open-weight akan membuat tier cloud menjadi tidak relevan untuk sebagian besar workload
Sementara semua orang mengejar SOTA, saya menjalankan beberapa sesi paralel dengan MiniMax M2.5 dan menyelesaikan semua pekerjaan coding saya hanya dengan 10 dolar per bulan, dan hampir tidak pernah terkena batas
Saya juga membaca dokumentasi context caching Qwen dan menguji Opus, Codex, dan Qwen bersama-sama, dan memang terasa bahwa Qwen kuat pada banyak tugas coding. Namun yang paling saya perhatikan adalah bagaimana perilakunya dalam sesi panjang. Qwen memang menonjolkan context window besar, tetapi efisiensi long-context yang sebenarnya tampaknya sangat dipengaruhi oleh cara context caching bekerja. Menurut dokumentasi resmi, mereka menyediakan implicit dan explicit caching, tetapi TTL-nya hanya beberapa menit dan ada batasan seperti pencocokan berbasis prefix serta syarat token minimum. Karena batasan-batasan ini, pada workflow seperti coding agent yang konteksnya terus membesar, reuse cache mungkin tidak berjalan sebaik yang diharapkan. Jadi meskipun harga per token terlihat rendah, dalam sesi panjang cache hit rate bisa turun dan komputasi ulang meningkat, sehingga biaya yang terasa bisa jadi lebih tinggi. Meski begitu, untuk pekerjaan terkait keamanan saya pribadi pernah melihat Qwen bekerja lebih baik daripada Opus. Dalam pengalaman saya, untuk tugas pendek seperti level metode atau fungsi individual, Qwen jauh lebih baik daripada Opus, tetapi untuk pengalaman coding secara keseluruhan, ia terasa lebih seperti generator level fungsi daripada coding assistant end-to-end yang otonom seperti Claude
Melihat Qwen membandingkan dirinya dengan Opus 4.5, rasanya agak sulit menerimanya dengan itikad baik. Saya paham kalau Opus 4.7 yang sangat baru tidak dimasukkan, tetapi Opus 4.6 sudah keluar cukup lama
Belakangan ini kalau melihat penyedia Tiongkok, saya merasa ada pola. Pertama, mereka bergerak ke arah mempertahankan model sebagai closed source, dan kedua, mereka menaikkan harga cukup besar. Dalam beberapa kasus bahkan nyaris 100 persen
Yang menarik, seseorang bisa saja tahu seluruh keluarga model Qwen yang bisa dijalankan lokal, tetapi sama sekali tidak tahu sisi model cloud-nya. Saya sendiri hanya tahu seri 3.5 dan mungkin satu model 3.6, dan nama Plus baru kali ini saya dengar