- Dirilis sebagai pratinjau awal dari model hosted proprietari eksklusif, dengan peningkatan pada coding bergaya agen, pengetahuan dunia, dan kemampuan mengikuti instruksi dibanding Qwen3.6-Plus
- Disebut mencatat skor tertinggi di enam benchmark coding utama, dengan peningkatan terkonfirmasi pada SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, dan Terminal-Bench 2.0 +3.8
- Pada benchmark pengetahuan dunia, ditunjukkan peningkatan SuperGPQA +2.3 dan QwenChineseBench +5.3, sementara pada kemampuan mengikuti instruksi tercatat ToolcallFormatIFBench +2.8
- Akan tersedia di Alibaba Cloud Model Studio, bisa digunakan secara interaktif di Qwen Studio, dan di API mendukung nama
qwen3.6-max-preview serta fitur preserve_thinking
- Karena masih tahap pratinjau, pengembangan aktif akan terus berlanjut, dengan peningkatan tambahan di versi berikutnya dan refleksi umpan balik komunitas
Performa dan penggunaan
- Qwen3.6-Max-Preview adalah pratinjau awal dari model hosted proprietari eksklusif yang dirilis setelah Qwen3.6-Plus
- Untuk performa penggunaan nyata, disebutkan peningkatan pada agen nyata dan keandalan pengetahuan
- Disebut mencatat skor tertinggi pada enam benchmark coding utama
- SWE-bench Pro
- Terminal-Bench 2.0
- SkillsBench
- QwenClawBench
- QwenWebBench
- SciCode
- Pada benchmark coding bergaya agen, tercatat peningkatan besar dibanding Qwen3.6-Plus
- SkillsBench +9.9
- SciCode +6.3
- NL2Repo +5.0
- Terminal-Bench 2.0 +3.8
- Peningkatan juga terkonfirmasi pada benchmark terkait pengetahuan dunia
- SuperGPQA +2.3
- QwenChineseBench +5.3
- Kemampuan mengikuti instruksi juga meningkat
- ToolcallFormatIFBench +2.8
-
Mengembangkan dengan Qwen3.6-Max-Preview
- Penyediaan Qwen3.6-Max-Preview di Alibaba Cloud Model Studio akan segera dimulai, dan diminta untuk menunggu sampai sepenuhnya siap
- Disebutkan dapat digunakan melalui API Alibaba Cloud Model Studio sebagai
qwen3.6-max-preview, dan dapat langsung dicoba di Qwen Studio
-
Penggunaan API
- Rilis kali ini mendukung fitur
preserve_thinking
- Mempertahankan thinking content dari semua giliran sebelumnya dalam pesan
- Direkomendasikan untuk tugas bergaya agen
-
Alibaba Cloud Model Studio
- Mendukung protokol standar industri
- Mendukung chat completions API yang kompatibel dengan spesifikasi OpenAI
- Mendukung responses API yang kompatibel dengan spesifikasi OpenAI
- Mendukung antarmuka API yang kompatibel dengan Anthropic
- Menyertakan contoh variabel lingkungan
- Memerlukan
DASHSCOPE_API_KEY
DASHSCOPE_BASE_URL bersifat opsional
- Menyediakan contoh endpoint Beijing, Singapore, dan US Virginia
DASHSCOPE_MODEL bersifat opsional dengan nilai default qwen3.6-max-preview
- Dalam contoh kode digunakan
enable_thinking: True
preserve_thinking juga disertakan dalam contoh berbentuk komentar
- Menyediakan contoh pengumpulan
reasoning_content dan content secara terpisah dalam respons streaming
- Untuk informasi tambahan, diarahkan ke tautan dokumentasi API
Penutup
- Sebagai rilis pratinjau, perbaikan berulang akan terus berlanjut, dan peningkatan tambahan direncanakan di versi berikutnya
- Umpan balik komunitas disambut dan akan dimanfaatkan
1 komentar
Pendapat Hacker News
Rasanya agak lucu melihat orang terlalu terobsesi hanya pada perbandingan SOTA. Saya pernah melihat glm 5.1 berhasil melakukan hal-hal yang tidak bisa dilakukan Opus, dan juga menulis kode lebih baik. Saya belum mencoba qwen max, tetapi saya juga pernah melihat model lokal 122b membaca dokumen dengan lebih baik dan memprosesnya lebih akurat. Pada akhirnya benchmark hanya sebagian dari gambaran; di dunia nyata setiap model punya kekuatan yang berbeda, jadi menurut saya tidak tepat membandingkannya sekadar siapa lebih unggul, seperti membandingkan palu dengan kunci pas
Di kantor saya sudah beberapa bulan rutin memakai Claude Code, dan belum lama ini juga sangat terbantu untuk proyek website pribadi kecil. Akhir pekan lalu saya bahkan pertama kali mencoba self-hosting. Saya penasaran apakah ada yang sudah cukup lama memakai CC atau Codex lalu berhasil menemukan konfigurasi self-hosted yang cukup memuaskan. Saya menguji berbagai kombinasi ollama, docker desktop model runner, pi-coding-agent, opencode dengan Gemma 4, Qwen, GLM-5.1 pada lingkungan 32GB DDR5, AMD 7800X3D, RTX 4090, Windows dan WSL. Karena penggunaan RAM dasar sudah tinggi, saya tidak bisa menjalankan model bagus seperti Gemma4-31B. Di lingkungan Windows murni, penanganan path file sering bermasalah, sedangkan menjalankan pi atau opencode di WSL dan model di docker desktop lumayan berhasil. Namun performa yang benar-benar terasa masih terlalu lambat dibanding CC, dan dari sisi kematangan alat pun CC harness terasa jauh lebih baik. Saya terlalu banyak menghabiskan waktu untuk setup sehingga tidak sempat memakainya lama, tetapi tetap saja ini eksperimen yang menarik
Saya khawatir bidang ini akan mengalir ke pola: pertama membagikan gratis untuk membangun nama, lalu belakangan semuanya diubah jadi proprietary. Meski begitu, saya tetap berharap open weights terus dirilis. Kalau suatu hari tidak ada lagi yang merilis open weights, rasanya akan sangat pahit. Kalau dunia seperti itu datang, orang biasa kemungkinan akan makin sulit memiliki compute mereka sendiri
Hari ini Kimi K2.6 juga dirilis, jadi rasanya sangat wajar membandingkan keduanya. Dari harga saja, Qwen terlihat lebih mahal: input 1,3 dolar dan output 7,8 dolar, sedangkan Kimi input 0,95 dolar dan output 4 dolar. Di tulisan pengumuman itu pun hanya ada dua benchmark yang tumpang tindih, dan pada SWE-Bench Pro maupun Terminal-Bench 2.0, Kimi sedikit lebih tinggi daripada Qwen. Tentu tiap model punya kekuatan berbeda dan benchmark bukan segalanya, tetapi kalau hanya melihat angka, Kimi terasa lebih menarik
Ironi pengumuman ini menurut saya ada pada namanya sendiri. Max-Preview itu proprietary dan cloud-only. Bagi saya, Qwen yang benar-benar penting adalah seri open weights yang dijalankan orang di hardware mereka sendiri. Saya menjalankan 32B dan 72B secara lokal dengan dual A4000. Masih ada jarak dengan Max hosted, tetapi tiap kali rilis, jarak itu terlihat makin kecil. Jadi pertanyaan yang benar-benar menarik bukan bagaimana Max dibandingkan dengan Opus, melainkan kapan tier open-weight akan membuat tier cloud menjadi tidak relevan untuk sebagian besar workload
Sementara semua orang mengejar SOTA, saya menjalankan beberapa sesi paralel dengan MiniMax M2.5 dan menyelesaikan semua pekerjaan coding saya hanya dengan 10 dolar per bulan, dan hampir tidak pernah terkena batas
Saya juga membaca dokumentasi context caching Qwen dan menguji Opus, Codex, dan Qwen bersama-sama, dan memang terasa bahwa Qwen kuat pada banyak tugas coding. Namun yang paling saya perhatikan adalah bagaimana perilakunya dalam sesi panjang. Qwen memang menonjolkan context window besar, tetapi efisiensi long-context yang sebenarnya tampaknya sangat dipengaruhi oleh cara context caching bekerja. Menurut dokumentasi resmi, mereka menyediakan implicit dan explicit caching, tetapi TTL-nya hanya beberapa menit dan ada batasan seperti pencocokan berbasis prefix serta syarat token minimum. Karena batasan-batasan ini, pada workflow seperti coding agent yang konteksnya terus membesar, reuse cache mungkin tidak berjalan sebaik yang diharapkan. Jadi meskipun harga per token terlihat rendah, dalam sesi panjang cache hit rate bisa turun dan komputasi ulang meningkat, sehingga biaya yang terasa bisa jadi lebih tinggi. Meski begitu, untuk pekerjaan terkait keamanan saya pribadi pernah melihat Qwen bekerja lebih baik daripada Opus. Dalam pengalaman saya, untuk tugas pendek seperti level metode atau fungsi individual, Qwen jauh lebih baik daripada Opus, tetapi untuk pengalaman coding secara keseluruhan, ia terasa lebih seperti generator level fungsi daripada coding assistant end-to-end yang otonom seperti Claude
Melihat Qwen membandingkan dirinya dengan Opus 4.5, rasanya agak sulit menerimanya dengan itikad baik. Saya paham kalau Opus 4.7 yang sangat baru tidak dimasukkan, tetapi Opus 4.6 sudah keluar cukup lama
Belakangan ini kalau melihat penyedia Tiongkok, saya merasa ada pola. Pertama, mereka bergerak ke arah mempertahankan model sebagai closed source, dan kedua, mereka menaikkan harga cukup besar. Dalam beberapa kasus bahkan nyaris 100 persen
Yang menarik, seseorang bisa saja tahu seluruh keluarga model Qwen yang bisa dijalankan lokal, tetapi sama sekali tidak tahu sisi model cloud-nya. Saya sendiri hanya tahu seri 3.5 dan mungkin satu model 3.6, dan nama Plus baru kali ini saya dengar